大型语言模型能否提高情感分析的准确性？

作者: AMiner AI

时间: 2024-05-15 14:12

别担心，AMiner AI会帮助你高效检索和阅读文献！

大模型(LLM)是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构，如转化器，这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底，OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT，由于其优秀的表现，ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题，吸引了广大科研人员和开发者的关注和参与。

本周精选了5篇LLM领域的优秀论文，为了方便大家阅读，只列出了论文标题、AMiner AI综述等信息。

1.这篇论文探讨了大型语言模型（LLM）是否可以用来填补相关性判断的空白。不完整的相关性判断限制了测试集合的重用性。当新系统与用于构建判断文档池的先前系统相比较时，它们通常由于测试集合中的“空白”（即新系统返回的未评估文档的口袋）而处于不利地位。本文在TREC iKAT对话搜索的背景下，首次尝试通过利用现有的 human judgments并将其与LLM结合，扩展现有的测试集合来填补这些空白。我们发现，当使用人类加自动判断时，相关性排名的相关性要低得多（不管使用哪种LLM，一对一/两枪/微调）。我们进一步发现，根据所使用的LLM，新运行将非常受青睐（或受到惩罚），这种效果与空白的大小成比例增加。相反，为了实现与人类生成的标签更一致的排名，应该对整个文档池生成LLM注释。未来的研究需要通过工程和微调LLM来反映和表示人类注释，以扎根和调整模型，使它们更符合目的。

链接：Can We Use Large Language Models to Fill Relevance Judgment Holes? - AMiner

2. 这篇论文探讨了如何从大型语言模型（LLM）中激发多样化的行为。大型语言模型是在包含多种人格特质的大量文本语料库上训练而成的。这激发了一个有趣的目标，即激发LLM的期望人格特质，并探测其行为偏好。为此，作者正式提出了个性激发任务，旨在定制LLM行为，使其与目标个性对齐。他们提出了一个名为Persona In-Context Learning (PICLe)的新颖个性激发框架，该框架基于贝叶斯推理。核心部分，PICLe引入了一种新的ICL示例选择标准，基于似然比，旨在最优地指导模型激发特定的目标个性。作者通过与三种现代LLM的基线方法进行广泛的比较来证明PICLe的有效性。

链接：PICLe: Eliciting Diverse Behaviors from Large Language Models with Persona In-Context Learning - AMiner

3.这篇论文探讨了语言模型在情感分析方面的应用。情感分析是文本分析中使用最广泛的技巧之一。近年来，随着大型语言模型的进步，情感分析变得更加准确和易于获取，研究人员仅凭普通的英文提示就可以分类文本。然而，“情感”这个词在不同的领域和使用的工具中包含了各种各样的概念。它被用来表示情绪、观点、市场运动，或者简单地表示一种一般的“好-坏”维度。这引发了一个问题：当被要求根据情感来标记文档时，语言模型究竟在做些什么？本文首先概述了在不同情境下情感是如何定义的，指出情感是一个混杂的测量构造，因为它包含了多个变量，如情绪的正向负向和观点，但没有将它们分开。然后，我在两个数据集上测试了三种语言模型，并用提示请求情感、正向负向和立场分类。我发现，情感标签与正向负向标签最强烈相关。我进一步发现，当研究人员更精确地指定他们感兴趣的维度，而不是使用定义不明确的情感概念时，分类会得到改善。最后，作者鼓励在可能的情况下，研究人员应该超越“情感”，并使用更精确的测量构造。

链接：What is Sentiment Meant to Mean to Language Models? - AMiner

4. A Survey on Large Language Models for Critical Societal Domains: Finance, Healthcare, and Law

本文是一篇关于大型语言模型在关键社会领域应用的调查报告，主要关注金融、医疗和法律三个领域。在人工智能快速发展的背景下，像GPT-3和GPT-4这样的大型语言模型正在改变这些依赖专业 expertise、数据获取困难、风险高、合规要求严格的领域。本文详细探讨了大型语言模型在这些高风险行业的方法学、应用、挑战和未来机遇。文章指出，大型语言模型在提高医疗诊断和治疗方法、创新金融分析、完善法律解释和合规策略方面发挥了关键作用。同时，本文也批判性地审视了这些领域大型语言模型应用的伦理问题，指出了现有的伦理担忧，并呼吁建立尊重监管规范的透明、公平、强大的AI系统。通过呈现对当前文献和实际应用的全面回顾，本文展示了大型语言模型的变革性影响，并概述了跨学科合作、方法学进步和伦理警觉的迫切需要。本文旨在激发对话，激励未来研究，以最大限度地发挥大型语言模型在这些精确依赖领域的益处，同时减轻其风险。

链接：A Survey on Large Language Models for Critical Societal Domains: Finance, Healthcare, and Law - AMiner

5.这篇论文提出了一种原则性的程序，用于确定在通用领域中，大型语言模型（LLM）何时应该放弃回应（例如，通过说“我不知道”），而不是 resorting 到可能“虚构”一个不合适或错误的答案。基于早期使用自我一致性作为模型置信度更可靠的度量方法，我们提出使用 LLM 本身对给定查询的每个采样响应之间的相似性进行自我评估。我们进一步利用 conformal prediction 技术开发了一种放弃程序，从严格的理论保证方面来看，这种程序有助于减少虚构率（错误率）。实验结果显示，我们 resulting conformal abstention 方法可靠地限制了各种闭卷、开域生成式问答数据集上的虚构率，同时与使用对数概率分数来量化不确定性的基线相比，该方法在具有长回答（时间序列）的数据集上的放弃率明显较低，而在具有短回答（TriviaQA）的数据集上取得的结果相当。为了自动评估实验，需要确定给定问题下两个回答是否等价。遵循标准实践，我们使用阈值相似性函数来确定两个回答是否匹配，但也提供了一种基于 conformal prediction 校准阈值的方法，具有关于匹配预测准确性的理论保证，这可能具有独立价值。

链接：Mitigating LLM Hallucinations via Conformal Abstention - AMiner

扫码微信阅读

训练数据匮乏：LLM在正式定理证明中的挑战

AMiner AI

GPU内存瓶颈：大规模语言模型推理能力的制约因素