LLM在评估生成自然语言质量方面的潜力与局限

作者: AMiner AI

时间: 2024-09-03 14:32

想把握最新的科技进展和研究成果，却发现自己的阅读速度根本赶不上文献产出的速度？

大模型(LLM)是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构，如转化器，这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底，OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT，由于其优秀的表现，ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题，吸引了广大科研人员和开发者的关注和参与。

今日精选了5篇LLM领域的优秀论文，为了方便大家阅读，只列出了论文标题、AMiner AI综述等信息。

1.本文探讨了大型语言模型（LLM）在评估生成自然语言质量方面的潜力与局限。尽管LLM显示出作为自动评估者的有前景的能力，但它们在评估中仍表现出偏见，并且常常难以生成与人类评估相一致的连贯评价。本文首先系统研究了LLM评估者与人类判断之间的不一致性，指出旨在减轻偏见的现有校准方法不足以有效地对齐LLM评估者。受RLHF中使用偏好数据的启发，我们将评估视为一个排序问题，并引入了一种名为Pairwise-preference Search（PairS）的不确定性引导搜索方法，该方法利用LLM进行成对比较，并有效地对候选文本进行排名。PairS在代表性的评估任务上取得了最先进的表现，并显著超过了直接评分的性能。此外，本文还提供了关于成对偏好在量化LLMs的可传递性方面的作用的研究成果，并展示了PairS如何从校准中受益。

链接：Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators - AMiner

2.Turbo Sparse: Achieving LLM SOTA Performance with Minimal Activated Parameters

本文介绍了一种新的激活稀疏技术，称为Turbo Sparse，旨在加速大型语言模型（LLM）的推理过程，同时不牺牲性能。为了解决现有稀疏技术效果有限的问题，作者提出了一个新颖的dReLU函数，该函数能提高LLM的激活稀疏度，并搭配高质量的训练数据混合比例以有效稀疏化。此外，文章还利用混合专家（MoE）模型中的前馈网络（FFN）专家的稀疏激活模式，进一步提高效率。通过将提出的神经元稀疏化方法应用于Mistral和Mixtral模型，分别在每次推理迭代中激活25亿和43亿参数，同时实现了更强大的模型性能。评估结果显示，这种稀疏性可以实现2-5倍的解码加速。值得注意的是，在手机上，TurboSparse-Mixtral-47B的推理速度达到了每秒11个token。作者将模型公开在https://huggingface.co/PowerInfer上。

链接：Turbo Sparse: Achieving LLM SOTA Performance with Minimal Activated Parameters - AMiner

3.TigerBot: An Open Multilingual Multitask LLM

本文介绍了TigerBot这一系列大型语言模型(LLM),包括基础模型和聊天模型,参数规模从70亿到1800亿不等。作者基于Llama-2和BLOOM开发模型,并在数据、训练算法、基础设施和应用工具等方面进一步拓展。相比于现有的开源模型(如Llama-2),TigerBot模型在英语和中文上的表现分别提升了6%和20%。此外,TigerBot模型在主要的学术和工业基准测试中表现优异。作者认为TigerBot只是LLM开源社区快速发展的一瞥,因此他们很高兴通过公开发布自己的模型并分享背后的方法来回馈社区,特别强调了以民主化方式构建最先进LLM以及将LLM应用于现实世界中的重要性。

链接：TigerBot: An Open Multilingual Multitask LLM - AMiner

4.这篇论文介绍了一种新的数据集CodeUltraFeedback，用于评估大型语言模型（LLM）与用户定义的编程偏好之间的对齐情况。现有的基准测试无法评估用户指令和LLM输出的细微差别，因此需要大规模的数据集和基准测试来评估LLM偏好对齐。该论文提出了一种通过AI反馈来调整和使LLM与编程偏好对齐的方法，创建了一个包含10,000个复杂指令的偏好数据集，并使用GPT-3.5的LLM-as-a-Judge方法对其进行注释。此外，他们还提出了CODAL-Bench，一个用于评估LLM与这些编程偏好对齐情况的基准测试。研究结果显示，使用CodeUltraFeedback的AI反馈数据通过强化学习进行直接偏好优化（DPO）的CodeLlama-7B-Instruct模型在CODAL-Bench上表现优于34B LLM模型，验证了CodeUltraFeedback在偏好调优方面的实用性。此外，他们还显示，经过DPO调整的CodeLlama模型在HumanEval+上的功能正确性比未调整的基模型有所提高。因此，这项工作填补了LLM代码偏好调优方面的空白，并为模型对齐和代码智能方面的进一步发展奠定了基础。论文的数据和代码可在https://github.com/martin-wey/CodeUltraFeedback获取。

链接：CodeUltraFeedback: An LLM-as-a-Judge Dataset for Aligning Large Language Models to Coding Preferences - AMiner

5.LLMSTEP: LLM proofstep suggestions in Lean

本文介绍了一种名为LLMSTEP的工具，该工具将大型语言模型整合到了Lean证明助手中。LLMSTEP是一个Lean 4战术，它会将用户的证明状态发送到一个托管语言模型的服务器。该语言模型会生成建议，这些建议在Lean中得到检查，并在用户的开发环境中展示给他们。作者提供了一个基础语言模型，以及用于微调和评估的代码，以支持进一步的开发。他们还提供了在CPU、CUDA GPU或Google Colab笔记本上运行的服务器实现，作为向任何用户快速有效的语言模型建议迈出的一步。

链接：LLMSTEP: LLM proofstep suggestions in Lean - AMiner

扫码微信阅读

LMSYS-Chat-1M 数据集：包含LLM 的 100 万个真实对话

AMiner AI

727

自动对抗性提示编写和安全性回应生成提高LLM安全性