所有文章 > 正文

LMSYS-Chat-1M 数据集:包含LLM 的 100 万个真实对话

作者: AMiner AI

时间: 2024-09-10 15:57

想把握最新的科技进展和研究成果,却发现自己的阅读速度根本赶不上文献产出的速度?

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。

今日精选了5篇LLM领域的优秀论文,为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息。

1.本文提出了一种新的方法,名为CRAFT,用于生成特定任务的合成数据集。该方法通过用户编写的少量示例来展示任务,然后利用大规模公开的网络爬取语料库和基于相似度的文档检索来找到其他相关的人类编写文档。之后,通过指导微调的大语言模型(LLM)增强检索到的文档,形成定制格式的任务样本,用于微调。研究结果表明,CRAFT可以高效地为四个不同任务生成大规模特定任务的训练数据集,包括生物问答、医学问答、常识问答以及总结。实验显示,基于CRAFT的模型在问答任务中的表现优于或相当于通用LLM,而基于CRAFT的总结模型比基于人工整理数据的模型高出46个偏好点。

链接:A Survey of Prompt Engineering Methods in Large Language Models for Different NLP Tasks - AMiner

2.Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders

这篇论文研究了多模态大型语言模型(MLLMs)在处理复杂视觉信息方面的设计空间,重点探讨了使用混合视觉编码器的方法。研究指出,通过增强视觉感知能力可以显著减少幻觉现象,并提高在分辨率敏感任务上的表现。论文对多种视觉编码器的组合和分辨率进行了系统探索,发现了现有策略中一些共同的底层原则,并提出了一个简化但有效的设计方法。研究发现,仅通过连接一组互补视觉编码器的视觉标记,就能达到与更复杂的混合架构或策略相当的效果。此外,论文还引入了预对齐技术,以增强视觉编码器与语言标记之间的连贯性。最终提出的MLLMs系列——Eagle,在主要的多模态大型语言模型基准测试中超过了其他领先的开放源代码模型。相关模型和代码已公开。

链接:Eagle: Exploring the Design Space for Multimodal LLMs with Mixture of Encoders - AMiner

3.LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset

这篇论文介绍了一个名为 LMSYS-Chat-1M 的大规模真实世界语言模型(LLM)对话数据集。由于 LLM 在各种应用中的广泛使用,研究人们如何在与 LLM 交互的真实场景中与其互动变得越来越重要。在本文中,作者介绍了 LMSYS-Chat-1M 数据集,该数据集包含与 25 个最先进的 LLM 的 100 万个真实对话。该数据集从我们在野外的 210K 个唯一 IP 地址收集,并在我们的 Vicuna 演示和聊天机器人竞技场网站上。我们提供了数据集内容的概述,包括其策展过程、基本统计数据和主题分布,突出了其多样性、原创性和规模。我们通过四个用例展示了其多功能性:开发与 GPT-4 表现相似的内容审核模型,构建安全基准,训练与 Vicuna 表现相似的指令跟随模型,以及创建具有挑战性的基准问题。我们相信,这个数据集将有助于了解和提高 LLM 的能力。数据集在 \url{https://huggingface.co/datasets/lmsys/lmsys-chat-1m} 公开可用。

链接:LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset - AMiner

4.Training-Free Activation Sparsity in Large Language Models

这篇论文介绍了一种名为TEAL的方法,该方法可以在不进行训练的情况下,在大规模语言模型中实现激活稀疏性。通过减少前向传播过程中矩阵乘法所需的计算和内存迁移,激活稀疏性可以提高推理速度。TEAL方法适用于整个模型的隐藏状态,基于幅度进行激活稀疏性处理,无需针对旧模型或进行大量预训练。研究结果显示,TEAL在Llama-3和Mistral系列模型中,模型大小从70亿到7亿不等,实现了40-50%的激活稀疏性。此外,论文还优化了现有的稀疏内核,并在保持40%稀疏性的情况下,实现了最多1.53倍和1.8倍的 wall-clock 解码速度提升,并且与权重量化兼容,能够进一步获得效率收益。

链接:Training-Free Activation Sparsity in Large Language Models - AMiner

5.Law of Vision Representation in MLLMs

本文探讨了多模态大型语言模型(MLLMs)中的“视觉表征定律”。研究发现,跨模态对齐和视觉表征的一致性之间与MLLM性能存在强烈相关性。作者使用跨模态对齐和一致性评分(AC评分)来量化这两个因素。通过在十三种不同的视觉表征设置上进行大量实验,并在八个基准上进行评估,结果表明AC评分与模型性能呈线性相关。利用这一关系,作者能够仅优化视觉表征,而无需每次都对语言模型进行微调,从而实现了99.7%的成本节约。

链接:Law of Vision Representation in MLLMs - AMiner

二维码 扫码微信阅读
推荐阅读 更多