所有文章 > 正文

当大型语言模型遇上信息检索评估:是颠覆还是革新?

作者: AMiner AI

时间: 2024-04-17 10:30

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。

它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。

本周精选了5篇LLM领域的优秀论文,为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息.

 1.这篇论文的摘要讨论了生成式信息检索评估的两个相互关联的视角。首先,大规模语言模型(LLM)本身正在迅速成为评估工具,现有研究表明,LLM在基本的相关性判断任务上可能优于众包工人和其他付费评估员。我们回顾了过去和正在进行的相关研究,包括对TREC等共享任务计划的未来的猜测,以及对持续需要人工评估的讨论。其次,我们考虑了基于LLM的新兴生成式信息检索(GenIR)系统的评估,包括检索增强生成(RAG)系统。我们考虑了关注GenIR系统的端到端评估和作为RAG系统中一个元素的检索组件评估的方法。展望未来,我们预计GenIR系统的评估至少部分将基于LLM评估,从而产生一种明显的循环,即系统似乎在评估自己的输出。我们通过两种方式解决了这种明显的循环性:1)将LLM评估视为一种“慢搜索”,其中较慢的IR系统用于评估和训练较快的生产IR系统;2)即使人类评估的特性的必须改变,也认识到持续将评估建立在人类评估上的需要。

链接:Generative Information Retrieval Evaluation - AMiner

2. I该研究基于2018年5月至2024年1月间提交的超过一百万篇arXiv预印本论文,通过统计分析词频变化的方法,评估了ChatGPT写作风格在论文摘要中的文本密度。研究者在仔细进行噪声分析后,使用真实摘要和经ChatGPT修改的摘要(模拟数据)混合来校准和验证模型。研究发现,ChatGPT对arXiv摘要的影响日益增强,特别是在计算机科学领域,估计有大约35%的摘要经过了ChatGPT的修改。研究还对比了ChatGPT进入学术写作风格的积极和负面效果。

链接:Is ChatGPT Transforming Academics' Writing Style? - AMiner

3. 这篇论文探讨了在大型语言模型(LLMs)中令牌化的理论。尽管已有大量研究试图绕过令牌化以进行语言建模(Clark等人,2022;Xue等人,2022),但目前普遍认为,它是设计最先进性能语言模型的必要初始步骤。本文从理论角度研究了令牌化,通过研究变压器在简单数据生成过程上的行为。当变压器在对来自某些简单的k阶马尔可夫过程中的数据进行训练时,k > 1,它们展示了一个令人惊讶的现象——在没有令牌化的情况下,它们实际上无法学习正确的分布,并按照单字符模型(Makkuva等人,2024)预测字符。然而,在增加了令牌化之后,我们观察到变压器突破了这一障碍,能够近似最优地建模从源生成的序列的概率,实现了小的交叉熵损失。以此观察作为起点,我们研究了变压器带和不带令牌化时的端到端交叉熵损失。通过适当的令牌化,我们证明了即使是最简单的由变压器学习到的令牌上的单字符模型也能够近似最优地建模k阶马尔可夫源生成的序列的概率。我们的分析通过研究变压器在马尔可夫数据上的行为,为实际中使用令牌化提供了依据。

链接:Toward a Theory of Tokenization in LLMs - AMiner

4. 本文介绍了Ferret-v2,这是对Ferret模型的一个重要改进。Ferret模型能够将区域理解整合到大型语言模型中,以提高其指称和定位能力,但它存在一些局限性,比如受到预训练的固定视觉编码器的限制,并且在新任务上的表现不佳。Ferret-v2在三个关键设计方面进行了升级:(1)任意分辨率定位和指称:采用了一种灵活的方法,可以轻松处理高图像分辨率,从而提高模型处理和理解更详细图像的能力;(2)多粒度视觉编码:通过集成额外的DINOv2编码器,模型可以学习更好和更多样的底层上下文,以处理全局和细粒度的视觉信息;(3)三阶段训练范式:除了图像-字幕对齐之外,新增了一个高分辨率密集对齐阶段,在对最终指令进行微调之前进行。实验表明,由于高分辨率缩放和细粒度视觉处理,Ferret-v2在性能上比Ferret和其他先进方法有显著提升。

链接:Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models - AMiner

 5. 本文介绍了一种名为Medical mT5的开源多语言文本到文本模型,该模型专为医疗领域设计,以促进人机交互。目前,自然语言理解和生成中语言技术的发展已经成为热点,许多大型语言模型(LLM)已经被适配到医疗领域,以作为人工智能中介工具。然而,这些LLM主要是在单一语言(通常是英语)上进行预训练和评估,特别是文本到文本模型,通常需要大量的领域特定预训练数据,而这些数据对于许多语言来说并不容易获得。为了解决这些问题,作者汇编了迄今为止最大的多语言医疗领域语料库,涵盖英语、法语、意大利语和西班牙语四种语言,并利用这个新语料库训练了Medical mT5,这是第一个开源的医疗领域多语言文本到文本模型。此外,作者还提出了两个新的评估基准,以促进在此领域内的多语言研究。全面的评估显示,Medical mT5在西班牙语、法语和意大利语的基准测试中优于编码器和类似大小的文本到文本模型,而在英语方面则与当前最先进的LLM竞争。

链接:Medical mT5: An Open-Source Multilingual Text-to-Text LLM for The Medical Domain - AMiner

二维码 扫码微信阅读
推荐阅读 更多