所有文章 > 正文

探索LLM中的跨语言知识表示共享

作者: AMiner AI

时间: 2024-08-26 09:59

想把握最新的科技进展和研究成果,却发现自己的阅读速度根本赶不上文献产出的速度?

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。

今日精选了5篇LLM领域的优秀论文,为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息。

1.本文探讨了跨语言知识表示共享在大型语言模型(LLMs)中的表现。尽管事实的真实性在很大程度上与语言的书写无关,但语言模型在不同语言之间回答同一事实问题的能力存在不一致性。这引发了关于LLMs如何跨语言表示给定事实的问题。我们从两个方面探索跨语言的事实知识:模型在不同语言上一致回答查询的能力,以及将答案存储在多个语言共享表示中的能力。我们提出了一种通过重新使用知识编辑方法来衡量跨语言表示共享程度的方法。我们使用一个新的多语言数据集检查了具有不同多语言配置的LLMs。我们发现,高一致性并不一定意味着共享表示,特别是对于使用不同文字的语言。此外,我们发现文字相似性在表示共享中是一个主导因素。最后,我们观察到,如果LLMs能够完全跨语言共享知识,它们在表现最佳的语言上的准确性平均可以提高150%。这些发现突出了LLMs中需要改进的跨语言知识表示,并指出了开发更健壮和一致的多语言LLMs的路径。

链接:Beneath the Surface of Consistency: Exploring Cross-lingual Knowledge Representation Sharing in LLMs - AMiner

2.RAG Foundry: A Framework for Enhancing LLMs for Retrieval Augmented Generation

本文介绍了RAG Foundry框架,该框架用于增强大型语言模型以支持检索增强生成的使用场景。RAG Foundry是一个开源框架,它集成了数据创建、训练、推理和评估的工作流程,使创建数据增强的数据集变得简单,这些数据集可用于在RAG设置中训练和评估大型语言模型。这种集成使得可以快速原型设计和实验,使用户能够轻松地使用内部或专业知识源生成数据集并训练RAG模型。文章通过使用不同的RAG配置对Llama-3和Phi-3模型进行增强和微调,并在三个知识密集型数据集上展示了框架的有效性,显示出一致的改进。代码作为开源发布在https://github.com/IntelLabs/RAGFoundry。

链接:RAG Foundry: A Framework for Enhancing LLMs for Retrieval Augmented Generation - AMiner

3.本文概要性地介绍了对大型语言模型(LLM)越狱攻击的全面评估。近年来,LLM的滥用引起了广泛关注,为此采取了保障措施以确保其符合社会伦理。然而,最新的研究揭示了一种绕过LLM保障措施的令人不安的漏洞,即越狱攻击。通过应用角色扮演、对抗性示例或以微妙的方式颠覆安全目标等技巧作为提示,LLM可能会生成不恰当或甚至有害的响应。尽管研究者已经研究了几种越狱攻击的类型,但这些都是单独进行的。为了填补这一空白,我们首次大规模测量了各种越狱攻击方法。我们关注了来自四个类别的13种尖端越狱方法,160个问题以及来自16个违规类别的问题,还有六种流行的LLM。我们的广泛实验结果表明,优化后的越狱提示 consistently achieve the highest attack success rates,并且在不同的LLM上也表现出鲁棒性。一些可以从互联网上获得的越狱提示数据集也能在许多LLM上取得高攻击成功率,例如ChatGLM3、GPT-3.5和PaLM2。尽管许多组织声称他们的政策涵盖了违规类别,但这些类别中的攻击成功率仍然很高,表明有效地对齐LLM政策及其对抵消越狱攻击的能力仍然是一个挑战。我们还讨论了攻击表现和效率之间的权衡,并显示越狱提示的可转移性仍然可行,成为黑盒模型的一个选择。总的来说,我们的研究强调了评估不同越狱方法的重要性。我们希望我们的研究能为未来的越狱攻击研究提供见解,并为从业者提供一个评估它们的基准工具。

链接:Comprehensive Assessment of Jailbreak Attacks Against LLMs - AMiner

4.本文研究了如何将大型语言模型应用于从头开始撰写具有类似维基百科页面广度和深度的扎实且有组织的长篇文章。这个尚未充分探索的问题在写作前阶段提出了新的挑战,包括如何研究主题和撰写提纲。我们提出了STORM,一个通过检索和多角度提问合成主题大纲的写作系统。STORM通过以下方式模拟写作前的阶段:(1)发现研究给定主题时的不同视角,(2)模拟作家们带着不同视角,基于可信的互联网来源向话题专家提出问题,(3)整理收集到的信息以创建提纲。

链接:Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models - AMiner

5.本文介绍了MiniCPM-V这一系列可以在终端设备上部署的高效多模态大型语言模型(MLLM)。尽管MLLM在人工智能研究和产业中展现出巨大潜力,但是由于其模型参数庞大,计算需求繁重,导致运行成本高昂,大多需部署在高性能云服务器上,限制了其在移动、离线、能源敏感和隐私保护等场景的应用。MiniCPM-V通过整合最新的MLLM架构、预训练和校准技术,具备了多项显著特点:性能强大,超过GPT-4V-1106、Gemini Pro和Claude 3在内的多项评测基准;拥有强大的OCR能力和1.8M像素的高分辨率图像感知能力,适应任意比例;具有较低的虚构率,行为可信;支持超过30种语言;且能在手机上高效部署。最重要的是,MiniCPM-V可以看作是一个代表未来趋势的典型案例:即在保持可用的(例如GPT-4V)级别性能的同时,模型大小正在迅速减小,这与终端计算能力的快速增长相匹配。这表明,在不久的将来,GPT-4V级别的MLLM部署在终端设备上将成为可能,从而解锁更广泛的真实世界人工智能应用。

链接:MiniCPM-V: A GPT-4V Level MLLM on Your Phone - AMiner

二维码 扫码微信阅读
推荐阅读 更多