所有文章 > 正文

Google DeepMind 新研究:通过神经压缩文本训练 LLM|大模型周报

作者: 学术头条

时间: 2024-04-08 09:34

Google DeepMind 新研究:通过神经压缩文本训练 LLM

本周值得关注的大模型 / AIGC 前沿研究

斯坦福提出语言模型微调新方法 ReFT

Google DeepMind 新研究:通过神经压缩文本训练 LLM

RALL-E:用于“文生语音”的鲁棒语言建模方法

Google DeepMind 新研究:在基于 Transformer 的语言模型中动态分配计算量

InstantStyle:实现“风格保护”的文生图

清华团队推出 Eurus:用偏好树推进 LLM 推理通才的发展

DiffAgent:利用大型语言模型快速准确地选择文生图 API

WavLLM:实现鲁棒性和自适应语音大语言模型

清华朱军团队新研究:从单一图像到 3D 生成

华为新研究:减少 Transformer 计算负荷,让大模型更高效

苹果提出 ReALM:用大模型解析各种参考信息

Google DeepMind 推出 Gecko:实现强大的检索性能

Jamba:混合 transformer-Mamba 语言模型

1.斯坦福提出语言模型微调新方法 ReFT

参数高效微调(PEFT)方法试图通过更新少量权重来调整大模型。然而,之前的许多可解释性研究表明,表征可以编码丰富的语义信息,这表明编辑表征可能是一种更强大的替代方法。

为此,来自斯坦福大学和 Pr(Ai)²R Group 的研究团队通过开发一系列表征微调(ReFT)方法来实现这一假设。

据介绍,ReFT 方法在冻结的基础模型上运行,并学习针对特定任务对隐藏表征的干预。他们定义了 ReFT 系列的一个强实例,即低秩线性子空间 ReFT(LoReFT)。LoReFT 可直接替代现有的 PEFT,其学习干预的参数效率是之前 SOTA PEFT 的 10-50 倍。

在八项常识推理任务、四项算术推理任务、Alpaca-Eval v1.0 和 GLUE 上,LoReFT 在效率和性能之间实现了最佳平衡,几乎总是优于最先进的 PEFT。

论文链接:ReFT: Representation Finetuning for Language Models - AMiner

2.Google DeepMind 新研究:通过神经压缩文本训练 LLM

来自 Google DeepMind 和 Anthropic 的研究团队探讨了在高度压缩文本上训练大型语言模型(LLM)的想法。

标准的分词 tokenizer 只能将文本压缩一小部分,而神经文本压缩器可以实现更高的压缩率。如果有可能直接在神经压缩文本上训练 LLM,这将在训练和服务效率方面带来优势,且更容易处理长文本跨度。实现这一目标的主要障碍在于,强压缩往往会产生不透明的输出,不适合学习。特别是,通过算术编码进行压缩的文本不容易被 LLM 学习。

为了克服这一问题,研究团队提出了一种新颖的压缩技术“等信息窗口”(Equal-Info Windows),它将文本分割成多个区块,每个区块压缩成相同的比特长度。利用这种方法,他们展示了对神经压缩文本的有效学习,学习效果随着规模的扩大而提高,并在易错性和推理速度基准上远远超过了字节级基准。

对于使用相同参数数量训练的模型,这一方法比分词 tokenizer 的迷惑性更差,但它的优点是序列长度更短。较短的序列长度需要较少的自回归生成步骤,从而减少了延迟。最后,他们对有助于提高可学习性的特性进行了广泛分析,并就如何进一步提高高压缩标记化器的性能提出了具体建议。

论文链接:Training LLMs over Neurally Compressed Text - AMiner

3.RALL-E:用于“文生语音”的鲁棒语言建模方法

来自微软、东京大学的研究团队及其合作者提出了一种用于文本到语音(TTS)合成的鲁棒语言建模方法 RALL-E。

虽然以前基于大型语言模型(LLM)的工作在零样本 TTS 上显示出了不错的性能,但由于语言模型的自回归预测风格,这些方法往往存在鲁棒性差的问题,如不稳定的前音(奇怪的音高和节奏/持续时间)和高词错误率(WER)。

据介绍,RALL-E 背后的核心理念是思维链(CoT)提示,它将任务分解成更简单的步骤,从而增强基于 LLM 的 TTS 的鲁棒性。为了实现这一理念,RALL-E 首先预测输入文本的前音特征(音高和时长),并将其作为中间条件,预测 CoT 风格的语音 token。其次,RALL-E 利用预测的时长提示来指导 Transformer 中自注意力权重的计算,从而强制模型在预测语音 token 时关注相应的音素和前音特征。

客观和主观评估结果表明,与基线方法 VALL-E 相比,RALL-E 显著提高了零样本 TTS 的 WER,分别从 6.3%(无重排)和 2.1%(有重排)降至 2.8% 和 1.0%。此外,RALL-E 可以正确合成 VALL-E 难以合成的句子,并将错误率从 68% 降低到 4%。

论文链接:RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis - AMiner

4.Google DeepMind 新研究:在基于 Transformer 的语言模型中动态分配计算量

基于 Transformer 的语言模型在输入序列中均匀分配 FLOP。

在这项工作中,来自 Google DeepMind 的研究团队证明了 Transformer 可以学会动态地将 FLOP(或计算)分配到序列中的特定位置,并优化整个模型深度中不同层的序列分配。

该方法通过对特定层中可参与自我注意和 MLP 计算的 token 数量(k)设置上限,强制执行总计算预算。要处理的 token 由网络通过 top-k 路由机制确定。由于 k 是先验定义的,因此与其他条件计算技术不同,这种简单的程序使用的是已知张量大小的静态计算图。不过,由于 k token 的身份是不固定的,因此这种方法可以在时间和模型深度维度上不均匀地消耗 FLOP。因此,计算消耗在总和上是完全可预测的,但在 token 级上却是动态的,且与上下文相关。

通过这种方法训练的模型不仅能学会动态分配计算量,而且效率很高。这些模型在同等 FLOPS 和 wall-clock 训练时间下的性能与基线性能相当,但每次前向传递所需的 FLOPS 仅为基线的一小部分,而且在训练后采样期间,速度可提高 50% 以上。

论文链接:Mixture-of-Depths: Dynamically allocating compute in transformer-based language models - AMiner

5.InstantStyle:实现“风格保护”的文生图

基于 Tuning-free 扩散的模型已经在图像个性化和定制领域展现出了巨大潜力。

然而,目前的模型在生成风格一致的图像时仍然面临着一些复杂的挑战。首先,风格的概念本质上是不确定的,它包含多种元素,如颜色、材料、氛围、设计和结构等等。其次,基于反转的方法容易造成风格退化,往往会导致精细细节的丢失。最后,基于适配器的方法经常需要对每张参考图像进行细致的权重调整,从而实现风格强度和文本可控性之间的平衡。

在这项工作中,InstantX 团队首先研究了几个引人注目但却经常被忽视的问题。然后,他们提出了一个用于解决这些问题的框架——InstantStyle,包括两个关键策略:(1)一种直接的机制,将风格和内容与特征空间内的参考图像解耦,其前提是同一空间内的特征可以相互添加或减去;(2)将参考图像特征完全注入特定风格块中,从而防止风格泄漏,并避免了繁琐的权重调整,这通常是参数较多的设计的特点。

这一工作展示了优秀的视觉风格化成果,在风格的强度和文本元素的可控性之间取得了最佳平衡。

论文链接:

InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation - AMiner

6.清华团队推出 Eurus:用偏好树推进 LLM 推理通才的发展

来自清华大学、伊利诺伊大学香槟分校和面壁智能的研究团队及其合作者,提出了一套为推理而优化的大型语言模型(LLM)——Eurus。

据介绍,经过对 Mistral-7B 和 CodeLlama-70B 的微调,Eurus 模型在一系列涵盖数学、代码生成和逻辑推理问题的基准测试中,取得了开源模型中的 SOTA。

值得注意的是,Eurus-70B 通过涵盖 5 项任务的 12 个测试的综合基准测试,在推理方面击败了 GPT-3.5 Turbo,并在 LeetCode 和 TheoremQA 两项基准测试中分别取得了 33.3% 和 32.6% 的 pass@1 准确率,以超过 13.3% 的优势超越了现有的开源模型。

Eurus 的强大性能主要归功于 UltraInteract,这是一个新近收集的大规模、高质量对齐数据集,专为复杂推理任务而设计。UltraInteract 可用于监督微调和偏好学习。对于每条指令,它都包含一棵偏好树,其中包括:(1)统一格式的具有不同规划策略的推理链;(2)与环境和评论的多轮交互轨迹;以及(3)促进偏好学习的配对数据。

论文链接:Advancing LLM Reasoning Generalists with Preference Trees - AMiner

7.DiffAgent:利用大型语言模型快速准确地选择文生图 API

文本到图像(T2I)生成模型吸引了大量关注,并在学术研究内外得到了广泛应用。然而,这种多样性给选择最合适的模型和参数带来了巨大挑战,这一过程通常需要无数次试验。

来自上海 AI Lab 的研究团队及其合作者推出了智能体 DiffAgent,旨在通过 API 调用在数秒内筛选出准确的选择。DiffAgent 利用新颖的两阶段训练框架 SFTA,使其能够根据人类偏好准确调整 T2I API 响应与用户输入。为了训练和评估 DiffAgent 的能力,他们推出了一个综合数据集——DABench,其包含来自社区的大量 T2I API。

评估结果表明,DiffAgent 不仅在识别适当的 T2I API 方面表现出色,而且还凸显了 SFTA 培训框架的有效性。

论文链接:DiffAgent: Fast and Accurate Text-to-Image API Selection with Large Language Model - AMiner

8.WavLLM:实现鲁棒性和自适应语音大语言模型

近年来,大型语言模型(LLMs)的发展给自然语言处理领域带来了巨大变化,其范围逐渐扩大到多模态感知和生成。然而,如何有效地将听觉功能集成到 LLM 中,尤其是在不同语境下的泛化和执行复杂的听觉任务方面,提出了巨大的挑战。

来自香港中文大学、微软的研究团队提出了一种具有双编码器和提示感知 LoRA 权重适配器的鲁棒自适应语音大语言模型——WavLLM,其通过两阶段课程学习方法进行了优化。

利用双编码器,研究团队将不同类型的语音信息解耦,利用 Whisper 编码器处理语音的语义内容,利用 WavLLM 编码器捕捉说话者身份的独特特征。在课程学习框架内,WavLLM 首先通过优化混合初级单一任务来建立其基础能力,然后在更复杂的任务(如初级任务的组合)上进行高级多任务训练。

为了提高灵活性并适应不同的任务和指令,研究团队在第二个高级多任务训练阶段引入了提示感知的 LoRA 权重适配器。他们在通用语音基准(包括 ASR、ST、SV、ER 等任务)上验证了所提出的模型,并将其应用于专业数据集,如用于 SQA 的高考英语听力理解集和语音思维链(CoT)评估集。

实验结果表明,在相同的模型规模下,所提出的模型在一系列语音任务中都达到了 SOTA,在使用 CoT 方法执行复杂任务时表现出了强大的泛化能力。

论文链接:WavLLM: Towards Robust and Adaptive Speech Large Language Model - AMiner

9.清华朱军团队新研究:从单一图像到 3D 生成

近来,根据文本提示或单张图像生成 3D 内容的技术在质量和速度上都取得了显著进步,其主流模式之一是生成一致的多视图图像,然后进行稀疏视图重建。

然而,由于直接变形网格表示以接近目标拓扑结构的挑战,大多数方法在稀疏视图重建过程中学习隐式表示(如 NeRF),并通过后处理提取获得目标网格。虽然隐式表示法能有效模拟丰富的 3D 信息,但其训练通常需要较长的收敛时间。此外,隐式领域的后提取操作还会导致不良的视觉伪影。

为此,来自中国科学院大学、清华大学、西安电子科技大学和生数科技的研究团队,提出了一种新型单图像到 3D 生成框架——FlexiDreamer,其能以端到端的方式重建目标网格。通过利用称为 FlexiCubes 的基于梯度的灵活提取,该方法避免了后处理带来的缺陷,有利于直接获取目标网格。

此外,他们还采用了多分辨率哈希网格编码方案,将编码级别逐步激活到 FlexiCubes 中的隐式字段,从而帮助捕捉几何细节,实现每一步优化。值得注意的是,FlexiDreamer 在单个 NVIDIA A100 GPU 上从单视角图像中恢复密集 3D 结构仅需约 1 分钟,优于之前的方法。

论文链接:FlexiDreamer: Single Image-to-3D Generation with FlexiCubes - AMiner

10.华为新研究:减少 Transformer 计算负荷,让大模型更高效

为了减少 transformer 的计算负荷,线性关注的研究获得了显著的发展。然而,注意力机制的改进策略通常需要大量的再训练,这对于拥有大量参数的大型语言模型来说是不切实际的。

来自华为公司和北京大学的研究团队提出了一种新颖的频域核化(Frequency Domain Kernelization)方法—— DiJiang,它能以极小的训练成本将预先训练好的 Vanilla Transformer 转化为线性复杂度模型。通过采用加权准蒙特卡罗方法进行采样,所提出的方法在理论上具有更高的逼近效率。为了进一步降低训练计算复杂度,DiJiang 核化基于离散余弦变换(DCT)操作。

广泛的实验证明,所提出的方法实现了与原始 transformer 相当的性能,但训练成本大大降低,推理速度也快得多。DiJiang-7B 在各种基准测试中取得了与 LLaMA2-7B 相当的性能,而训练成本仅为 LLaMA2-7B 的 1/50。

论文链接:DiJiang: Efficient Large Language Models through Compact Kernelization - AMiner

11.苹果提出 ReALM:用大模型解析各种参考信息

参考解析一直以来都是一个重要问题,对于理解和成功处理不同类型的上下文至关重要。这种上下文既包括先前的转折,也包括与非对话实体相关的上下文,例如用户屏幕上的实体或后台运行的实体。

虽然大型语言模型(LLM)在各种任务中都显示出极其强大的功能,但其在参考解析中的应用,尤其是在非对话实体方面的应用,仍未得到充分利用。

苹果公司的研究团队通过如何将参考解析转换为语言建模问题,展示了如何利用 LLMs 创建一个极其有效的系统来解析各种类型的参考信息,尽管涉及的实体形式(如屏幕上的实体)在传统上不利于简化为纯文本模式。在不同类型的参考文献中,该研究团队展示了与功能类似的现有系统相比所取得的巨大进步,他们的最小模型在屏幕参考文献方面的绝对收益超过 5%,此外,他们的最小模型与 GPT-4 的性能相当,而较大模型则大大优于 GPT-4。

论文链接:ReALM: Reference Resolution As Language Modeling - AMiner

12.Google DeepMind 推出 Gecko:实现强大的检索性能

Google DeepMind 团队新提出的 Gecko 是一种紧凑、通用的文本嵌入模型。Gecko 利用一个关键理念实现了强大的检索性能:将大型语言模型(LLM)中的知识提炼到检索器中。

该模型的提炼过程分为两步,首先使用 LLM 生成多样化的合成配对数据。接下来,为每个查询检索一组候选段落,并使用相同的 LLM 对正向段落和反向段落进行重新标注,从而进一步提高数据质量。

Gecko 的紧凑性证明了这种检索方法的有效性。在海量文本嵌入基准测试(MTEB)中,嵌入维度为 256 的 Gecko 优于嵌入维度为 768 的所有现有项目。具有 768 个嵌入维度的 Gecko 平均得分达到 66.31,与 7 倍更大的模型和 5 倍更高维度的嵌入相抗衡。

论文链接:Gecko: Versatile Text Embeddings Distilled from Large Language Models - AMiner

13.Jamba:混合 transformer-Mamba 语言模型

来自 AI21 Labs 的研究团队介绍了一种基于新型混合 transformer-Mamba 混合专家(MoE)架构的新型基础大型语言模型 Jamba。

具体来说,Jamba 将 transformer 层和 Mamba 层的区块交错在一起,同时享受两个模型系列的优势。在其中一些层中添加了 MoE,以增加模型容量,同时保持活动参数使用的可管理性,这种灵活的架构允许针对特定资源和目标进行配置。

在他们实施的特定配置下,最终获得了一个可容纳在单个 80GB GPU 中的强大模型。与 vanilla transformer 相比,大规模构建的 Jamba 可提供较高的吞吐量和较小的内存占用,同时在标准语言模型基准测试和长语境评估中表现出一流的性能。

值得注意的是,该模型在高达 256K token 上下文长度的情况下也能表现出强劲的性能。该研究团队研究了各种架构决策,例如如何结合 transformer 和 Mamba 层,以及如何混合专家,并证明其中一些决策在大规模建模中至关重要,还描述了 Jamba 的训练和评估所揭示的这些架构的几个有趣特性,并计划发布各种消融运行的检查点,从而鼓励对这种新颖架构的进一步探索。

论文链接:Jamba: A Hybrid Transformer-Mamba Language Model - AMiner

二维码 扫码微信阅读
推荐阅读 更多