所有文章 > 正文

Google DeepMind 新研究：通过神经压缩文本训练 LLM｜大模型周报

作者: 学术头条

时间: 2024-04-08 09:34

Google DeepMind 新研究：通过神经压缩文本训练 LLM

本周值得关注的大模型 / AIGC 前沿研究

斯坦福提出语言模型微调新方法 ReFT

Google DeepMind 新研究：通过神经压缩文本训练 LLM

RALL-E：用于“文生语音”的鲁棒语言建模方法

Google DeepMind 新研究：在基于 Transformer 的语言模型中动态分配计算量

InstantStyle：实现“风格保护”的文生图

清华团队推出 Eurus：用偏好树推进 LLM 推理通才的发展

DiffAgent：利用大型语言模型快速准确地选择文生图 API

WavLLM：实现鲁棒性和自适应语音大语言模型

清华朱军团队新研究：从单一图像到 3D 生成

华为新研究：减少 Transformer 计算负荷，让大模型更高效

苹果提出 ReALM：用大模型解析各种参考信息

Google DeepMind 推出 Gecko：实现强大的检索性能

Jamba：混合 transformer-Mamba 语言模型

1.斯坦福提出语言模型微调新方法 ReFT

参数高效微调（PEFT）方法试图通过更新少量权重来调整大模型。然而，之前的许多可解释性研究表明，表征可以编码丰富的语义信息，这表明编辑表征可能是一种更强大的替代方法。

为此，来自斯坦福大学和 Pr(Ai)²R Group 的研究团队通过开发一系列表征微调（ReFT）方法来实现这一假设。

据介绍，ReFT 方法在冻结的基础模型上运行，并学习针对特定任务对隐藏表征的干预。他们定义了 ReFT 系列的一个强实例，即低秩线性子空间 ReFT（LoReFT）。LoReFT 可直接替代现有的 PEFT，其学习干预的参数效率是之前 SOTA PEFT 的 10-50 倍。

在八项常识推理任务、四项算术推理任务、Alpaca-Eval v1.0 和 GLUE 上，LoReFT 在效率和性能之间实现了最佳平衡，几乎总是优于最先进的 PEFT。

论文链接：ReFT: Representation Finetuning for Language Models - AMiner

2.Google DeepMind 新研究：通过神经压缩文本训练 LLM

来自 Google DeepMind 和 Anthropic 的研究团队探讨了在高度压缩文本上训练大型语言模型（LLM）的想法。

标准的分词 tokenizer 只能将文本压缩一小部分，而神经文本压缩器可以实现更高的压缩率。如果有可能直接在神经压缩文本上训练 LLM，这将在训练和服务效率方面带来优势，且更容易处理长文本跨度。实现这一目标的主要障碍在于，强压缩往往会产生不透明的输出，不适合学习。特别是，通过算术编码进行压缩的文本不容易被 LLM 学习。

为了克服这一问题，研究团队提出了一种新颖的压缩技术“等信息窗口”（Equal-Info Windows），它将文本分割成多个区块，每个区块压缩成相同的比特长度。利用这种方法，他们展示了对神经压缩文本的有效学习，学习效果随着规模的扩大而提高，并在易错性和推理速度基准上远远超过了字节级基准。

对于使用相同参数数量训练的模型，这一方法比分词 tokenizer 的迷惑性更差，但它的优点是序列长度更短。较短的序列长度需要较少的自回归生成步骤，从而减少了延迟。最后，他们对有助于提高可学习性的特性进行了广泛分析，并就如何进一步提高高压缩标记化器的性能提出了具体建议。

论文链接：Training LLMs over Neurally Compressed Text - AMiner

3.RALL-E：用于“文生语音”的鲁棒语言建模方法

来自微软、东京大学的研究团队及其合作者提出了一种用于文本到语音（TTS）合成的鲁棒语言建模方法 RALL-E。

虽然以前基于大型语言模型（LLM）的工作在零样本 TTS 上显示出了不错的性能，但由于语言模型的自回归预测风格，这些方法往往存在鲁棒性差的问题，如不稳定的前音（奇怪的音高和节奏/持续时间）和高词错误率（WER）。

据介绍，RALL-E 背后的核心理念是思维链（CoT）提示，它将任务分解成更简单的步骤，从而增强基于 LLM 的 TTS 的鲁棒性。为了实现这一理念，RALL-E 首先预测输入文本的前音特征（音高和时长），并将其作为中间条件，预测 CoT 风格的语音 token。其次，RALL-E 利用预测的时长提示来指导 Transformer 中自注意力权重的计算，从而强制模型在预测语音 token 时关注相应的音素和前音特征。

客观和主观评估结果表明，与基线方法 VALL-E 相比，RALL-E 显著提高了零样本 TTS 的 WER，分别从 6.3%（无重排）和 2.1%（有重排）降至 2.8% 和 1.0%。此外，RALL-E 可以正确合成 VALL-E 难以合成的句子，并将错误率从 68% 降低到 4%。

论文链接：RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis - AMiner

4.Google DeepMind 新研究：在基于 Transformer 的语言模型中动态分配计算量

基于 Transformer 的语言模型在输入序列中均匀分配 FLOP。

在这项工作中，来自 Google DeepMind 的研究团队证明了 Transformer 可以学会动态地将 FLOP（或计算）分配到序列中的特定位置，并优化整个模型深度中不同层的序列分配。

该方法通过对特定层中可参与自我注意和 MLP 计算的 token 数量（k）设置上限，强制执行总计算预算。要处理的 token 由网络通过 top-k 路由机制确定。由于 k 是先验定义的，因此与其他条件计算技术不同，这种简单的程序使用的是已知张量大小的静态计算图。不过，由于 k token 的身份是不固定的，因此这种方法可以在时间和模型深度维度上不均匀地消耗 FLOP。因此，计算消耗在总和上是完全可预测的，但在 token 级上却是动态的，且与上下文相关。

通过这种方法训练的模型不仅能学会动态分配计算量，而且效率很高。这些模型在同等 FLOPS 和 wall-clock 训练时间下的性能与基线性能相当，但每次前向传递所需的 FLOPS 仅为基线的一小部分，而且在训练后采样期间，速度可提高 50% 以上。

论文链接：Mixture-of-Depths: Dynamically allocating compute in transformer-based language models - AMiner

5.InstantStyle：实现“风格保护”的文生图

基于 Tuning-free 扩散的模型已经在图像个性化和定制领域展现出了巨大潜力。

然而，目前的模型在生成风格一致的图像时仍然面临着一些复杂的挑战。首先，风格的概念本质上是不确定的，它包含多种元素，如颜色、材料、氛围、设计和结构等等。其次，基于反转的方法容易造成风格退化，往往会导致精细细节的丢失。最后，基于适配器的方法经常需要对每张参考图像进行细致的权重调整，从而实现风格强度和文本可控性之间的平衡。

在这项工作中，InstantX 团队首先研究了几个引人注目但却经常被忽视的问题。然后，他们提出了一个用于解决这些问题的框架——InstantStyle，包括两个关键策略：（1）一种直接的机制，将风格和内容与特征空间内的参考图像解耦，其前提是同一空间内的特征可以相互添加或减去；（2）将参考图像特征完全注入特定风格块中，从而防止风格泄漏，并避免了繁琐的权重调整，这通常是参数较多的设计的特点。

这一工作展示了优秀的视觉风格化成果，在风格的强度和文本元素的可控性之间取得了最佳平衡。

论文链接：

InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation - AMiner

6.清华团队推出 Eurus：用偏好树推进 LLM 推理通才的发展

来自清华大学、伊利诺伊大学香槟分校和面壁智能的研究团队及其合作者，提出了一套为推理而优化的大型语言模型（LLM）——Eurus。

据介绍，经过对 Mistral-7B 和 CodeLlama-70B 的微调，Eurus 模型在一系列涵盖数学、代码生成和逻辑推理问题的基准测试中，取得了开源模型中的 SOTA。

值得注意的是，Eurus-70B 通过涵盖 5 项任务的 12 个测试的综合基准测试，在推理方面击败了 GPT-3.5 Turbo，并在 LeetCode 和 TheoremQA 两项基准测试中分别取得了 33.3% 和 32.6% 的 pass@1 准确率，以超过 13.3% 的优势超越了现有的开源模型。

Eurus 的强大性能主要归功于 UltraInteract，这是一个新近收集的大规模、高质量对齐数据集，专为复杂推理任务而设计。UltraInteract 可用于监督微调和偏好学习。对于每条指令，它都包含一棵偏好树，其中包括：（1）统一格式的具有不同规划策略的推理链；（2）与环境和评论的多轮交互轨迹；以及（3）促进偏好学习的配对数据。

论文链接：Advancing LLM Reasoning Generalists with Preference Trees - AMiner

7.DiffAgent：利用大型语言模型快速准确地选择文生图 API

文本到图像（T2I）生成模型吸引了大量关注，并在学术研究内外得到了广泛应用。然而，这种多样性给选择最合适的模型和参数带来了巨大挑战，这一过程通常需要无数次试验。

来自上海 AI Lab 的研究团队及其合作者推出了智能体 DiffAgent，旨在通过 API 调用在数秒内筛选出准确的选择。DiffAgent 利用新颖的两阶段训练框架 SFTA，使其能够根据人类偏好准确调整 T2I API 响应与用户输入。为了训练和评估 DiffAgent 的能力，他们推出了一个综合数据集——DABench，其包含来自社区的大量 T2I API。

评估结果表明，DiffAgent 不仅在识别适当的 T2I API 方面表现出色，而且还凸显了 SFTA 培训框架的有效性。

论文链接：DiffAgent: Fast and Accurate Text-to-Image API Selection with Large Language Model - AMiner

8.WavLLM：实现鲁棒性和自适应语音大语言模型

近年来，大型语言模型（LLMs）的发展给自然语言处理领域带来了巨大变化，其范围逐渐扩大到多模态感知和生成。然而，如何有效地将听觉功能集成到 LLM 中，尤其是在不同语境下的泛化和执行复杂的听觉任务方面，提出了巨大的挑战。

来自香港中文大学、微软的研究团队提出了一种具有双编码器和提示感知 LoRA 权重适配器的鲁棒自适应语音大语言模型——WavLLM，其通过两阶段课程学习方法进行了优化。

利用双编码器，研究团队将不同类型的语音信息解耦，利用 Whisper 编码器处理语音的语义内容，利用 WavLLM 编码器捕捉说话者身份的独特特征。在课程学习框架内，WavLLM 首先通过优化混合初级单一任务来建立其基础能力，然后在更复杂的任务（如初级任务的组合）上进行高级多任务训练。

为了提高灵活性并适应不同的任务和指令，研究团队在第二个高级多任务训练阶段引入了提示感知的 LoRA 权重适配器。他们在通用语音基准（包括 ASR、ST、SV、ER 等任务）上验证了所提出的模型，并将其应用于专业数据集，如用于 SQA 的高考英语听力理解集和语音思维链（CoT）评估集。

实验结果表明，在相同的模型规模下，所提出的模型在一系列语音任务中都达到了 SOTA，在使用 CoT 方法执行复杂任务时表现出了强大的泛化能力。

论文链接：WavLLM: Towards Robust and Adaptive Speech Large Language Model - AMiner

9.清华朱军团队新研究：从单一图像到 3D 生成

近来，根据文本提示或单张图像生成 3D 内容的技术在质量和速度上都取得了显著进步，其主流模式之一是生成一致的多视图图像，然后进行稀疏视图重建。

然而，由于直接变形网格表示以接近目标拓扑结构的挑战，大多数方法在稀疏视图重建过程中学习隐式表示（如 NeRF），并通过后处理提取获得目标网格。虽然隐式表示法能有效模拟丰富的 3D 信息，但其训练通常需要较长的收敛时间。此外，隐式领域的后提取操作还会导致不良的视觉伪影。

为此，来自中国科学院大学、清华大学、西安电子科技大学和生数科技的研究团队，提出了一种新型单图像到 3D 生成框架——FlexiDreamer，其能以端到端的方式重建目标网格。通过利用称为 FlexiCubes 的基于梯度的灵活提取，该方法避免了后处理带来的缺陷，有利于直接获取目标网格。

此外，他们还采用了多分辨率哈希网格编码方案，将编码级别逐步激活到 FlexiCubes 中的隐式字段，从而帮助捕捉几何细节，实现每一步优化。值得注意的是，FlexiDreamer 在单个 NVIDIA A100 GPU 上从单视角图像中恢复密集 3D 结构仅需约 1 分钟，优于之前的方法。

论文链接：FlexiDreamer: Single Image-to-3D Generation with FlexiCubes - AMiner

10.华为新研究：减少 Transformer 计算负荷，让大模型更高效

为了减少 transformer 的计算负荷，线性关注的研究获得了显著的发展。然而，注意力机制的改进策略通常需要大量的再训练，这对于拥有大量参数的大型语言模型来说是不切实际的。

来自华为公司和北京大学的研究团队提出了一种新颖的频域核化（Frequency Domain Kernelization）方法—— DiJiang，它能以极小的训练成本将预先训练好的 Vanilla Transformer 转化为线性复杂度模型。通过采用加权准蒙特卡罗方法进行采样，所提出的方法在理论上具有更高的逼近效率。为了进一步降低训练计算复杂度，DiJiang 核化基于离散余弦变换（DCT）操作。

广泛的实验证明，所提出的方法实现了与原始 transformer 相当的性能，但训练成本大大降低，推理速度也快得多。DiJiang-7B 在各种基准测试中取得了与 LLaMA2-7B 相当的性能，而训练成本仅为 LLaMA2-7B 的 1/50。

论文链接：DiJiang: Efficient Large Language Models through Compact Kernelization - AMiner

11.苹果提出 ReALM：用大模型解析各种参考信息

参考解析一直以来都是一个重要问题，对于理解和成功处理不同类型的上下文至关重要。这种上下文既包括先前的转折，也包括与非对话实体相关的上下文，例如用户屏幕上的实体或后台运行的实体。

虽然大型语言模型（LLM）在各种任务中都显示出极其强大的功能，但其在参考解析中的应用，尤其是在非对话实体方面的应用，仍未得到充分利用。

苹果公司的研究团队通过如何将参考解析转换为语言建模问题，展示了如何利用 LLMs 创建一个极其有效的系统来解析各种类型的参考信息，尽管涉及的实体形式（如屏幕上的实体）在传统上不利于简化为纯文本模式。在不同类型的参考文献中，该研究团队展示了与功能类似的现有系统相比所取得的巨大进步，他们的最小模型在屏幕参考文献方面的绝对收益超过 5%，此外，他们的最小模型与 GPT-4 的性能相当，而较大模型则大大优于 GPT-4。

论文链接：ReALM: Reference Resolution As Language Modeling - AMiner

12.Google DeepMind 推出 Gecko：实现强大的检索性能

Google DeepMind 团队新提出的 Gecko 是一种紧凑、通用的文本嵌入模型。Gecko 利用一个关键理念实现了强大的检索性能：将大型语言模型（LLM）中的知识提炼到检索器中。

该模型的提炼过程分为两步，首先使用 LLM 生成多样化的合成配对数据。接下来，为每个查询检索一组候选段落，并使用相同的 LLM 对正向段落和反向段落进行重新标注，从而进一步提高数据质量。

Gecko 的紧凑性证明了这种检索方法的有效性。在海量文本嵌入基准测试（MTEB）中，嵌入维度为 256 的 Gecko 优于嵌入维度为 768 的所有现有项目。具有 768 个嵌入维度的 Gecko 平均得分达到 66.31，与 7 倍更大的模型和 5 倍更高维度的嵌入相抗衡。

论文链接：Gecko: Versatile Text Embeddings Distilled from Large Language Models - AMiner

13.Jamba：混合 transformer-Mamba 语言模型

来自 AI21 Labs 的研究团队介绍了一种基于新型混合 transformer-Mamba 混合专家（MoE）架构的新型基础大型语言模型 Jamba。

具体来说，Jamba 将 transformer 层和 Mamba 层的区块交错在一起，同时享受两个模型系列的优势。在其中一些层中添加了 MoE，以增加模型容量，同时保持活动参数使用的可管理性，这种灵活的架构允许针对特定资源和目标进行配置。

在他们实施的特定配置下，最终获得了一个可容纳在单个 80GB GPU 中的强大模型。与 vanilla transformer 相比，大规模构建的 Jamba 可提供较高的吞吐量和较小的内存占用，同时在标准语言模型基准测试和长语境评估中表现出一流的性能。

值得注意的是，该模型在高达 256K token 上下文长度的情况下也能表现出强劲的性能。该研究团队研究了各种架构决策，例如如何结合 transformer 和 Mamba 层，以及如何混合专家，并证明其中一些决策在大规模建模中至关重要，还描述了 Jamba 的训练和评估所揭示的这些架构的几个有趣特性，并计划发布各种消融运行的检查点，从而鼓励对这种新颖架构的进一步探索。

论文链接：Jamba: A Hybrid Transformer-Mamba Language Model - AMiner

扫码微信阅读

AI的自我进化框架：大型语言模型如何不断提升智能水平？

AMiner AI

106

当大型语言模型遇上信息检索评估：是颠覆还是革新？