大模型日报｜8 篇必读的大模型论文

本文主要是介绍大模型日报｜8 篇必读的大模型论文，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

在这里插入图片描述

大家好，今日必读的大模型论文来啦！

1.Meta 提出多模态模型训练方法 Transfusion

在这项工作中，Meta 团队及其合作者提出了一种通过离散和连续数据训练多模态模型的方法——Transfusion，其将语言建模损失函数（下一个 token 预测）与扩散相结合，在混合模态序列上训练一个 transformer。他们在文本和图像混合数据上从头开始预训练了多个 Transfusion 模型，参数为 7B，建立了与各种单模态和跨模态基准相关的缩放规律。

实验表明，Transfusion 的扩展能力明显优于量化图像和在离散图像 token 上训练语言模型。通过引入特定模式的编码和解码层，他们可以进一步提高 Transfusion 模型的性能，甚至可以将每幅图像压缩到 16 个 patch。他们进一步证明，将 Transfusion 扩展到 7B 参数和 2T 多模态 token，可以生成与类似规模的扩散模型和语言模型相当的图像和文本，从而具备两类模型的优点。

论文链接：
https://arxiv.org/abs/2408.11039

2.北航、爱诗科技推出可控视频生成方法 TrackGo

近年来，基于扩散的可控视频生成技术取得了长足进步。然而，在复杂的场景中（如细粒度的物体部分、复杂的运动轨迹和连贯的背景运动等）仍然是一个挑战。

在这项工作中，来自北京航空航天大学和爱诗科技的研究团队提出了一种利用自由形式掩码和箭头进行条件视频生成的新方法——TrackGo，为用户提供了灵活而精确的视频内容操作机制。他们还提出了用于控制实现的 TrackAdapter，这是一种高效、轻量级的适配器，可无缝集成到预训练视频生成模型的时间自注意层中。

实验结果表明，该方法在 TrackAdapter 的增强下，在 FVD、FID 和 ObjMC 分数等关键指标上都达到了 SOTA。

论文链接：
https://arxiv.org/abs/2408.11475
项目地址：
https://zhtjtcz.github.io/TrackGo-Page/

3.清华团队推出 FocusLLM：通过并行解码扩展 LLM 上下文

让大语言模型（LLM）具备利用长上下文有用信息的能力，对许多下游应用至关重要。然而，利用传统 transformer 架构实现长上下文长度需要大量的训练和推理资源。

在这项研究中，来自清华大学和厦门大学的研究团队提出了 FocusLLM，这是一个旨在扩展任何纯解码器 LLM 上下文长度的框架，使模型能够专注于超长序列中的相关信息。

FocusLLM 在处理长文本输入时，会根据模型的原始上下文长度将其分成若干块，从而缓解注意力分散的问题。然后，它将本地上下文附加到每个文本块，以此作为提示，基于新颖的并行解码机制从每个文本块中提取重要信息，并最终将提取的信息整合到本地上下文中。

与之前的方法相比，FocusLLM 在 8K 输入长度下的训练成本更低，在下游长上下文任务中表现出卓越的性能，在处理大量长文本（甚至多达 400K 字节）时仍能保持强大的语言建模能力。

论文链接：
https://arxiv.org/abs/2408.11745

4.AI21 Labs 团队推出 Jamba-1.5

在这项研究中，AI21 Labs 团队提出了基于 Jamba 架构的新指令微调大语言模型 Jamba-1.5。Jamba 是一种混合型 Transformer-Mamba 混合专家架构，可在不同上下文长度下提供高吞吐量和低内存使用率，同时保持与 Transformer 模型相同或更好的质量。

他们发布了两种大小的模型：94B 有效参数的 Jamba-1.5-Large 和 12B 有效参数的 Jamba-1.5-Mini。这两个模型都针对各种会话和指令跟随能力进行了微调，有效上下文长度为 256K token，是开放权重模型中最大的。

为了支持具有成本效益的推理，他们提出了一种量化技术 ExpertsInt8，该技术允许在处理 256K token 上下文时，将 Jamba-1.5-Large 安装在配有 8 个 80GB GPU 的机器上，而不会降低质量。

在一系列学术和聊天机器人基准上进行评估时，Jamba-1.5 模型取得了优异的成绩，同时提供了高吞吐量，并在长上下文基准上优于其他开放权重模型。

论文链接：
https://arxiv.org/abs/2408.12570

5.北邮、国科大推出基于 Mamba 的可扩展自回归图像生成模型

在这项工作中，来自北京邮电大学和中国科学院大学的研究团队提出了新型自回归图像生成模型——AiM，其采用 Mamba 架构来取代自回归图像生成模型中常用的 Transformers，旨在实现更高的生成质量和更快的推理速度。

与现有的通过多放向扫描调整 Mamba 来处理二维信号的方法不同，AiM 直接利用下一个 token 预测范式来生成自回归图像。这种方法避免了为使 Mamba 学习二维空间表征而进行大量修改的需要。通过针对视觉生成任务实施直接但有针对性的修改，他们保留了 Mamba 的核心结构，充分发挥了其高效的长序列建模能力和可扩展性。

在 ImageNet1K 256*256 基准上，AiM 模型达到 2.21 的 FID，超过参数数量相当的现有自回归模型，与扩散模型相比具有显著的竞争力，推理速度快 2 到 10 倍。

论文链接：
https://arxiv.org/abs/2408.12245
GitHub 地址：
https://github.com/hp-l33/AiM

6.中科大、北大团队提出监督嵌入对齐 SEA

多模态大语言模型（MLLMs）通常由视觉编码器、适配器和大语言模型（LLM）组成，已展示出了非凡的感知和推理能力。适配器是视觉和语言组件之间的关键桥梁。然而，使用图像级监督训练适配器往往会导致严重的对齐错误，从而削弱 LLM 的能力，限制 MLLM 的潜力。

为了解决这个问题，来自中国科学技术大学、北京大学和快手公司的研究团队提出了监督嵌入对齐（SEA），这是一种 token 级对齐方法，利用视觉语言预训练模型（如 CLIP），通过对比学习将视觉 token 与 LLM 的嵌入空间对齐。这种方法能确保视觉和语言表征更加连贯地融合在一起，提高 MLLM 的性能和可解释性，同时保留其固有功能。

广泛的实验表明，SEA 能够有效地改善 MLLM，尤其是对于较小的模型，而无需增加额外的数据或推理计算。

论文链接：
https://arxiv.org/abs/2408.11813

7.综述：大语言模型的可控文本生成

在自然语言处理（NLP）领域，大语言模型（LLM）已经证明具有很高的文本生成质量。然而，在实际应用中，LLM 必须满足日益复杂的要求。除了避免误导或不恰当的内容外，LLM 还需要满足特定用户的需求，比如模仿特定的写作风格或生成富有诗意的文本。这些不同的需求推动了可控文本生成（Controllable Text Generation，CTG）技术的发展，该技术可以确保输出符合预定义的控制条件，如安全性、情感、主题一致性和语言风格，同时保持高标准的帮助性、流畅性和多样性。

在这项工作中，来自中国人民大学、上海算法创新研究院和中国电信研究院的联合团队，系统地回顾了可控文本生成技术的最新进展，对其核心概念进行了全面定义，并阐明了对控制条件和文本质量的要求。

他们将 CTG 任务分为两种主要类型：内容控制和属性控制。他们讨论了主要方法，包括模型再训练、微调、强化学习、提示工程等。他们分析了每种方法的特点、优势和局限性，为实现生成控制提供了详细的见解。此外，他们还回顾了 CTG 评估方法，总结了其在各个领域的应用，并探讨了当前研究中存在的主要挑战，包括流畅性和实用性的降低。他们还提出了一些呼吁，例如，在未来的研究中更加重视真实世界的应用。

论文链接：
https://arxiv.org/abs/2408.12599

8.PhysBERT：首个物理专用文本嵌入模型

物理学中的专业语言和复杂概念给通过自然语言处理（NLP）进行信息抽取带来了巨大挑战。文本嵌入模型是有效的 NLP 应用的核心，它将文本转换为密集的向量表示，以便进行高效的信息检索和语义分析。

在这项工作中，来自劳伦斯伯克利国家实验室的研究团队提出了首个物理专用文本嵌入模型 PhysBERT。PhysBERT 在由 120 万篇 arXiv 物理论文组成的语料库上进行了预训练，并利用监督数据进行了微调，在物理特定任务上的表现优于领先的通用模型，包括针对特定物理子领域进行微调的有效性。

论文链接：
https://arxiv.org/abs/2408.09574

这篇关于大模型日报｜8 篇必读的大模型论文的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！