大模型日报|8 篇必读的大模型论文

2024-08-24 00:52
文章标签 模型 论文 日报 必读

本文主要是介绍大模型日报|8 篇必读的大模型论文,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.Meta 提出多模态模型训练方法 Transfusion

在这项工作中,Meta 团队及其合作者提出了一种通过离散和连续数据训练多模态模型的方法——Transfusion,其将语言建模损失函数(下一个 token 预测)与扩散相结合,在混合模态序列上训练一个 transformer。他们在文本和图像混合数据上从头开始预训练了多个 Transfusion 模型,参数为 7B,建立了与各种单模态和跨模态基准相关的缩放规律。

实验表明,Transfusion 的扩展能力明显优于量化图像和在离散图像 token 上训练语言模型。通过引入特定模式的编码和解码层,他们可以进一步提高 Transfusion 模型的性能,甚至可以将每幅图像压缩到 16 个 patch。他们进一步证明,将 Transfusion 扩展到 7B 参数和 2T 多模态 token,可以生成与类似规模的扩散模型和语言模型相当的图像和文本,从而具备两类模型的优点。

论文链接:
https://arxiv.org/abs/2408.11039

2.北航、爱诗科技推出可控视频生成方法 TrackGo

近年来,基于扩散的可控视频生成技术取得了长足进步。 然而,在复杂的场景中(如细粒度的物体部分、复杂的运动轨迹和连贯的背景运动等)仍然是一个挑战。

在这项工作中,来自北京航空航天大学和爱诗科技的研究团队提出了一种利用自由形式掩码和箭头进行条件视频生成的新方法——TrackGo,为用户提供了灵活而精确的视频内容操作机制。他们还提出了用于控制实现的 TrackAdapter,这是一种高效、轻量级的适配器,可无缝集成到预训练视频生成模型的时间自注意层中。

实验结果表明,该方法在 TrackAdapter 的增强下,在 FVD、FID 和 ObjMC 分数等关键指标上都达到了 SOTA。

论文链接:
https://arxiv.org/abs/2408.11475
项目地址:
https://zhtjtcz.github.io/TrackGo-Page/

3.清华团队推出 FocusLLM:通过并行解码扩展 LLM 上下文

让大语言模型(LLM)具备利用长上下文有用信息的能力,对许多下游应用至关重要。然而,利用传统 transformer 架构实现长上下文长度需要大量的训练和推理资源。

在这项研究中,来自清华大学和厦门大学的研究团队提出了 FocusLLM,这是一个旨在扩展任何纯解码器 LLM 上下文长度的框架,使模型能够专注于超长序列中的相关信息。

FocusLLM 在处理长文本输入时,会根据模型的原始上下文长度将其分成若干块,从而缓解注意力分散的问题。然后,它将本地上下文附加到每个文本块,以此作为提示,基于新颖的并行解码机制从每个文本块中提取重要信息,并最终将提取的信息整合到本地上下文中。

与之前的方法相比,FocusLLM 在 8K 输入长度下的训练成本更低,在下游长上下文任务中表现出卓越的性能,在处理大量长文本(甚至多达 400K 字节)时仍能保持强大的语言建模能力。

论文链接:
https://arxiv.org/abs/2408.11745

4.AI21 Labs 团队推出 Jamba-1.5

在这项研究中,AI21 Labs 团队提出了基于 Jamba 架构的新指令微调大语言模型 Jamba-1.5。Jamba 是一种混合型 Transformer-Mamba 混合专家架构,可在不同上下文长度下提供高吞吐量和低内存使用率,同时保持与 Transformer 模型相同或更好的质量。

他们发布了两种大小的模型:94B 有效参数的 Jamba-1.5-Large 和 12B 有效参数的 Jamba-1.5-Mini。这两个模型都针对各种会话和指令跟随能力进行了微调,有效上下文长度为 256K token,是开放权重模型中最大的。

为了支持具有成本效益的推理,他们提出了一种量化技术 ExpertsInt8,该技术允许在处理 256K token 上下文时,将 Jamba-1.5-Large 安装在配有 8 个 80GB GPU 的机器上,而不会降低质量。

在一系列学术和聊天机器人基准上进行评估时,Jamba-1.5 模型取得了优异的成绩,同时提供了高吞吐量,并在长上下文基准上优于其他开放权重模型。

论文链接:
https://arxiv.org/abs/2408.12570

5.北邮、国科大推出基于 Mamba 的可扩展自回归图像生成模型

在这项工作中,来自北京邮电大学和中国科学院大学的研究团队提出了新型自回归图像生成模型——AiM,其采用 Mamba 架构来取代自回归图像生成模型中常用的 Transformers,旨在实现更高的生成质量和更快的推理速度。

与现有的通过多放向扫描调整 Mamba 来处理二维信号的方法不同,AiM 直接利用下一个 token 预测范式来生成自回归图像。这种方法避免了为使 Mamba 学习二维空间表征而进行大量修改的需要。通过针对视觉生成任务实施直接但有针对性的修改,他们保留了 Mamba 的核心结构,充分发挥了其高效的长序列建模能力和可扩展性。

在 ImageNet1K 256*256 基准上,AiM 模型达到 2.21 的 FID,超过参数数量相当的现有自回归模型,与扩散模型相比具有显著的竞争力,推理速度快 2 到 10 倍。

论文链接:
https://arxiv.org/abs/2408.12245
GitHub 地址:
https://github.com/hp-l33/AiM

6.中科大、北大团队提出监督嵌入对齐 SEA

多模态大语言模型(MLLMs)通常由视觉编码器、适配器和大语言模型(LLM)组成,已展示出了非凡的感知和推理能力。适配器是视觉和语言组件之间的关键桥梁。然而,使用图像级监督训练适配器往往会导致严重的对齐错误,从而削弱 LLM 的能力,限制 MLLM 的潜力。

为了解决这个问题,来自中国科学技术大学、北京大学和快手公司的研究团队提出了监督嵌入对齐(SEA),这是一种 token 级对齐方法,利用视觉语言预训练模型(如 CLIP),通过对比学习将视觉 token 与 LLM 的嵌入空间对齐。这种方法能确保视觉和语言表征更加连贯地融合在一起,提高 MLLM 的性能和可解释性,同时保留其固有功能。

广泛的实验表明,SEA 能够有效地改善 MLLM,尤其是对于较小的模型,而无需增加额外的数据或推理计算。

论文链接:
https://arxiv.org/abs/2408.11813

7.综述:大语言模型的可控文本生成

在自然语言处理(NLP)领域,大语言模型(LLM)已经证明具有很高的文本生成质量。然而,在实际应用中,LLM 必须满足日益复杂的要求。除了避免误导或不恰当的内容外,LLM 还需要满足特定用户的需求,比如模仿特定的写作风格或生成富有诗意的文本。这些不同的需求推动了可控文本生成(Controllable Text Generation,CTG)技术的发展,该技术可以确保输出符合预定义的控制条件,如安全性、情感、主题一致性和语言风格,同时保持高标准的帮助性、流畅性和多样性。

在这项工作中,来自中国人民大学、上海算法创新研究院和中国电信研究院的联合团队,系统地回顾了可控文本生成技术的最新进展,对其核心概念进行了全面定义,并阐明了对控制条件和文本质量的要求。

他们将 CTG 任务分为两种主要类型:内容控制和属性控制。他们讨论了主要方法,包括模型再训练、微调、强化学习、提示工程等。他们分析了每种方法的特点、优势和局限性,为实现生成控制提供了详细的见解。此外,他们还回顾了 CTG 评估方法,总结了其在各个领域的应用,并探讨了当前研究中存在的主要挑战,包括流畅性和实用性的降低。他们还提出了一些呼吁,例如,在未来的研究中更加重视真实世界的应用。

论文链接:
https://arxiv.org/abs/2408.12599

8.PhysBERT:首个物理专用文本嵌入模型

物理学中的专业语言和复杂概念给通过自然语言处理(NLP)进行信息抽取带来了巨大挑战。文本嵌入模型是有效的 NLP 应用的核心,它将文本转换为密集的向量表示,以便进行高效的信息检索和语义分析。

在这项工作中,来自劳伦斯伯克利国家实验室的研究团队提出了首个物理专用文本嵌入模型 PhysBERT。PhysBERT 在由 120 万篇 arXiv 物理论文组成的语料库上进行了预训练,并利用监督数据进行了微调,在物理特定任务上的表现优于领先的通用模型,包括针对特定物理子领域进行微调的有效性。

论文链接:
https://arxiv.org/abs/2408.09574

这篇关于大模型日报|8 篇必读的大模型论文的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1100982

相关文章

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP(CommunicatingSequentialProcesses,通信顺序进程)并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言