大模型日报|10 篇必读的大模型论文

2024-08-21 01:52
文章标签 模型 论文 日报 必读

本文主要是介绍大模型日报|10 篇必读的大模型论文,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.斯坦福推出大模型网络安全能力和风险评估框架 Cybench

用于网络安全的语言模型智能体(agent)能够自主识别漏洞并执行漏洞利用,有可能对现实世界造成影响。政策制定者、模型提供者以及人工智能(AI)和网络安全界的其他研究人员都对量化此智能体的能力感兴趣,从而帮助减轻网络风险并调查渗透测试的机会。

在这项工作中,来自斯坦福大学的研究团队推出了 Cybench,这是一个用于指定网络安全任务和评估智能体执行这些任务情况的框架。他们从 4 个不同的专业级夺旗(CTF)竞赛中选取了 40 个 CTF 任务,这些任务都是最新的、有意义的,而且难度跨度很大。每个任务都有自己的描述和启动文件,并在一个环境中初始化,在该环境中,智能体可以执行 bash 命令并观察输出结果。由于许多任务超出了现有智能体的能力范围,他们提出了子任务,将任务分解为中间步骤,以便进行更分级的评估;他们为 40 项任务中的 17 项添加了子任务。

为了评估智能体能力,他们构建了一个网络安全智能体,并对 7 个模型进行了评估:GPT-4o、Claude 3 Opus、Claude 3.5 Sonnet、Mixtral 8x22b Instruct、Gemini 1.5 Pro、Llama 3 70B Chat 和 Llama 3.1 405B Instruct。在没有指导的情况下,他们发现智能体只能完成最简单的完整任务,而人类团队需要长达 11 分钟才能完成这些任务,其中 Claude 3.5 Sonnet 和 GPT-4o 的成功率最高。最后,与无引导运行相比,子任务为衡量性能提供了更多信号,有子任务引导的模型在完整任务上的成功率比无子任务引导的高出 3.2%。

论文链接:
https://arxiv.org/abs/2408.08926
项目网站:
https://cybench.github.io/

2.LongVILA:长上下文视觉-语言模型全栈解决方案

长上下文能力对于多模态基础模型至关重要。在这项工作中,来自英伟达和麻省理工学院(MIT)提出了长上下文视觉-语言模型的全栈解决方案 LongVILA,包括系统、模型训练和数据集开发。

在系统方面,他们介绍了首个多模态序列并行(MM-SP)系统,该系统可实现长上下文训练和推理,在 256 个 GPU 上实现 200 万上下文长度的训练。MM-SP 的效率也很高,在纯文本设置下,它比 Ring-Style Sequence Parallelism 快 2.1 - 5.7 倍,比 Megatron-LM 快 1.1 - 1.4 倍。此外,它还能与 Hugging Face Transformers 无缝集成。

在模型训练方面,他们提出了包括对齐、预训练、上下文扩展和长-短联合监督微调在内的五阶段管道。

在数据集方面,他们构建了大规模视觉语言预训练数据集和长视频教学跟踪数据集,从而支持多阶段训练过程。

该全栈解决方案将 VILA 的可行帧数扩大了 128 倍(从 8 帧增加到 1024 帧),并将长视频字幕得分从 2.00 提高到 3.26(1.6 倍),在 1400 帧视频(274k 上下文长度)中实现了 99.5% 的准确率。随着视频帧数的增加,LongVILA-8B 在 VideoMME 基准测试中的长视频性能也得到了持续改善。

论文链接:
https://arxiv.org/abs/2408.10188
GitHub 地址:
https://github.com/NVlabs/VILA/blob/main/LongVILA.md

3.Agent Q:自主 AI 智能体的高级推理和学习

大语言模型(LLMs)在需要复杂推理的自然语言任务中表现出了非凡的能力,但将其应用于交互环境中的智能体(agent)、多步骤推理仍是一项艰巨的挑战。

传统的在静态数据集上进行监督预训练的方法无法实现自主智能体能力,而这种能力是在网络导航等动态环境中执行复杂决策所必需的。以往弥补这一差距的尝试—通过对专家论证进行监督微调—往往会受到复合误差和探索数据有限的影响,从而导致次优的政策结果。

为了克服这些挑战,来自 MultiOn 和斯坦福大学的研究团队提出了一个框架,它将蒙特卡洛树搜索(MCTS)与自批评机制相结合,并使用直接偏好优化(DPO)算法的离策略(off-policy)变体对智能体互动进行迭代微调。这一方法允许 LLM 智能体从成功和不成功的轨迹中有效地学习,从而提高它们在复杂的多步骤推理任务中的通用性。

他们在 WebShop 环境(模拟电子商务平台)中验证了这一方法,其性能始终优于行为克隆和强化微调基线,并在具备在线搜索功能时优于人类的平均性能。在真实世界的预订场景中,在一天的数据收集后,这一方法使 Llama-3 70B 模型的零样本成功率从 18.6% 提高到 81.7%(相对提高 340%),在线搜索成功率进一步提高到 95.4%。

论文链接:
https://arxiv.org/abs/2408.07199

4.Meta 推出个性化图像生成模型 Imagine yourself

在这项研究中,Meta 团队提出了 Imagine yourself,这是一种专为个性化图像生成而设计的模型。与传统的基于微调的个性化技术不同,Imagine yourself 是一种免微调模型,所有用户都能利用共享框架,无需进行个性化微调。此外,以往的工作在平衡身份保持、遵循复杂提示和保持良好视觉质量方面遇到了挑战,导致模型具有很强的参考图像复制粘贴效果,很难根据需要对参考图像做出重大改变的提示生成图像,例如改变面部表情、头部和身体姿势,而且生成图像的多样性也很低。

为了解决这些局限性,他们提出的方法包括:1)一种新的合成配对数据生成机制,以鼓励图像多样性;2)一种完全并行的注意力架构,包含三个文本编码器和一个完全可训练的视觉编码器,以提高文本的忠实性;3)一种新颖的从粗到细的多阶段微调方法,逐步推进视觉质量的边界。

研究表明,Imagine yourself 超越了 SOTA 个性化模型,在身份保持、视觉质量和文本对齐方面表现出卓越的能力。人类评估结果证明,与以前的个性化模型相比,该模型在所有方面(身份保持、文本忠实性和视觉吸引力)都具有 SOTA 优势。

论文链接:
https://ai.meta.com/research/publications/imagine-yourself-tuning-free-personalized-image-generation/

5.通用智能体新进展:自动设计,优于 SOTA 人工设计智能体

研究人员正投入大量精力开发功能强大的通用智能体(agent),其中基础模型被用作智能体系统(如思维链、自我反思、工具成型器)中的模块。 然而,机器学习的历史告诉我们,人工设计的解决方案最终会被学习的解决方案所取代。

在这项工作中,来自英属哥伦比亚大学的研究团队提出了一个新的研究领域——智能体系统的自动设计(Automated Design of Agentic Systems,ADAS),旨在自动创建功能强大的智能体系统设计,包括发明新的构建模块和/或以新的方式组合它们。

他们进一步证明,ADAS 中有一种尚未开发但前景广阔的方法,即可以用代码定义智能体,并通过元智能体在代码中编写更好的智能体来自动发现新智能体。鉴于编程语言是图灵完备的,这种方法理论上可以学习任何可能的智能体系统:包括新颖的提示、工具使用、控制流及其组合。他们提出了一种名为“元智能体搜索”(Meta Agent Search)的简单而有效的算法来证明这一想法,在这种算法中,元智能体会根据不断增长的先前发现档案对有创新性的新智能体进行迭代编程。

通过跨编码、科学和数学等多个领域的广泛实验,他们发现这一算法可以逐步发明出具有新颖设计的智能体,其性能大大优于 SOTA 人工设计智能体。重要的是,元智能体搜索发明的智能体即使在跨领域和跨模型时也能保持优异的性能,这证明了它们的鲁棒性和通用性。 只要我们能安全地开发它,这一工作说明了一个令人兴奋的新研究方向的潜力,即“自动设计出更强大的智能体系统来造福人类”。

论文链接:
https://arxiv.org/abs/2408.08435
项目地址:
https://www.shengranhu.com/ADAS/

6.JPEG-LM:一种新颖的图像、视频生成模型

由于自回归大语言模型(LLM)架构具有通用性,而且很容易集成到多模态系统中,因此最近在图像和视频生成方面的工作一直在采用这种架构。将语言生成中的自回归训练应用于视觉生成的关键在于离散化——将图像和视频等连续数据表示为离散 token。离散化图像和视频的常见方法包括原始像素值建模或矢量量化,前者过于冗长,后者需要复杂的预设训练。

在这项工作中,来自华盛顿大学和 Meta 的研究团队建议将图像和视频直接建模为通过标准编解码器(如 JPEG、AVC/H.264)保存在计算机上的压缩文件。他们使用了 Llama 架构,不做任何针对视觉的修改,通过直接输出 JPEG 和 AVC 格式的压缩文件字节,从头开始预训练 JPEG-LM 来生成图像(作为概念验证,AVC-LM 生成视频)。

对图像生成的评估表明,这种简单直接的方法比基于像素的建模和复杂的矢量量化基线更有效,该方法可将 FID 降低 31%。分析表明,在生成长尾视觉元素方面,JPEG-LM 比矢量量化模型更具优势。总之,该研究表明,使用规范编解码器表示法有助于降低语言生成和视觉生成之间的障碍,从而促进未来对多模态语言/图像/视频 LLM 的研究。

论文链接:
https://arxiv.org/abs/2408.08459

7.生成式蒙太奇拼图

文本到图像模型是创建图像的强大工具。然而,生成过程就像掷骰子一样,很难生成一张能捕捉到用户想要的所有内容的图像。

在这项工作中,来自卡内基梅隆大学和赖赫曼大学的研究团队提出了一个框架,通过合成已生成图像的各个部分来创建所需的图像,其实质就是形成生成式蒙太奇拼图(Generative Photomontage)。对于 ControlNet 使用相同的输入条件和不同的种子生成的一叠图像,他们让用户使用笔触界面从生成的结果中选择所需的部分。 他们提出了一种新颖的技术,其能接收用户的笔触,在扩散特征空间中使用基于图的优化方法分割生成的图像,然后通过一种新的特征空间混合方法合成分割区域。这一方法忠实地保留了用户选择的区域,同时将它们合成在一起。

研究证明,这一灵活的框架可用于多种应用,包括生成新的外观组合、修复不正确的形状和人工痕迹,以及改进及时对齐;该方法优于现有的图像混合方法和各种基线。

论文链接:
https://arxiv.org/abs/2408.07116
项目地址:
https://lseancs.github.io/generativephotomontage/

8.清华、智谱AI 团队推出 10000 字长文本输出模型 LongWriter

目前的长上下文大语言模型(LLM)可以处理多达 10 万个 token 的输入,但很难生成长度超过 2000 个 token 的输出。

通过对照实验,来自清华大学和智谱AI 的研究团队发现,模型的有效生成长度受到其在监督微调(SFT)过程中所见样本的内在限制。换句话说,它们的输出限制是由于现有 SFT 数据集中长输出示例的稀缺性造成的。

为了解决这个问题,他们提出了一种基于智能体的管道——AgentWrite,其可以将超长生成任务分解为子任务,使得现有可用的 LLM 能够生成超过 20000 字的连贯输出。利用 AgentWrite,他们构建了 LongWriter-6k,这是一个包含 6000 个 SFT 数据的数据集,输出长度从 2k 到 32k 字不等。通过将该数据集纳入模型训练,他们成功地将现有模型的输出长度扩展到了 10000 字以上,同时保证了输出质量。

他们还开发了用于评估超长生成能力的综合基准 LongBench-Write。9B 参数模型经过 DPO 的进一步改进,在该基准测试中取得了 SOTA,甚至超过了更大的专有模型。总的来说,这项工作表明,现有的长上下文 LLM 已经具备了更大输出窗口的潜力——只需要在模型对齐过程中提供扩展输出数据,就能释放这种能力。

论文链接:
https://arxiv.org/abs/2408.07055
GitHub 地址:
https://github.com/THUDM/LongWriter

9.谷歌推出文生图模型 Imagen 3

在这项工作中,Google DeepMind 提出了 Imagen 3,这是一种可根据文本提示生成高质量图像的潜在扩散模型。他们介绍了质量和责任评估。在评估时,Imagen 3 优于其他 SOTA 模型。此外,他们还讨论了与安全性和表示有关的问题,以及用来尽量减少模型潜在危害的方法。

论文链接:
https://arxiv.org/abs/2408.07009

10.OpenResearcher:利用人工智能加速科学研究

科学文献的快速增长给研究人员带来了巨大的挑战,他们必须努力了解各自领域的最新进展,并深入研究新的领域。

来自 GAIR lab 的研究团队及其合作者提出了一个利用人工智能(AI)技术加快研究进程的创新平台—— OpenResearcher,其可以回答研究人员提出的各种问题。OpenResearcher 基于检索增强生成(RAG)技术构建,将大语言模型(LLM)与最新的特定领域知识整合在一起。

此外,他们还开发了各种工具,用于理解研究人员的查询、从科学文献中搜索、过滤检索到的信息、提供准确而全面的答案并自我完善这些答案。OpenResearcher 可以灵活使用这些工具,同时兼顾效率和效果。因此,OpenResearcher 使研究人员能够节省时间,提高发现新见解和推动科学突破的潜力。

论文链接:
https://arxiv.org/abs/2408.06941
GitHub 地址:
https://github.com/GAIR-NLP/OpenResearcher

这篇关于大模型日报|10 篇必读的大模型论文的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1091786

相关文章

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU