大模型日报|4 篇必读的大模型论文

2024-06-20 13:12
文章标签 模型 论文 日报 必读

本文主要是介绍大模型日报|4 篇必读的大模型论文,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.ChatGLM 技术报告:从 GLM-130B 到 GLM-4 AII Tools

GLM 技术团队介绍了 ChatGLM,这是一个不断发展的大语言模型系列。本报告主要关注 GLM-4 语言系列,包括 GLM-4、GLM-4-Air 和 GLM-4-9B。它们代表了 GLM 技术团队推出的前沿模型,这些模型是在吸取了前三代 ChatGLM 的所有经验和教训的基础上训练出来的。迄今为止,GLM-4 模型已在 10 万亿个 token(主要是中文和英文)以及 24 种语言的小型语料库上进行了预训练,并主要针对中文和英文的用法进行了对齐。高质量的对齐是通过多阶段的后训练过程实现的,其中包括监督微调和从人类反馈中学习。

评估结果表明,GLM-4 在 MMLU、GSM8K、MATH、BBH、GPQA 和 HumanEval 等通用指标方面与 GPT-4 非常接近,甚至优于 GPT-4;在指令跟随方面接近 GPT-4-Turbo(以 IFEval 衡量);在长上下文任务方面比肩 GPT-4 Turbo (128K) 和 Claude 3;在中文对齐方面优于 GPT-4(以 AlignBench 衡量)。

GLM-4 All Tools 模型经过进一步对齐,能够理解用户意图,并自主决定何时以及使用哪种工具(包括网络浏览器、Python 解释器、文本到图像模型以及用户自定义函数)来有效完成复杂任务。在实际应用中,GLM-4 All Tools 在通过网页浏览访问在线信息和使用 Python 解释器解决数学问题等任务中的表现超过了 GPT-4 All Tools。

GLM 技术团队开源了一系列模型,包括 ChatGLM-6B(1、2、3 代)、GLM-4-9B(128K、1M)、GLM-4V-9B、WebGLM 和 CodeGeeX,仅在 2023 年就在 Hugging Face 上吸引了超过 1000 万次下载。

论文链接:
https://arxiv.org/abs/2406.12793
GitHub 地址:
https://github.com/THUDM
Hugging Face 地址:
https://huggingface.co/THUDM

2.BPO:与行为 LLM 相近的在线偏好优化

根据偏好直接对齐(DAP)已经成为一种很有前途的范式,它可以根据预先收集的离线偏好数据集,将大语言模型(LLM)与人类的需求对齐。

最近的研究表明,现有的离线 DAP 方法可以直接受益于在线训练样本。然而,来自加州大学圣塔巴巴拉分校和卡内基梅隆大学的研究团队强调有必要开发特定的在线 DAP 算法,从而充分利用在线训练的优势。

具体来说,他们认为学习到的 LLM 应与收集训练样本的行为 LLM 保持一致。为此,他们提出了与行为 LLM 相近的在线偏好优化(BPO),强调了为 LLM 对齐构建适当信任区域的重要性。

他们进行了广泛的实验,通过将他们的方法与各种 DAP 方法整合,验证了它的有效性和适用性,结果发现,在使用相同数量的偏好数据进行训练时,他们的方法在各种任务中都取得了显著的性能提升。即使只引入了一个额外的数据收集阶段,他们的在线 BPO 在 TL;DR 和 Anthropic Helpfulness 两项任务中的胜率也分别从 72.0% 和 82.2% 提高到了 80.2%和 89.1%。

论文链接:
https://arxiv.org/abs/2406.12168
GitHub 链接:
https://www.jenmusic.ai/research#DreamStyler

3.JEN-1 DreamStyler:通过参数微调定制音乐概念学习

目前,文生音乐大模型已经取得了重大进展,这有助于根据所提供的文本提示创作出高质量和多样化的音乐作品。然而,输入文本提示可能无法准确捕捉用户需求,尤其是当目标是生成体现从指定参考集合中提取的特定概念的音乐时。

来自 Futureverse 的研究团队提出了一种定制文生音乐的新方法,它可以从两分钟的参考音乐中捕捉概念,并生成符合概念的新音乐。他们通过使用参考音乐微调预训练的文生音乐模型来实现这一目标。

然而,直接微调所有参数会导致过拟合问题。为此,他们提出了一种关键参数微调方法,使模型在吸收新概念的同时保留其原有的生成能力。此外,在对预训练模型提出了多个概念时,他们还发现了潜在的概念冲突。他们提出了一种概念增强策略来区分多个概念,使微调模型能够同时生成包含单个或多个概念的音乐。在定性和定量评估中,他们提出的 Jen1-DreamStyler 均优于几种基线。

论文链接:
https://arxiv.org/abs/2406.12292

4.DeepSeek-AI 推出开源 MoE 代码语言模型 DeepSeek-Coder-V2

来自 DeepSeek-AI 的研究团队提出了一种开源的专家混合(MoE)代码语言模型 DeepSeek-Coder-V2,在代码特定任务中实现了与 GPT4-Turbo 相当的性能。具体来说,DeepSeek-Coder-V2 是在 DeepSeek-V2 的中间检查点基础上进一步预训练的,额外增加了 6 万亿个 token。通过这种持续的预训练,DeepSeek-Coder-V2 大幅增强了 DeepSeek-V2 的编码和数学推理能力,同时在通用语言任务中保持了相当的性能。

与 DeepSeek-Coder-33B 相比,DeepSeek-Coder-V2 在代码相关任务的各个方面,以及推理和一般能力方面都有显著提高。此外,DeepSeek-Coder-V2 支持的编程语言从 86 种增加到 338 种,上下文长度从 16K 增加到 128K。在标准基准评估中,DeepSeek-Coder-V2 在编码和数学基准测试中的表现优于 GPT4-Turbo、Claude 3 Opus 和 Gemini 1.5 Pro 等闭源模型。

论文链接:
https://arxiv.org/abs/2406.11931
GitHub 网址:
https://github.com/deepseek-ai/DeepSeek-Coder-V2

这篇关于大模型日报|4 篇必读的大模型论文的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1078232

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者