乘骐骥以驰骋兮,来吾道夫先路——2023年大模型技术基础架构盘点与开源工作速览

本文主要是介绍乘骐骥以驰骋兮,来吾道夫先路——2023年大模型技术基础架构盘点与开源工作速览,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

  • 一、模型基本架构
    • 1.1、自回归(Autoregressive)模型架构
    • 1.2、自编码(Autoencoder)模型架构
    • 1.3、完整的编码-解码模型架构
  • 二、典型开源工作速览
    • 2.1、LLaMA-2
    • 2.2、baichuan-2
    • 2.3、Falcon
    • 2.4、BLOOM
  • 最后

在过去的一年里,大模型技术在人工智能领域取得了巨大的进展和突破,成为业界瞩目的焦点。从优化的学习算法到激动人心的应用案例,从推动科研的新边界到开拓商业的新天地,大模型技术的跃进式发展,俨然成为推动行业革新、塑造未来商业竞争力的核心动力,为各行各业带来了前所未有的机遇和挑战。

“乘骐骥以驰骋兮,来吾道夫先路”,转眼间,2023年已结束,在这里,从2023年的技术盘点中抽丝剥茧,领略一些至关重要的大模型技术架构盘点与重要开源工作。

一、模型基本架构

在模型架构方面,国内外的大模型普遍为Transformer架构。Transformer的整体主要分为Encoder和Decoder两大部分。
在这里插入图片描述
输入的序列首先变成计算机便于处理的Embedding,然后Embedding传入Encoder进行编码,映射成隐藏层特征,经过Encoder后再结合上一次的output输入到Decoder中,最后用softmax计算序列下一个单词的概率。

模型的基座设计大体上可以分为以下三种:

  • 仅包含解码器(Decoder-only)- 自回归(Autoregressive)模型
  • 仅包含编码器(Encoder-only),即自编码(Autoencoder)模型
  • 编码器—解码器(Encoder-Decoder),即完整的Transformer结构

1.1、自回归(Autoregressive)模型架构

这种架构仅包含解码器部分,没有编码器。代表模型是GPT和LLaMA,其训练目标是从左到右的文本生成,AR模型从一系列time steps中学习,并将上一步的结果作为回归模型的输入,以预测下一个time step的值,在这种结构中,模型通过自回归的方式逐步生成输出序列的每个元素。每个输出元素的生成依赖于先前生成的元素,在长文本的生成能力很强,擅长于摘要生成、翻译、对话生成、故事生成等。

1.2、自编码(Autoencoder)模型架构

这种模型仅包含编码器部分,没有解码器。代表模型是BERT、ALBERT 、DeBERTa,自编码模型是通过去噪任务(如利用掩码语言模型)学习双向的上下文编码器,其目标是通过联合训练来学习双向上下文信息。这种自编码器结构有助于在各种下游任务上获得高效的特征表示,常用于自然语言理解,如情感分析、提取式问答。

1.3、完整的编码-解码模型架构

最通用的Transformer结构,同时包含编码器和解码器。代表模型是T5、BART和BigBird适用于序列到序列的任务,如机器翻译。编码器负责将输入序列编码成一个上下文表示,解码器则使用这个表示逐步生成输出序列。这种结构在翻译等任务中表现良好,同时也可以应用于其他序列生成任务。

架构优点代表作品
自回归模型架构生成过程天然自回归,适用于生成任务,如文本生成、语言建模。大部分大模型采用的方法。GPT、 LLaMA
自编码模型架构能够学习输入数据的紧凑表示,适用于降维、特征提取等任务。易于在下游任务中以无监督或半监督的方式进行微调。DeBERTa、MAAL
完整编码-解码模型架构充分利用了上下文信息,能够捕捉输入序列中的长距离依赖关系,具有较强的通用性。T5、BART、BigBird

考虑到训练效率、推理需求和下游实际应用任务,大模型通常采用仅包含解码器的架构,通过自回归预训练高效地生成优质内容。

二、典型开源工作速览

2.1、LLaMA-2

论文地址:https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

仓库地址:https://github.com/facebookresearch/llama

简要介绍
LLaMA-2由Meta AI的GenAI团队开发,开放了两个版本,一个是纯无监督训练出来的基础模型,另一个是在基础模型之上进行有监督微调SFT和人类反馈的强化学习RLHF进行训练的Chat模型。所发布的两个版本中,都提供了7B、13B 和70B的三个参数规模的模型。

训练成本
2000个A100-80GB,时间从2023年1月到2023年7月

模型效果
Meta在论文中表示,LLaMA 70B的模型在许多方面都超越了 ChatGPT-3.5的水平。

2.2、baichuan-2

论文地址:https://cdn.baichuan-ai.com/paper/Baichuan2-technical-report.pdf
仓库地址:https://github.com/baichuan-inc/Baichuan2

简要介绍
Baichuan 2 是百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练。在多个权威的中文、英文和多语言的通用、领域 benchmark 上取得同尺寸最佳的效果。

训练成本
1024个NVIDIA A800 GPUs

模型效果
模型在通用、法律、医疗、数学、代码和多语言翻译六个领域的中英文和多语言权威数据集上对模型进行了广泛测试。同时,Baichuan-2-7B模型还开放了中间的11个 Checkpoints 供社区研究。在这里插入图片描述
在这里插入图片描述

2.3、Falcon

论文地址:https://huggingface.co/blog/zh/falcon-180b
仓库地址:https://huggingface.co/tiiuae/falcon-180B

简要介绍
Falcon-180B是一个拥有1800亿参数的因果解码器模型(自回归语言模型),由阿布扎比(Abu Dhabi)的技术创新研究院(TII)开发和训练,于2023年9月发布。它是继Falcon-40B之后,TII推出的第二个开源大语言模型(LLM),也是目前世界上最大的开源开放大模型。Falcon-180B的目标是为研究者和商业用户提供一个强大、高效、多语言和多领域的基础模型,可以用于各种自然语言处理(NLP)任务,如文本生成、摘要、问答、对话、机器翻译等。目前开放了两个版本:一个是纯无监督训练出来的基础模型Falcon-180B,另一个是在基础模型之上进行有监督微调SFT和人类反馈的强化学习RLHF进行训练的Chat模型Falcon-180B-chat。

训练成本
约为 LLaMA-2-70B 的4倍,估计超过8000万美元

模型效果
Falcon-180B效果上表现很不错,在 MMLU 表现上超越了 LLaMA-2-70B、ChatGPT-3.5;在多个数据集【HellaSwag、LAMBADA、WebQuestions、Winogrande、PIQA、ARC、BoolQ、CB、COPA、RTE、WiC、WSC、ReCoRD 】上与谷歌的 PaLM 2-Large 不相上下。

2.4、BLOOM

论文地址:https://arxiv.org/abs/2211.05100
仓库地址:https://bigscience.huggingface.co/
简要介绍:BLOOM是 BigScience Large Open-science Open-access Mul-tilingual Language Model首字母的缩写。BLOOM本身基于变换器网络(Transformer)架构的自回归语言模型,也是第一个开源开放的超过100B的语言模型。
在这里插入图片描述

训练成本
训练时间3.5月,花费1,082,990计算小时。 48个节点,每个节点包括用4个NVLink互联的8块NVIDIA A100 80GB GPUs(应该是一台Nvidia DGX A100或类似的),2x AMD EPYC 7543 32-Core CPUs 和 512GB内存,一共384 A100 GPUs。 训练中预留了4个节点备用,防止训练过程的失效。

模型效果
模型会学习数十亿个单词和短语之间的统计学关联,然后执行各种任务,包括生成摘要、翻译、回答问题,以及对文本进行分类等等。值得一提的是BLOOM还使用了13种编程语言。

在这个瞬息万变的技术时代,大模型技术不仅仅是一种工具或框架,更是推动科技革命的引擎。

大模型已然推动着人工智能、自然语言处理等领域的快速演进。开源社区的力量汇聚成涌动的江河,推动着技术的不断创新。2024年,期待更多的开源项目涌现,为技术发展注入新的活力。

最后

💖 个人简介:人工智能领域研究生,目前主攻文本生成图像(text to image)方向

📝 个人主页:中杯可乐多加冰

🔥 限时免费订阅:文本生成图像T2I专栏

🎉 支持我:点赞👍+收藏⭐️+留言📝

另外,我们已经建立了研学交流群,如果你也是大模型、T2I方面的爱好者或研究者可以私信我加入。

这篇关于乘骐骥以驰骋兮,来吾道夫先路——2023年大模型技术基础架构盘点与开源工作速览的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/573317

相关文章

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP(CommunicatingSequentialProcesses,通信顺序进程)并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe

SSID究竟是什么? WiFi网络名称及工作方式解析

《SSID究竟是什么?WiFi网络名称及工作方式解析》SID可以看作是无线网络的名称,类似于有线网络中的网络名称或者路由器的名称,在无线网络中,设备通过SSID来识别和连接到特定的无线网络... 当提到 Wi-Fi 网络时,就避不开「SSID」这个术语。简单来说,SSID 就是 Wi-Fi 网络的名称。比如

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}