大模型公开可用的模型检查点或 API

2024-05-04 23:52

本文主要是介绍大模型公开可用的模型检查点或 API,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 公开可用的模型检查点或 API
    • LLaMA 变体系列
    • 大语言模型的公共 API

公开可用的模型检查点或 API

    众所周知,大模型预训练是一项对计算资源要求极高的任务。因此,经过预训练的公开模型检查点(Model Checkpoint)对于推动大语言模型技术的渐进式发展起到了至关重要的作用。得益于学术界和工业界的共同努力,目前开源社区已经积累了大量的模型检查点资源,用户可以根据自身研究或开发需求,灵活选择并下载使用这些检查点。此外,对于那些仅需利用模型进行解码生成的用户而言,商业公司提供的闭源模型的 API 接口也是一种便捷的选择。这些接口为用户提供了与模型进行交互的渠道,而无需关心模型内部的复杂结构和训练过程,即可快速获得生成结果,从而满足各种真实场景的应用需求。

    LLaMA 和 LLaMA-2,LLaMA是 Meta AI 在 2023 年 2 月发布的一系列大语言模型,有 7B、13B、30B 和 65B 四种参数规模版本,是当时性能非常优异的开源模型之一,直到目前也仍然被广泛使用与对比。其中,13B 参数的版本在部分自然语言处理基准测试中超越了具有 175B 参数的 GPT-3 模型。LLaMA 各个参数量版本都在超过 1T 词元的预训练语料上进行了训练,其中 65B 参数的模型版本在 2,048 张 80G 显存的 A100 GPU 上训练了近 21 天。由于对公众开放了模型权重且性能优秀,LLaMA 已经成为了最受欢迎的开源大语言模型之一,许多研究工作都是以其为基座模型进行微调或继续预训练,衍生出了众多变体模型,极大地推动了大语言模型领域的研究进展。2023 年 7 月,Meta AI 公开发布了 LLaMA-2,对第一代模型进行了综合升级。LLaMA-2 有 7B、13B、34B(未开源)和 70B 四种参数规模版本,并且可用于商用。相比于第一版 LLaMA,LLaMA-2 扩充了预训练的词元量(达到了 2T),同时将模型的上下文长度翻了一倍(达到 4,096 个词元),并引入了分组查询注意力机制等技术来提升模型性能。此外,Meta AI 使用 LLaMA-2 作为基座模型,通过进一步的有监督微调、基于人类反馈的强化学习等技术对模型进行迭代优化,完整经历了“预训练-有监督微调-基于人类反馈的强化学习”这一训练流程,并发布了面向对话应用的微调系列模型 LLaMA-2 Chat(同样具有四种参数规模的版本)。LLaMA-2 Chat不仅在许多任务上具有更好的模型性能(例如代码生成、世界知识、阅读理解和数学推理),同时在应用中也更加安全。

    ChatGLM,ChatGLM是智谱 AI 和清华大学联合开发的中英双语对话式模型,最早发布于 2023 年 5 月,并一直进行迭代优化,目前已经更新到了ChatGLM-3。ChatGLM 系列模型参数量都是 6B,具备流畅对话的能力且部署门槛低,在语义、数学、推理、代码、知识等不同角度的评测中都取得了优异表现。除此之外,该系列还开源了基础模型 ChatGLM3-6B-Base 、长文本对话式模型 ChatGLM3-6B-32K 和进一步强化了对于长文本理解能力的 ChatGLM3-6B-128K。除了 ChatGLM 系列,智谱 AI 还致力于开发更强更大规模的 GLM

    Falcon,Falcon是阿布扎比的技术创新研究院(TII)发布的一系列语言 模型,包括 7B、40B 和 180B 三个参数版本,两个较小的版本发布于 2023 年 5 月,180B 参数的版本发布于 2023 年 9 月。其中,180B 参数的版本是当时参数量最大的开源预训练语言模型。Falcon 的训练数据 80% 以上来自 RefinedWeb 数据集,该数据集是一个基于 Common Crawl 的经过严格清洗的网页数据集。根据 Falcon 的技术报告,其 7B 版本的模型在 384 张 A100 上使用了 1.5T 词元进行训练,40B 版本的模型在 384 张 A100 上使用了 1T 词元进行训练,而 180B 版本的模型在 4,096张 A100 上使用了 3.5T 词元进行训练。同样地,TII 也开放了经过指令微调的模型Falcon Instruct 供用户使用。

    Baichuan 和 Baichuan-2,Baichuan是百川智能公司于 2023 年 6 月发布的开源可商用大语言模型,参数规模为 7B,支持中英双语,预训练数据规模达到了1.2T 词元。当时在其比较的中文和英文的多个基准测试中都取得了同尺寸模型较优效果。2023 年 9 月,百川智能发布了新一代开源多语言模型 Baichuan-2,目前有 7B 和 13B 两种参数规模,预训练数据规模达到了 2.6T 词元。除了基座模型,百川智能也提供了经过有监督微调和人类偏好对齐的对话式模型。根据 Baichuan2 的技术报告,Baichuan-2 性能进一步提升,在其评估基准测试上的表现全面超过Baichuan。此外,Baichuan-2 还具备优秀的多语言能力和垂域应用潜力(如法律、医疗等领域)。

    InternLM 和 InternLM-2,InternLM是上海人工智能实验室开发的多语言开源大模型,于 2023 年 7 月公开发布,目前已开源 7B 和 20B 两种参数规模。据InternLM 的技术报告,20B 参数的 InternLM 在其评估的基准测试上达到了第一代LLaMA (70B) 的水平,并且支持数十类插件,有较强的工具调用能力。除了开源模型本体外,InternLM 还提供了配套的开源工具体系,包括预训练框架 InternLMTrain、低成本微调框架 XTuner、部署推理框架 LMDeploy、评测框架OpenCompass以及面向场景应用的智能体框架 Lagent,为用户使用提供了完备的使用链。2024年 1 月,InternLM-2正式发布,相比于 InternLM,各个方面的能力都有了提升,包括推理、代码、数学、对话、指令遵循等众多能力。InternLM-2 目前提供了1.8B、7B 和 20B 三种参数规模的版本可供使用。此外,InternLM 系列也发布了多模态模型 InternLM-XComposer 和数学模型 InternLM-Math。

    Qwen,Qwen 是阿里巴巴公司开源的多语大模型系列,首次公开发布于 2023 年 8 月,且仍在继续更新。现有从 0.5B 到 72B 的不同参数规模版本,其中,14B 的 Qwen 的预训练数据规模达到了 3T 词元。根据 Qwen 的技术报告,2024年 2 月最新发布的 Qwen-1.5 (72B) 在其评估的测试基准上优于 LLaMA-2 (70B) 的表现,在语言理解、推理、数学等方面均展现出了优秀的模型能力。除此之外,Qwen 系列专门为代码、数学和多模态设计了专业化模型 Code-Qwen、Math-Qwen和 Qwen-VL,以及对应的对话式模型,可以供用户进行选择使用。

    Mistral,Mistral 是 Mistral AI 在 2023 年 9 月公开发布的具有 7B 参数的 大语言模型,受到了广泛关注。根据 Mistral 博客提供的结果,Mistral (7B) 在其评估的基准测试中都优于 LLaMA-2 (13B) 和 LLaMA (34B),并且在代码生成方面的表现接近于专门为代码任务微调的Code LLaMA (7B)。在解码效率上,Mistral 采用了分组查询注意力技术;在上下文长度上,Mistral 采用了滑动窗口注意力技术,增强了对于长文本的处理能力。通过引入分组查询注意力和滑动窗口注意力技术,Mistral 在 16K 序列长度和 4K 注意力窗口大小下速度提升了 2 倍。除此之外,Mistral AI 还发布了 Mistral 的有监督微调版本——Mistral Instruct,在 MT-bench(评估大语言模型在多轮对话和指令遵循能力的基准测试)上优于很多 7B 参数的对话模型。

    DeepSeek LLM,DeepSeek LLM 是幻方公司于 2023 年 11 月公开发布的大语言模型,主要支持中英双语,目前有 7B 和 67B 两种参数规模,预训练阶段使用的数据量都达到了 2T 规模的词元。根据 DeepSeek LLM 的技术报告,67B 参数量的 DeepSeek LLM 在多个评估的基准测试中超过了 LLaMA-2 (70B) 模型,特别是在代码、数学和推理任务上。DeepSeek LLM 同时提供 7B 和 67B 两种参数规模的对话模型,并针对人类价值观进行了对齐。除了通用基座模型,DeepSeek 系列也发布了相应的数学模型 DeepSeek-Math、代码模型 DeepSeek-Coder 和多模态模型 DeepSeek-VL。

    Mixtral,Mixtral 全称为 Mixtral 8×7B,是 Mistral AI 在 2023 年 12 月公开发布的稀疏混合专家模型架构的大语言模型,这也是较早对外公开的 MoE 架构的语言模型。在结构上,Mixtral 包含 8 组不同的“专家”参数,对于每个词元,Mixtral 的每一层都会通过路由网络选择两组“专家”来对其进行处理,并将它们的输出相加结合起来。虽然 Mixtral 一共有 46.7B 参数,但是每个词元在处理过程中只会用到 12.9B 参数,因此其处理速度和资源消耗与 12.9B 参数的模型相当。在性能上,Mistral AI 博客提供的结果显示,Mixtral 在多个基准测试中都超过了LLaMA-2 (70B) 和 GPT-3.5,并且解码速度比 LLaMA-2 (70B) 快了 6 倍,能够支持32K 长度的上下文。此外,Mixtral 还支持多种语言,包括英语、法语、意大利语、德语和西班牙语等。Mistral AI 同样也发布了 Mixtral 8×7B 有监督微调版本——Mixtral 8×7B Instruct,在 MT-bench上取得了与 GPT-3.5 相当的性能表现。

    Gemma,Gemma是谷歌于 2024 年 2 月发布的轻量级开源大模型,有 2B和 7B 两种参数规模。Gemma 的技术路线与谷歌另一款闭源多模态模型 Gemini 类似,但 Gemma 为纯语言模型,且专注于英语任务。Gemma (2B) 预训练数据规模达到了 2T 词元,而 Gemma (7B) 的预训练数据规模达到了 6T 词元,两者的预训练语料都主要是英语数据。根据 Gemma 的技术报告显示,Gemma 在其评估的多个自然语言基准测试中都取得了较好水平。同样地,Gemma 也提供了有监督微调版本 Gemma IT,并与人类偏好进行了对齐。

    MiniCPM,MiniCPM 是面壁智能与清华大学共同研发的开源语言模型,仅有 2B 的参数规模,于 2024 年 2 月发布。MiniCPM 在训练前进行了模型沙盒实验,通过预先使用小模型广泛实验寻找更优的训练设置,并最终迁移至大模型上。在训练方法上,MiniCPM 首先采用了稳定训练与退火的两阶段学习方法,然后进行了有监督微调和人类偏好对齐。根据 MiniCPM 的技术报告,在其评测的多个领域基准测试中取得了非常优异的效果。同系列模型还包括 MiniCPM-2B-SFT(指令微调版本)、MiniCPM-2B-DPO(DPO 对齐版本)、MiniCPM-V(多模态模型)等。

    YuLan-Chat,YuLan-Chat是中国人民大学研发的中英双语系列对话模型,最早发布于 2023 年 6 月,目前已经更迭至最新版本 YuLan-Chat-3。其中,YuLanChat-1 在LLaMA 的基础上进行微调,使用了精心优化的高质量中英文混合指令,发布了 13B 和 65B 两个参数规模版本。YuLan-Chat-2 在 LLaMA-2 的基础上使用中英双语进行继续预训练,同样具有 13B 和 65B 两个参数版本,目前可支持 8K的上下文长度。YuLan-Chat-3 从头开始进行了完整的预训练,其参数规模为 12B,预训练词元数达到 1.68 T。YuLan-Chat-3 采用了两阶段的课程学习指令微调方法,并且进行了人类对齐。

LLaMA 变体系列

    自 2023 年 2 月发布以来,LLaMA 系列模型在学术界和工业界引起了广泛的关注,对于推动大语言模型技术的开源发展做出了重要贡献。LLaMA 拥有较优的模型性能,并方便用户公开获取,因此一经推出就迅速成为了最受欢迎的开放性语言模型之一。众多研究人员纷纷通过指令微调或继续预训练等方法来进一步扩展 LLaMA 模型的功能和应用范围。其中,指令微调由于相对较低的计算成本,已成为开发定制化或专业化模型的首选方法,也因此出现了庞大的 LLaMA 家族。

    基础指令,在 LLaMA 的扩展模型中,Stanford Alpaca是第一个基于 LLaMA (7B) 进行微调的开放式指令遵循模型。通过使用 Self-Instruct 方法借助大语言模型进行自动化的指令生成,Stanford Alpaca 生成了 52K 条指令遵循样例数据(Alpaca-52K)用于训练,其指令数据和训练代码在随后的工作中被广泛采用。Vicuna 作为另一个流行的 LLaMA 变种,也受到了广泛关注。它并没有使用合成指令数据,主要是使用 ShareGPT 收集的用户日常对话数据进行训练,展现了基于 LLaMA 的语言模型在对话生成任务中的优秀实力。

图片名称
近年来大语言模型的统计数据,包括预训练数据规模(以词元数量或存储 大小表示)和硬件条件等。本表仅列举有公开论文介绍技术细节的模型,其中“发 布时间”表示相应论文或技术报告正式发布的日期。“可公开获取”表示模型检查 点可以公开获取,而“闭源”则相反。“适配”指模型是否经过了后续微调:IT 表 示指令微调,RLHF 表示基于人类反馈的强化学习。
图片名称

    中文指令,原始的 LLaMA 模型的训练语料主要以英语为主,在中文任务上的表现比较一般。为了使 LLaMA 模型能够有效地支持中文,研究人员通常会选择扩展原始词汇表,在中文数据上进行继续预训练,并用中文指令数据对其进行微调。经过中文数据的训练,这些扩展模型不仅能更好地处理中文任务,在跨语言处理任务中也展现出了强大的潜力。目前常见的中文大语言模型有 Chinese LLaMA、Panda、Open-Chinese-LLaMA、Chinese Alpaca、YuLan-Chat 等。

    垂域指令,LLaMA 虽然展现出了强大的通用基座模型能力,但是在特定的垂直领域(例如医学、教育、法律、数学等)的表现仍然较为局限。为了增强 LLaMA模型的垂域能力,很多工作基于搜集到的垂域相关的指令数据,或者采用垂域知识库以及相关专业文献等借助强大的闭源模型 API(例如 GPT-3.5、GPT-4 等)构建多轮对话数据,并使用这些指令数据对 LLaMA 进行指令微调。常见的垂域 LLaMA模型有 BenTsao(医学)、LAWGPT(法律)、TaoLi(教育)、Goat(数学)、Comucopia(金融)等。

    多模态指令,由于 LLaMA 模型作为纯语言模型的强大能力,许多的多模态模型都将其(或将其衍生模型)作为基础语言模型,搭配视觉模态的编码器,使用多模态指令对齐视觉表征与文本。与其他语言模型相比,Vicuna 在多模态语言模型中受到了更多的关注,由此形成了一系列基于 Vicuna 的多模态模型,包括LLaVA 、MiniGPT4 、InstructBLIP 和 PandaGPT 。

    除了使用不同种类的指令数据进行全参数微调外,研发人员还经常使用轻量化微调的技术训练 LLaMA 模型变体,以降低训练成本,方便用户部署。例如,AlpacaLoRA 使用 LoRA 复现了 Stanford Alpaca。LLaMA 模型系列的发布有力地推动了大语言模型技术的发展。为了更直观地展示 LLaMA 系列模型的研究进展以及衍生模型之间的关系,下图展示了一个 LLaMA 系列模型的简要演化图,呈现了 LLaMA 模型系列从发布到快速发展以及在各个领域中的广泛应用。

图片名称
LLaMA 系列模型的衍生工作进化图

大语言模型的公共 API

    语言模型 API,目前最常用的 GPT 系列模型 API 包括 GPT-3.5 Turbo、GPT-4和 GPT-4 Turbo。其中,GPT-3.5 Turbo 对应的 API 接口为 gpt-3.5-turbo,支持16K 词元的上下文长度。目前,开发者可以使用自己的数据来微调 GPT-3.5 Turbo,以便更好地适用于个性化的应用场景,例如提高模型的指令遵循能力、定制化输出格式以及定制化语气等;GPT-4 是一个多模态模型,也是目前 GPT 系列效果最好的模型,其对应的 API 接口有 gpt-4(基础版本,没有视觉功能)、gpt-4-32k(将上下文长度扩展到 32K)、gpt-4-vision-preview(带有视觉功能的 GPT-4 多模态版本)。相较于 GPT-4,GPT-4 Turbo 有更快的生成速度、更长的上下文窗口(最多 128K)以及更低的价格,其最新对应的 API 为 gpt-4-turbo-preview。对于许多基本任务来说,GPT-4 和 GPT-3.5 模型之间的差异并不显著。然而,在较为复杂的推理任务中,GPT-4 能够展现出更为强大的模型能力。值得注意的是,OpenAI一直在维护和升级这些模型接口,因此 API 名称实际上将指向最新版本。

    文本表征 API. 除了语言模型 API 外,OpenAI 还提供用于文本表征的 API,可用于聚类、稠密信息检索等多种下游任务,可以为知识检索以及检索增强生成提供支持。目前 OpenAI 主要提供三种文本表征的 API 接口,包括 text-embedding-ada-002、text-embedding-3-small 以及 text-embedding-3-large。其中,text-embedding-ada-002 发布于 2022 年,至今模型并未更新,可以提供1,536 维的向量表征,在英文文本表征基准测试 MTEB 获得了 61% 的平均得分;text-embedding-3-small 是一个更高效的文本表征模型,同样提供 1,536 维的向量表征。相对于 text-embedding-ada-002,text-embedding-3-small 有较大的性能提升,在 MTEB 的平均得分达到62.3%;而 text-embedding-3-large 能够支持高达 3,072 维的向量表征,是三者中目前性能最好的模型,在 MTEB 的平均得分达到了 64.6%。这三个 API 支持的输入长度都是 8,191 个词元,开发者可根据自身需求选择合适的 API。

这篇关于大模型公开可用的模型检查点或 API的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/960377

相关文章

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者