最强开源大模型 Llama 3震撼发布!开源模型将追上GPT-4,4000亿参数模型也在路上

2024-04-19 17:36

本文主要是介绍最强开源大模型 Llama 3震撼发布!开源模型将追上GPT-4,4000亿参数模型也在路上,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

就在昨晚,Meta官宣了开源的Llama 3 8B和70B版本。

8B模型在多项指标中超越了Gemma 7B和Mistral 7B Instruct,而70B模型则超越了闭源的Claude 3 Sonnet,和Gemini Pro 1.5。

此外Meta还有一个still training的400B+参数版本,它和GPT-4以及Claude 3的超大杯版本Opus性能差不多,最重要的是,它即将开源!

分享几个网站

GPT-3.5研究测试:
https://hujiaoai.cn

GPT-4研究测试:
https://higpt4.cn

Claude-3研究测试(全面吊打GPT-4):
https://hiclaude3.com

怪兽级性能

由于预训练和训练方法的改进,Llama 3 8B和70B是当今同参数规模的SOTA模型。它大大降低了错误拒绝率,改善了一致性,并增加了模型响应的多样性。此外,在推理、代码生成和指令跟踪等功能的极大改进,使Llama 3更加易于操控。

图片

图片

在Llama 3的开发中,为了寻求对实际场景的优化。Meta开发了一套新的高质量人类评估集,包含1800个prompts,覆盖12个关键用例,如寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作等。为防止模型过度拟合,连模型开发团队也无法访问此评估集。下图展示了与Claude Sonnet、Mistral Medium和GPT-3.5的比较。

图片

模型架构

Llama 3 选择了经典的Decoder-only的Transformer架构。与Llama 2相比,Llama 3做了几个关键的改进,包括:

1、使用具有128K token词汇表的tokenizer,可以更有效地对语言进行编码。
2、在 8B 和 70B 大小的模型上采用了分组查询注意力 (GQA),提高了Llama 3的推理效率。
3、在8192个token的序列上训练模型,使用掩码确保自注意力不会跨越文档边界。这也是美中不足的一点,8k的上下文窗口依然有点过时,不过随着开源社区的努力,这个问题可能很快就会被解决。

图片

训练数据

Llama 3在开源的 15T Token上进行了预训练,比Llama 2使用的数据集大7倍,并且包含4倍多的代码,其中超过5%的预训练数据集由涵盖30多种语言的高质量非英语数据组成。为确保使用高质量数据,开发了多种数据过滤技术,包括启发式和NSFW过滤器,以及语义去重和质量预测文本分类器。

此外,通过广泛的实验确定了数据混合的最佳方法,以优化Llama 3在多种应用场景中的表现。预训练数据的更新截止到2023年3月(8B)和12月(70B)。

微调数据包括开源的指令数据集,以及超过1000万个人工注释的示例。

此外,官网上还附上了这样一句话:“预训练和微调数据集均不包含Meta用户数据”,可以说是求生欲拉满了。

图片

此外,Meta官方还公布了模型的能耗:在H100-80GB上累计计算了7.7M GPU小时,估计总排放量为2290 吨二氧化碳当量,并且附上:“100%的碳排放被Meta的可持续发展计划抵消”,再来一波求生欲!

指令微调

为了最大化预训练模型在聊天用例中的潜力,采用了监督微调(SFT)、拒绝采样、近端策略优化(PPO)和直接策略优化(DPO)的组合方法。通过精心整理SFT中的提示和PPO与DPO的偏好排名,显著提升了模型的性能和对齐能力。特别是,通过PPO和DPO学习偏好排名,显著提高了Llama 3在推理和编码任务的表现,使模型能够更准确地选择正确的答案。

Llama3在线体验

目前,Llama 3的两个版本可以在官网下载:

https://llama.meta.com/llama-downloads/
https://github.com/meta-llama/

也可以在Meta官网体验网页版Llama 3:

https://www.meta.ai/

此外,Llama 3模型将很快在AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM和Snowflake上推出,并得到AMD、AWS、Dell、Intel、NVIDIA和高通提供的硬件平台的支持。

期待Llama 3 400B+

Meta称 “Llama 3 8B和70B型号标志着我们计划为Llama 3发布的产品的开始,我们最大的模型有超过 400B 个参数,虽然这些模型仍在训练中”,并且公布了400B+模型早期检查点的性能。

图片

有网友把它和GPT-4以及Gemini做了个比较。

图片

不知道奥特曼这回慌不慌,可能只有GPT-5能压住它了。

图片

现在我们可以期待,“开源版GPT-4”可能真的要来了!

这篇关于最强开源大模型 Llama 3震撼发布!开源模型将追上GPT-4,4000亿参数模型也在路上的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/918184

相关文章

SpringKafka消息发布之KafkaTemplate与事务支持功能

《SpringKafka消息发布之KafkaTemplate与事务支持功能》通过本文介绍的基本用法、序列化选项、事务支持、错误处理和性能优化技术,开发者可以构建高效可靠的Kafka消息发布系统,事务支... 目录引言一、KafkaTemplate基础二、消息序列化三、事务支持机制四、错误处理与重试五、性能优

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容:标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO(blocking I/O)NI

新特性抢先看! Ubuntu 25.04 Beta 发布:Linux 6.14 内核

《新特性抢先看!Ubuntu25.04Beta发布:Linux6.14内核》Canonical公司近日发布了Ubuntu25.04Beta版,这一版本被赋予了一个活泼的代号——“Plu... Canonical 昨日(3 月 27 日)放出了 Beta 版 Ubuntu 25.04 系统镜像,代号“Pluc

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

一文带你了解SpringBoot中启动参数的各种用法

《一文带你了解SpringBoot中启动参数的各种用法》在使用SpringBoot开发应用时,我们通常需要根据不同的环境或特定需求调整启动参数,那么,SpringBoot提供了哪些方式来配置这些启动参... 目录一、启动参数的常见传递方式二、通过命令行参数传递启动参数三、使用 application.pro

基于@RequestParam注解之Spring MVC参数绑定的利器

《基于@RequestParam注解之SpringMVC参数绑定的利器》:本文主要介绍基于@RequestParam注解之SpringMVC参数绑定的利器,具有很好的参考价值,希望对大家有所帮助... 目录@RequestParam注解:Spring MVC参数绑定的利器什么是@RequestParam?@

Nginx实现前端灰度发布

《Nginx实现前端灰度发布》灰度发布是一种重要的策略,它允许我们在不影响所有用户的情况下,逐步推出新功能或更新,通过灰度发布,我们可以测试新版本的稳定性和性能,下面就来介绍一下前端灰度发布的使用,感... 目录前言一、基于权重的流量分配二、基于 Cookie 的分流三、基于请求头的分流四、基于请求参数的分

SpringBoot接收JSON类型的参数方式

《SpringBoot接收JSON类型的参数方式》:本文主要介绍SpringBoot接收JSON类型的参数方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、jsON二、代码准备三、Apifox操作总结一、JSON在学习前端技术时,我们有讲到过JSON,而在

JAVA虚拟机中 -D, -X, -XX ,-server参数使用

《JAVA虚拟机中-D,-X,-XX,-server参数使用》本文主要介绍了JAVA虚拟机中-D,-X,-XX,-server参数使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录一、-D参数二、-X参数三、-XX参数总结:在Java开发过程中,对Java虚拟机(JVM)的启动参数进

无需邀请码!Manus复刻开源版OpenManus下载安装与体验

《无需邀请码!Manus复刻开源版OpenManus下载安装与体验》Manus的完美复刻开源版OpenManus安装与体验,无需邀请码,手把手教你如何在本地安装与配置Manus的开源版OpenManu... Manus是什么?Manus 是 Monica 团队推出的全球首款通用型 AI Agent。Man