Nemotron-4 15B Technical Report

2024-02-28 18:20
文章标签 report technical nemotron 15b

本文主要是介绍Nemotron-4 15B Technical Report,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

#Nemotron-4 15B #Large Language Model #Multilingual #Transformer #Machine Learning

摘要: Nemotron-4 15B 是一个训练在8万亿文本标记上的150亿参数的大型多语言语言模型。在英语、多语言和编码任务上表现出色,超越了所有类似规模的开放模型,并在剩余领域与领先开放模型具有竞争力。特别是,Nemotron-4 15B 在多语言能力上表现最佳,甚至超过了规模大四倍以上的模型和专门针对多语言任务的模型。

主要方法/架构: Nemotron-4 使用标准的仅解码器Transformer架构,具有因果注意力掩码。关键的超参数如表1所示。模型使用了Rotary Position Embeddings (RoPE)、SentencePiece分词器、MLP层中的平方ReLU激活函数、无偏项、0的dropout,以及未绑定的输入输出嵌入。为了更快的推理和更低的内存占用,使用了Grouped Query Attention (GQA)。

数据: Nemotron-4 15B 在一个包含8万亿标记的预训练数据集上训练。数据集分为三类:英语自然语言数据(70%)、多语言自然语言数据(15%)和源代码数据(15%)。在构建预训练语料库时,通过文档级别的精确和近重复去重,并应用了一系列启发式过滤器。

预训练: 使用384个DGX H100节点进行训练,每个节点包含8个基于NVIDIA Hopper架构的H100 80GB SXM5 GPU。训练使用了8路张量并行和数据并行,并在数据并行副本上分片优化器状态。训练大约在13天内完成。

继续训练: 在模型训练结束时,通过改变数据分布和学习率衰减计划来提高模型质量。在继续训练阶段,使用了两种不同的数据分布。

实验对比数据结果: 以下是Nemotron-4 15B在不同评估领域的对比结果,使用Markdown表格格式展示:

任务类别模型SIQAARC-cARC-ePIQAWinograndeHellaswagAVG
常识推理LLaMA-2 13B50.349.477.379.872.880.768.4
QWEN 14B77.984.490.379.980.2--
Mistral 7B47.0*55.580.083.075.381.370.4
Gemma 7B51.853.281.581.272.381.270.2
Nemotron-4 15B60.955.580.982.478.082.473.4

*注:带有星号的值是从Gemma Team (2024)的报告中读取的。

结论: Nemotron-4 15B展示了在多语言能力上的卓越表现,即使在多语言任务上也超越了专门为此目的训练的模型。这表明大型语言模型可以在比以前估计的更多的标记上进行预训练,并取得卓越的结果。

这篇关于Nemotron-4 15B Technical Report的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/756248

相关文章

The Prompt Report 2

The Prompt Report 提示工程调查报告《The Prompt Report: A Systematic Survey of Prompting Techniques》 主要内容 Core Prompting Techniques Text based Techniques:PRISMA流程,58中基于文本的提示技术,提示语术语分类表;MLT:Multilingual T

调用ASH Report

--调用ASH Report --?/rdbms/admin/ashrpt.sql SYS@PROD1> start ?/rdbms/admin/ashrpt.sqlCurrent Instance~~~~~~~~~~~~~~~~DB Id DB Name Inst Num Instance----------- ------------ -------- -----

Introduction to the t Distribution (non-technical)

https://www.youtube.com/watch?v=Uv6nGIgZMVw

innovus:report_area和reportGateCount报告module面积的差异

我正在「拾陆楼」和朋友们讨论有趣的话题,你⼀起来吧? 拾陆楼知识星球入口 相关文章链接:

帆软Report 时间日期相关公式

公式 时间日期相关公式 时间日期相关公式 获取当月的天数: DAYSOFMONTH(DATE($iYear,$iMonth,'01'))

学习大数据DAY44 帆软 report 配置

目录 Linux 系统独立部署 Tomcat 服务器设置 上机练习 Linux 系统独立部署 ## 题目要求 在 LINUX 系统, Tomcat 服务器容器下,完成 FineReport 报表工程的独立部 署,并设置服务器开机自启动,并请实操演示 得分点(完成得满分,未完成得 0 分): FineReport 报表工程的独立部署

深入理解AX Inventory Aging Report

库龄报表是Dynamics AX 2012 R3当中新增的报表。它可以让用户灵活地定义库龄区间,也可以倒推某个时间节点的数据。 价格是截止报表日期的平均成本单价。 它的缺点一是只能按照先进先出(FIFO)的原则计算库存异动,而不能根据实际的批次入库日期计算;缺点二是不能区分物理入库还是财务入库。 访问路径: 库存管理 -> 报表 -> 状态 -> 实际库存 -> 库龄 可以根据库

Cognos Report Studio 使用自定义SQL及注意事项

有些复杂报表或者功能,用标准的framework package无法满足或者效果不好。可以在report studio当中使用user defined SQL来实现。 自定义SQL 1.使用工具 query explorer -> Toolbox -> SQL  2.在properties页配置Data source, SQL  3.配置引用该SQL工具的query.

芯片后端之 PT 使用 report_timing 产生报告 之 常用命令

滴水穿石,坚持加持~ pt_shell> report_timing -from <startpoint> -to <endponit> -delay max/min pt_shell> report_timing -from <startpoint> -to <endponit> -delay max/min  -nosplit pt_shell> get_cells *data_re

芯片后端之 PT 使用 report_timing 产生报告如何阅读

今天,就PT常用的命令,做一个介绍,希望对大家以后的工作,起到帮助作用。 在PrimeTime中,使用report_timing -delay max命令生成此报告。switch -delay max表示定时报告用于设置(这是默认值)。 首先,我们整体看一下通过report_timing 运行之后,报告产生的整体样式。 pt_shell> report_timing -from start_