本文主要是介绍Nemotron-4 15B Technical Report,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
#Nemotron-4 15B #Large Language Model #Multilingual #Transformer #Machine Learning
摘要: Nemotron-4 15B 是一个训练在8万亿文本标记上的150亿参数的大型多语言语言模型。在英语、多语言和编码任务上表现出色,超越了所有类似规模的开放模型,并在剩余领域与领先开放模型具有竞争力。特别是,Nemotron-4 15B 在多语言能力上表现最佳,甚至超过了规模大四倍以上的模型和专门针对多语言任务的模型。
主要方法/架构: Nemotron-4 使用标准的仅解码器Transformer架构,具有因果注意力掩码。关键的超参数如表1所示。模型使用了Rotary Position Embeddings (RoPE)、SentencePiece分词器、MLP层中的平方ReLU激活函数、无偏项、0的dropout,以及未绑定的输入输出嵌入。为了更快的推理和更低的内存占用,使用了Grouped Query Attention (GQA)。
数据: Nemotron-4 15B 在一个包含8万亿标记的预训练数据集上训练。数据集分为三类:英语自然语言数据(70%)、多语言自然语言数据(15%)和源代码数据(15%)。在构建预训练语料库时,通过文档级别的精确和近重复去重,并应用了一系列启发式过滤器。
预训练: 使用384个DGX H100节点进行训练,每个节点包含8个基于NVIDIA Hopper架构的H100 80GB SXM5 GPU。训练使用了8路张量并行和数据并行,并在数据并行副本上分片优化器状态。训练大约在13天内完成。
继续训练: 在模型训练结束时,通过改变数据分布和学习率衰减计划来提高模型质量。在继续训练阶段,使用了两种不同的数据分布。
实验对比数据结果: 以下是Nemotron-4 15B在不同评估领域的对比结果,使用Markdown表格格式展示:
任务类别 | 模型 | SIQA | ARC-c | ARC-e | PIQA | Winogrande | Hellaswag | AVG |
---|---|---|---|---|---|---|---|---|
常识推理 | LLaMA-2 13B | 50.3 | 49.4 | 77.3 | 79.8 | 72.8 | 80.7 | 68.4 |
QWEN 14B | 77.9 | 84.4 | 90.3 | 79.9 | 80.2 | - | - | |
Mistral 7B | 47.0* | 55.5 | 80.0 | 83.0 | 75.3 | 81.3 | 70.4 | |
Gemma 7B | 51.8 | 53.2 | 81.5 | 81.2 | 72.3 | 81.2 | 70.2 | |
Nemotron-4 15B | 60.9 | 55.5 | 80.9 | 82.4 | 78.0 | 82.4 | 73.4 |
*注:带有星号的值是从Gemma Team (2024)的报告中读取的。
结论: Nemotron-4 15B展示了在多语言能力上的卓越表现,即使在多语言任务上也超越了专门为此目的训练的模型。这表明大型语言模型可以在比以前估计的更多的标记上进行预训练,并取得卓越的结果。
这篇关于Nemotron-4 15B Technical Report的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!