大语言模型（一）OLMo

2024-06-01 01:28

文章标签 语言模型 olmo

本文主要是介绍大语言模型（一）OLMo，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

一、简介

OLMo 是由AI2 发布的大语言模型以及构建框架，与大多数之前的尝试只发布模型权重和推理代码不同，OLMo 开源了整个框架，包括训练数据、训练代码以及模型评估代码。

OLMo框架包括构建和研究语言模型所需的工具和资源。对于训练和建模，它包括完整的模型权重、训练代码、训练日志、消融实验、以Weights & Biases日志形式的训练指标，以及推理代码。这次发布包括我们的语言模型在7B规模上的四个变体，对应不同的架构、优化器和训练硬件，以及一个1B规模的模型，所有模型都至少训练了2T token。OLMo 作者还在HuggingFace上作为修订版发布了数百个中间检查点。对于数据集构建和分析，它包括用于这些模型的完整训练数据，包括生成训练数据的代码，来自AI2的Dolma 和用于分析预训练数据的WIMBD。对于评估，它包括AI2的Catwalk 用于下游评估和Paloma 用于基于困惑度的评估。

OLMo 也是基于Transformer Decoder-only 架构，并做了如下主要改变：

无偏置项，以提高训练稳定性。
非参数化层归一化，对比参数化层归一化和RMSNorm，OLMo 作者认为这是最安全的选择，也是最快的选择。
SwiGLU激活函数，与LLaMA、PaLM和其他模型一样，使用SwiGLU 代替ReLU。
旋转位置嵌入（RoPE），与LLaMA、PaLM和其他模型一样，用RoPE 替换了绝对位置嵌入。
词汇表，OLMo 作者修改 GPT-NeoX-20B tokenizer ，添加了用于屏蔽个人身份信息（PII）的额外标记。最终的词汇表大小为50,280。然而，为

这篇关于大语言模型（一）OLMo的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！