LLM-LLaMA中文衍生模型：LLaMA-ZhiXi【没有对词表进行扩增、全参数预训练、部分参数预训练、指令微调】

本文主要是介绍LLM-LLaMA中文衍生模型：LLaMA-ZhiXi【没有对词表进行扩增、全参数预训练、部分参数预训练、指令微调】，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

下图展示了我们的训练的整个流程和数据集构造。整个训练过程分为两个阶段：

（1）全量预训练阶段。该阶段的目的是增强模型的中文能力和知识储备。

（2）使用LoRA的指令微调阶段。该阶段让模型能够理解人类的指令并输出合适的内容。

3.1 预训练数据集构建

为了在保留原来的代码能力和英语能力的前提下，来提升模型对于中文的理解能力，我们并没有对词表进行扩增，而是搜集了中文语料、英文语料和代码语料。其中中文语料来自于百度百科、悟道和中文维基百科；英文数据集是从LLaMA原始的英文语料中进行采样，不同的是维基数据，原始论文中的英文维基数据的最新时间点是2022年8月，我们额外爬取了2022年9月到2023年2月，总共六个月的数据；而代码数据集，由于Pile数据集中的代码质量不高，我们去爬取了Github、Leetcode的代码数据，一部分用于预训练，另外一部分用于指令微调。

对上面爬取到的数据集，我们使用了启发式的方法，剔除了数据集中有害的内容，此外，我们还剔除了重复的数据。