StabilityAI公司发布新模型StableLM Zephyr 3B 使人工智能的稳定性变得“讨人喜”

本文主要是介绍StabilityAI公司发布新模型StableLM Zephyr 3B 使人工智能的稳定性变得“讨人喜”，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Stability AI 最为人所知的是其稳定的扩散文本到图像生成 AI 模型套件，但这并不是该公司的全部。Stability AI 发布了最新的模型 ——StableLM Zephyr 3B，这是一个 30 亿参数的大型语言模型（LLM），用于聊天使用案例，包括文本生成、摘要和内容个性化。这个新模型是 StableLM 文本生成模型的一个更小、优化的版本，Stability AI 在 4 月份首次开始讨论该模型。

StableLM Zephyr 3B 的承诺是，它比 70 亿的 StableLM 模型更小，从而提供了一系列的好处。尺寸更小使其能够在更广泛的硬件上部署，资源占用更低，同时仍能提供快速响应。该模型经过了问答和指导类型任务的优化。

Stability AI 的首席执行官 Emad Mostaque 表示：“StableLM 经过了比之前的模型更长时间、质量更好的数据训练，例如，与 LLaMA v2 7b 相比，代币数量是后者的两倍，尽管体积只有后者的 40%，但在基本性能上仍然可以匹配。”。

StableLM Zephyr 3B 并不是一个全新的模型，而是 Stability AI 定义的现有 StableLM 3B-4e1t 模型的扩展。Zephyr 采用了一种由 HuggingFace 的 Zephyr 7B 模型启发的设计方法。HuggingFace 的 Zephyr 模型是在开源的 MIT 许可下开发的，旨在充当助手。Zephyr 使用了一种称为直接偏好优化（DPO）的训练方法，StableLM 现在也从中受益。

Mostaque 解释说，直接偏好优化（DPO）是一种替代性方法，用于调整之前的模型以适应人类的偏好。DPO 通常用于更大的 70 亿参数模型，而 StableLM Zephyr 是其中使用该技术的较小的 30 亿参数模型之一。

Stability AI 使用了 OpenBMB 研究小组的 UltraFeedback 数据集进行了 DPO 训练。UltraFeedback 数据集中有超过 64,000 个提示和 256,000 个响应。DPO、较小的模型尺寸和优化的数据训练集的结合使得 StableLM 在 Stability AI 提供的指标中表现出色。例如，在 MT Bench 评估中，StableLM Zephyr 3B 能够胜过 Meta 的 Llama-2-70b-chat 和 Anthropric 的 Claude-V1 等更大的模型。