本文主要是介绍Mixtral: 专家云集 高质量的稀疏专家组合,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Mixtral: 专家云集 高质量的稀疏专家组合
Mistral AI 继续履行其使命,为开发者社区提供最佳的开放模型。人工智能的发展需要采取新的技术转向,而不仅仅是重用众所周知的架构和训练范式。最重要的是,需要让社区从原始模型中受益,以促进新的发明和使用。
Mistral AI 团队自豪地发布了 Mixtral 8x7B,这是一个具有开放权重的高质量稀疏专家模型 (SMoE) 混合。在 Apache 2.0 下获得许可。Mixtral 在大多数基准测试中的表现优于 Llama 2 70B,推理速度提高了 6 倍。它是具有宽松许可证的最强开放模型,也是成本/性能权衡方面整体上的最佳模型。特别是,它在大多数标准基准测试上与 GPT3.5 相当或优于 GPT3.5。
Mixtral 具有以下功能:
- 优雅地处理 32k 标记的上下文。
- 处理英语、法语、意大利语、德语和西班牙语。
- 在代码生成方面表现出强大的性能。
- 可以微调为指令遵循模型,在 MT-Bench 上达到 8.3 分。
推动具有稀疏架构的开放模型的前沿
Mixtral 是一个稀疏的专家混合网络。是一种仅解码器模型,其中前馈模块从一组 8 组不同的参数中进行选择。在每一层,对于每个标记,路由器网络选择其中两个组(“专家”)来处理标记并将其输出累加组合。
这种技术增加了模型的参数数量,同时控制了成本和延迟,因为模型只使用每个标记参数集总数的一小部分。 具体来说,Mixtral 有 46.7B 的总参数,但每个标记只使用 12.9B 参数。因此,它以与 12.9B 模型相同的速度和相同的成本处理输入并生成输出。
Mixtral 根据从开放网络中提取的数据进行预训练——同时训练专家和路由器。
这篇关于Mixtral: 专家云集 高质量的稀疏专家组合的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!