谁会成为第一个MoE大模型基座呢?重磅!Mixtral MoE 8x7B!!!

2023-12-12 05:04

本文主要是介绍谁会成为第一个MoE大模型基座呢?重磅!Mixtral MoE 8x7B!!!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 谁会成为第一个MoE大模型基座呢?重磅!Mixtral MoE 8x7B!!!
    • 前言
    • 重磅!Mixtral MoE 8x7B!!!
    • Mixtral是啥
    • 模型介绍
    • 模型结构长啥样?
    • 表现如何?
    • 可以白嫖吗?
    • 哪里可以获取?

谁会成为第一个MoE大模型基座呢?重磅!Mixtral MoE 8x7B!!!

话放这里,我敢说Mixtral MoE 8x7B!!!
将会是MoE技术路线上的基座模型 !!!

前言

由Transformer衍生的大模型,主要有三条技术路线。

**1、 Encoder-Only:**以google的BERT为代表。

**2、 Encoder-Decoder:**以Meta的BART、清华大学的GLM、谷歌的T5、为代表。

**3、 Decoder-Only:**以OpenAI的GPT、谷歌的Bard、Meta的LLaMA等为代表

在这里插入图片描述

重磅!Mixtral MoE 8x7B!!!

那么就在刚刚,Mistral AI 发布了新的MoE技术路线的大模型MoE 8x7B!!!

MoE架构全称专家混合,也是GPT-4采用的方案,可以说这是开源大模型离GPT-4最近的一次了。

**没有发布会、没有宣传视频,只靠一个磁力链接!**感觉少了视频啊~

这个可比某歌在那发布的剪辑来剪辑去的视频要实在的多啊;狗头~~~

在这里插入图片描述

Mixtral是啥

Mixtral AI, 成立八个月,估值已达 20 亿欧元。 法国人工智能初创公司 Mistral AI 周日宣布已融资 3.85 亿欧元,主要来自美国集团,成为欧洲两大人工智能冠军之一。

Mistral AI 去年 5 月由三名法国人工智能专家联合创立,首席执行官 Arthur Mensch,31 岁!他们曾在 X 或 ENS 受过美国巨头聘用,但后来决定返回巴黎,目前拥有 22 名员工。

Mistral AI 在 6 月份已经筹集了 1.05 亿美元,在欧洲人工智能公司中,只有德国 Aleph Alpha 拥有如此多的资金,而在 11 月初筹集了近 5 亿欧元。

Mistral AI 的支持者包括软件发行商 Salesforce 等几家美国科技巨头,听说,还有全球超级计算机芯片专家 Nvidia 集团。

模型介绍

估计没啥人看,简单说两句吧~

Mixtral-8x7B-32K MoE模型主要由32个相同的MoEtransformer block组成。MoEtransformer block与普通的transformer block的最大差别在于其FFN层替换为了MoE FFN层。在MoE FFN层,tensor首先会经过一个gate layer计算每个expert的得分,并根据expert得分从8个expert中挑出top-k个expert,将tensor经过这top-k个expert的输出后聚合起来,从而得到MoE FFN层的最终输出,其中的每个expert由3个Linear层组成。值得注意的是,mixtral MoE的所有Norm Layer也采用了和LLama一样的RMSNorm,而在attention layer中,mixtral MoE的QKV矩阵中的Q矩阵shaoe为(4096,4096),K和V矩阵shape则为(4096,1024)。

具体介绍可以从这里获取!

模型结构长啥样?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

表现如何?

性能数据:

  • 所有数据来源自OpenCompass

Mistral-8x7B-MoE的具体性能数据未全部公开,社区评测显示,Mistral的表现超越了前身Mistral-7B,甚至在某些领域接近或超越了GPT-4。这一性能提升,OpenCompass 的最新基准测试结果显示 Mixtral-8x7B 超过 llama-2-70B,哟西~~~

DatasetsModeMistral-7B-v0.1Mixtral-8x7BLlama2-70BDeepSeek-67B-BaseQwen-72B
MMLUPPL64.171.369.771.977.3
BIG-Bench-HardGEN56.767.164.971.763.7
GSM-8KGEN47.565.763.466.577.6
MATHGEN11.322.712.015.935.1
HumanEvalGEN27.432.326.240.933.5
MBPPGEN38.647.839.655.251.6
ARC-cPPL74.285.178.386.892.2
ARC-ePPL83.691.485.993.796.8
CommonSenseQAPPL67.470.478.370.773.9
NaturalQuestionGEN24.629.434.229.927.1
TrivialQAGEN56.566.170.767.460.1
HellaSwagPPL78.982.082.382.385.4
PIQAPPL81.682.982.582.685.2
SIQAGEN60.264.364.862.678.2

可以白嫖吗?

MistralAI使用的是Apache-2.0开源协议,那就意味着Mistral-8x7B-MoE可免费商用!!

开源不仅降低了使用门槛,还促进AI领域的创新和发展,部署Mixtral 8x7B 大概需要 100G 显存,消费级显卡也能运行咯。

哪里可以获取?

1、 上面的磁力链接;

2、 科学上网这里;

这篇关于谁会成为第一个MoE大模型基座呢?重磅!Mixtral MoE 8x7B!!!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/483334

相关文章

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

Spring AI Alibaba接入大模型时的依赖问题小结

《SpringAIAlibaba接入大模型时的依赖问题小结》文章介绍了如何在pom.xml文件中配置SpringAIAlibaba依赖,并提供了一个示例pom.xml文件,同时,建议将Maven仓... 目录(一)pom.XML文件:(二)application.yml配置文件(一)pom.xml文件:首

如何在本地部署 DeepSeek Janus Pro 文生图大模型

《如何在本地部署DeepSeekJanusPro文生图大模型》DeepSeekJanusPro模型在本地成功部署,支持图片理解和文生图功能,通过Gradio界面进行交互,展示了其强大的多模态处... 目录什么是 Janus Pro1. 安装 conda2. 创建 python 虚拟环境3. 克隆 janus

本地私有化部署DeepSeek模型的详细教程

《本地私有化部署DeepSeek模型的详细教程》DeepSeek模型是一种强大的语言模型,本地私有化部署可以让用户在自己的环境中安全、高效地使用该模型,避免数据传输到外部带来的安全风险,同时也能根据自... 目录一、引言二、环境准备(一)硬件要求(二)软件要求(三)创建虚拟环境三、安装依赖库四、获取 Dee

DeepSeek模型本地部署的详细教程

《DeepSeek模型本地部署的详细教程》DeepSeek作为一款开源且性能强大的大语言模型,提供了灵活的本地部署方案,让用户能够在本地环境中高效运行模型,同时保护数据隐私,在本地成功部署DeepSe... 目录一、环境准备(一)硬件需求(二)软件依赖二、安装Ollama三、下载并部署DeepSeek模型选

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP(CommunicatingSequentialProcesses,通信顺序进程)并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe

Linux Mint Xia 22.1重磅发布: 重要更新一览

《LinuxMintXia22.1重磅发布:重要更新一览》Beta版LinuxMint“Xia”22.1发布,新版本基于Ubuntu24.04,内核版本为Linux6.8,这... linux Mint 22.1「Xia」正式发布啦!这次更新带来了诸多优化和改进,进一步巩固了 Mint 在 Linux 桌面

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行