谁会成为第一个MoE大模型基座呢?重磅!Mixtral MoE 8x7B!!!

2023-12-12 05:04

本文主要是介绍谁会成为第一个MoE大模型基座呢?重磅!Mixtral MoE 8x7B!!!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 谁会成为第一个MoE大模型基座呢?重磅!Mixtral MoE 8x7B!!!
    • 前言
    • 重磅!Mixtral MoE 8x7B!!!
    • Mixtral是啥
    • 模型介绍
    • 模型结构长啥样?
    • 表现如何?
    • 可以白嫖吗?
    • 哪里可以获取?

谁会成为第一个MoE大模型基座呢?重磅!Mixtral MoE 8x7B!!!

话放这里,我敢说Mixtral MoE 8x7B!!!
将会是MoE技术路线上的基座模型 !!!

前言

由Transformer衍生的大模型,主要有三条技术路线。

**1、 Encoder-Only:**以google的BERT为代表。

**2、 Encoder-Decoder:**以Meta的BART、清华大学的GLM、谷歌的T5、为代表。

**3、 Decoder-Only:**以OpenAI的GPT、谷歌的Bard、Meta的LLaMA等为代表

在这里插入图片描述

重磅!Mixtral MoE 8x7B!!!

那么就在刚刚,Mistral AI 发布了新的MoE技术路线的大模型MoE 8x7B!!!

MoE架构全称专家混合,也是GPT-4采用的方案,可以说这是开源大模型离GPT-4最近的一次了。

**没有发布会、没有宣传视频,只靠一个磁力链接!**感觉少了视频啊~

这个可比某歌在那发布的剪辑来剪辑去的视频要实在的多啊;狗头~~~

在这里插入图片描述

Mixtral是啥

Mixtral AI, 成立八个月,估值已达 20 亿欧元。 法国人工智能初创公司 Mistral AI 周日宣布已融资 3.85 亿欧元,主要来自美国集团,成为欧洲两大人工智能冠军之一。

Mistral AI 去年 5 月由三名法国人工智能专家联合创立,首席执行官 Arthur Mensch,31 岁!他们曾在 X 或 ENS 受过美国巨头聘用,但后来决定返回巴黎,目前拥有 22 名员工。

Mistral AI 在 6 月份已经筹集了 1.05 亿美元,在欧洲人工智能公司中,只有德国 Aleph Alpha 拥有如此多的资金,而在 11 月初筹集了近 5 亿欧元。

Mistral AI 的支持者包括软件发行商 Salesforce 等几家美国科技巨头,听说,还有全球超级计算机芯片专家 Nvidia 集团。

模型介绍

估计没啥人看,简单说两句吧~

Mixtral-8x7B-32K MoE模型主要由32个相同的MoEtransformer block组成。MoEtransformer block与普通的transformer block的最大差别在于其FFN层替换为了MoE FFN层。在MoE FFN层,tensor首先会经过一个gate layer计算每个expert的得分,并根据expert得分从8个expert中挑出top-k个expert,将tensor经过这top-k个expert的输出后聚合起来,从而得到MoE FFN层的最终输出,其中的每个expert由3个Linear层组成。值得注意的是,mixtral MoE的所有Norm Layer也采用了和LLama一样的RMSNorm,而在attention layer中,mixtral MoE的QKV矩阵中的Q矩阵shaoe为(4096,4096),K和V矩阵shape则为(4096,1024)。

具体介绍可以从这里获取!

模型结构长啥样?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

表现如何?

性能数据:

  • 所有数据来源自OpenCompass

Mistral-8x7B-MoE的具体性能数据未全部公开,社区评测显示,Mistral的表现超越了前身Mistral-7B,甚至在某些领域接近或超越了GPT-4。这一性能提升,OpenCompass 的最新基准测试结果显示 Mixtral-8x7B 超过 llama-2-70B,哟西~~~

DatasetsModeMistral-7B-v0.1Mixtral-8x7BLlama2-70BDeepSeek-67B-BaseQwen-72B
MMLUPPL64.171.369.771.977.3
BIG-Bench-HardGEN56.767.164.971.763.7
GSM-8KGEN47.565.763.466.577.6
MATHGEN11.322.712.015.935.1
HumanEvalGEN27.432.326.240.933.5
MBPPGEN38.647.839.655.251.6
ARC-cPPL74.285.178.386.892.2
ARC-ePPL83.691.485.993.796.8
CommonSenseQAPPL67.470.478.370.773.9
NaturalQuestionGEN24.629.434.229.927.1
TrivialQAGEN56.566.170.767.460.1
HellaSwagPPL78.982.082.382.385.4
PIQAPPL81.682.982.582.685.2
SIQAGEN60.264.364.862.678.2

可以白嫖吗?

MistralAI使用的是Apache-2.0开源协议,那就意味着Mistral-8x7B-MoE可免费商用!!

开源不仅降低了使用门槛,还促进AI领域的创新和发展,部署Mixtral 8x7B 大概需要 100G 显存,消费级显卡也能运行咯。

哪里可以获取?

1、 上面的磁力链接;

2、 科学上网这里;

这篇关于谁会成为第一个MoE大模型基座呢?重磅!Mixtral MoE 8x7B!!!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/483334

相关文章

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP(CommunicatingSequentialProcesses,通信顺序进程)并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe

Linux Mint Xia 22.1重磅发布: 重要更新一览

《LinuxMintXia22.1重磅发布:重要更新一览》Beta版LinuxMint“Xia”22.1发布,新版本基于Ubuntu24.04,内核版本为Linux6.8,这... linux Mint 22.1「Xia」正式发布啦!这次更新带来了诸多优化和改进,进一步巩固了 Mint 在 Linux 桌面

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

好题——hdu2522(小数问题:求1/n的第一个循环节)

好喜欢这题,第一次做小数问题,一开始真心没思路,然后参考了网上的一些资料。 知识点***********************************无限不循环小数即无理数,不能写作两整数之比*****************************(一开始没想到,小学没学好) 此题1/n肯定是一个有限循环小数,了解这些后就能做此题了。 按照除法的机制,用一个函数表示出来就可以了,代码如下

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费