moes专题

『大模型笔记』混合专家模型(Mixed Expert Models，简称 MoEs)

混合专家模型(Mixed Expert Models，MoE) 文章目录 1. 什么是混合专家模型？参考文章混合专家模型(Mixed Expert Models，MoE) 1. 什么是混合专家模型？参考文章 NLP PaperWeekly：Mixture 8x7B中sMoE原理解析及代码实践大猿搬砖简记：

MoEs学习

和多任务学习的mmoe很像哦（有空再学习一下）moe layer的起源：Switch Transformers paper MoE moe由两个结构组成： Moe Layer ：这些层代替了传统 Transformer 模型中的前馈网络 (FFN) 层。MoE 层包含若干“专家”(例如 8 个)，每个专家本身是一个独立的神经网络。在实际应用中，这些专家通常是前馈网络 (FFN)，但它们也可以