算法、系统和应用，三个视角全面读懂混合专家（MoE） - chatGPT

LLM 很强，而为了实现 LLM 的可持续扩展，有必要找到并实现能提升其效率的方法，混合专家（MoE）就是这类方法的一大重要成员。

最近，各家科技公司提出的新一代大模型不约而同地正在使用混合专家（Mixture of Experts：MoE）方法。

混合专家这一概念最早诞生于 1991 年的论文《Adaptive mixtures of local experts》，三十多年来已经得到了广泛的探索和发展。近年来，随着稀疏门控 MoE 的出现和发展，尤其是与基于 Transformer 的大型语言模型相结合，这种已有三十多年历史的技术焕发出了新的生机。

MoE 框架基于一个简单却又强大思想：模型的不同部分（称为专家）专注于不同的任务或数据的不同方面。

使用这一范式时，对于一个输入，仅有与之相关的专家（Expert）才会参与处理，这样一来便能控制计算成本，同时仍能受益于大量专业知识。因此，MoE 可在不大幅提升计算需求的前提下提升大语言模型的能力。

如图 1 所示，MoE 相关研究增长强劲，尤其是在 2024 年 Mixtral-8x7B 以及 Grok-1、DBRX、Arctic、DeepSeek-V2 等各种产业级 LLM 出现之后。

这张图来自香港科技大学（广州）的一个研究团队近日发布的一篇 MoE 综述报告，其中清晰且全面地总结了 MoE 相关研究，并提出了一种全新的分类法，将这些研究归类到了算法、系统和应用三大类。

论文标题：A Survey on Mixture of Experts
论文地址：https://arxiv.org/pdf/2407.06204

机器之心整理了这篇综述报告的内容主干，以帮助读者了解当前 MoE 的发展概况，更多详情请阅读原论文。此外，我们也在文末整理了一些与 MoE 相关的报道。

混合专家的背景知识

在基于 Transformer 的大型语言模型（LLM）中，每个混合专家（MoE）层的组成形式通常是

联系人：	羊毛君
Email：	soft850207@gmail.com