MoE 架构诞生于 1990 年代,其早期探索为当前 LLM 的 爆发奠定了理论与实践基础。
MoE 概念最早由 Robert Jacobs、Geoffrey Hinton、Michael I. Jordan 和 Stephen Nowlan 等研究者在 1991 年发表的里程碑式论文《Adaptive Mixtures of Local Experts》中正式提出。这篇论文不仅奠定了 MoE 架构的理论基础,也清晰阐述了 其核心思想:构建一个由多个独立的专家网络(Expert Networks)和一个门控网络 (Gating Network)协同工作的系统。这一思想的提出,旨在应对当时单一神经网 络在处理复杂、多模态或多任务场景时面临的性能瓶颈,这与当前 LLM 对模型容 量和知识广度的极致追求不谋而合。 具体而言,每个专家网络被设计为专注于处理输入空间的一个特定子区域,或者 解决一个复杂任务的某个子问题。它们各自学习专门的知识和技能,以期在自己 负责的领域内达到较高的处理精度。而门控网络则扮演着智能调度员的角色,它 学习分析输入数据的特征,并根据这些特征动态地决定将当前的输入样本分配给 哪一个或哪些专家进行处理。这种分配可以是硬性的(即选择一个最优专家),也 可以是软性的(即给多个专家分配不同的权重,最终结果是这些专家输出的加权 组合)。
这一架构设计的初衷,是借鉴了集成学习(Ensemble Learning)中“三个臭皮匠顶 个诸葛亮”的思想,以及模块化系统中分而治之的策略。当时,研究者们已经意 识到,单一的、整体式的神经网络在面对具有多种潜在模式、或者需要在不同输 入区域采用不同处理逻辑的复杂任务时,往往会遭遇学习效率低下、泛化能力不 足以及不同任务学习间的干扰效应等瓶颈。MoE 的提出,正是为了克服这些局限 性,这为日后 LLM 需要整合并高效处理海量异构信息提供了早期的理论雏形。通 过让不同的专家网络在各自擅长的局部数据区域内进行深度学习,同时由门控网 络进行全局的、智能化的任务分配与协调,MoE 架构期望能够显著提升整体模型 的性能、灵活性和学习效率。如论文中所述,该架构利用网络间的竞争机制来递 归地切分输入空间,并在每个划分出的区域内学习独立的输入输出映射关系,从 而有效地将复杂问题分解为一系列相对简单的子问题。这种分解与整合的思想, 为 LLM 处理大规模、多样化知识提供了重要的方法。
在 MoE 概念提出的初期,其架构设计主要围绕以下几个核心动机与目标展开。 这些动机极具前瞻性,至今仍在驱动着 MoE 技术在 LLM 领域的发展,并成为其 架构基石地位的关键支撑。 首先,提升模型容量与表达能力,满足 LLM 对知识广度的渴求。通过将多个专 家网络组合起来,MoE 模型的总参数量可以得到显著的扩展,远超同期任何单个 专家网络的大模型参数规模。更大的参数量意味着大模型有更好的潜力学习更为 复杂的数据分布和输入输出函数,这正是 LLM 存储和运用海量知识所必需的。其次,通过实现条件计算,提高计算效率,应对 LLM 的算力挑战。尽管 MoE 模 型的 总参数量 可能非常庞大 ,但其核 心优势在于条 件计算( Conditional Computation)的思想。对于每一个具体的输入样本,门控网络仅激活少数(理想 情况下是一或两个)最相关的专家参与计算,而其他大部分专家则保持静默状态。 这意味着,在单次推理或训练迭代中,实际参与运算的参数量(即激活参数量) 远小于大模型的总参数量。这种稀疏激活的特性,使得 MoE 模型能够在拥有巨大 总参数量的同时,保持相对较低的实际运算负荷。这不仅在计算资源相对匮乏的 早期尤为重要,更为重要的是,它为当前 LLM 在有限算力预算下实现万亿级别参 数规模提供了关键的可行路径。 再次,有效处理异构数据和复杂任务,契合 LLM 的多样化应用场景。现实世界 中的数据往往具有高度的异构性,不同部分的数据可能遵循不同的模式或规律。 单一模型很难同时完美拟合所有这些异构部分。MoE 架构通过允许不同专家专门 处理数据的不同子集、不同模态或任务的不同方面,为解决这一问题提供了有效 途径。例如,在 Robert Jacobs 等人最初的语音识别实验中,模型能够让不同专家 对应不同说话者,体现了专家在特定数据子集上的特定能力。这与 LLM 需要理解 和生成多样化内容(文本、代码、多模态信息等)的需求高度一致。 最后,增强模型的模块化与一定程度的可解释性,助力 LLM 的可维护性与过程 理解。专家分工的模式为理解模型行为提供了一种模块化的视角。虽然深度学习 模型通常被视为黑箱,但 MoE 架构中各个专家的不同激活模式和它们各自擅长的 领域,可能为分析 LLM 这一复杂系统的内部推理及决策过程提供更高效的方法。

MoE 技术在诞生后的最初十年间,虽然未能成为主流,但也取得了一些关键的理 论和应用进展,同时也暴露了其在当时技术背景下的主要挑战。这些早期的积淀 与遇到的瓶颈,都为后续 MoE 技术在 LLM 时代的发展与成熟应用提供了宝贵的 经验和待解决的课题。 早期关键里程碑: 1991 年,MoE 概念的奠基:Robert Jacobs、Geoffrey Hinton、Michael I. Jordan、 Steven Nowlan 等人发表的 Adaptive Mixtures of Local Experts,不仅首次系统地提出了 MoE 的基本框架(专家网络+门控网络),并通过在元音辨别等任务上的 实验,初步验证了其有效性。实验表明,MoE 能够将复杂的辨别任务成功分解为 若干个可以由非常简单的专家网络解决的子任务。这篇论文是 MoE 技术发展的原 点,其分而治之和条件计算的核心思想至今仍是 LLM 中 MoE 架构的基石。 1994 年,分层混合专家 HME 的提出:Michael I. Jordan 和 Robert Jacobs 在后 续工作中进一步发展了 MoE 思想,提出了分层混合专家(HME,Hierarchical Mixtures of Experts)模型。HME 通过构建一个树状的层级结构来组织门控网络 和专家网络。这种递归划分的机制使得 HME 能够对输入空间进行多尺度的建模, 增强了模型处理复杂分层结构数据的能力。这为后来 LLM 通过 MoE 层堆叠处理 不同抽象层次的信息提供了一种早期的结构范例。同时,他们还为 HME 架构开 发了基于期望最大化算法的训练方法,为 MoE 模型的参数学习提供了更成熟的统 计框架。 2000 年代初期,MoE 思想在机器学习领域的拓展:MoE 思想具有一定的普适性, 其应用并未局限于神经网络,同样可应用于其他机器学习方法。在发展初期,研 究者们也尝试将 MoE 的理念应用于其他机器学习方法中,例如支持向量机(SVM, Support Vector Machine)、高斯过程等。这表明 MoE 作为一种模块化和条件计算 的框架,具有跨多种模型范式的潜力,也预示着其最终能在 LLM 这一集大成者身 上发挥重要作用。 2010 年代初,MoE 在深度学习中的早期探索与铺垫:随着 2010 年后深度学习的 再次兴起,研究者开始重新审视 MoE 在更复杂模型中的潜力。Ilya Sutskever 等人 在 2013 年进行的将 MoE 作为深度神经网络组件的尝试,虽然在当时并未立即引 发 MoE 的大规模应用,但他们的工作为后续将 MoE 架构集成到更复杂的深度学 习模型,尤其是最终被大语言模型广泛采用的 Transformer 等架构,进行了有益的 探索,起到了连接早期理论与后续大规模实践的桥梁作用。

早期面临的主要挑战: 计算资源的高度依赖与匮乏:这是早期 MoE 发展最主要的瓶颈。训练和运行一 个包含多个(可能是数十个)专家网络的 MoE 系统,即使每个专家相对简单,其 总体计算需求对于当时的硬件水平而言依然是巨大的负担。有限的 CPU 速度和内 存容量严重制约了 MoE 模型的规模和复杂度,使其难以在更具挑战性的大型实际 问题上得到有效应用。这一瓶颈凸显了硬件发展对于释放 MoE 潜力的极端重要 性,也解释了为何 MoE 的真正潜力直到计算能力足以支撑大规模神经网络(如 LLM)时才得以充分展现。 门控网络的训练与优化难题 :门控网络的性能直接决定了 MoE 系统的成败。如何有效地训练门控网络,使其能够准确地识别输入数据的特征,并将数据路由到 最合适的专家(或专家组合),是一个核心的技术难题。如果门控网络路由不当, 可能会导致某些专家接收到过多的训练样本而过载,而另一些专家则因样本不足 而训练不充分(饿死现象),最终影响整体模型的学习效果和泛化能力。这些路由 和负载不均的问题,至今仍是 MoE LLM 架构设计的核心考量,并催生了如辅助 损失函数、专家容量限制等一系列关键优化技术。 专家特化(Expert Specialization)与负载均衡之间的内在矛盾:MoE 的设计初衷 是鼓励专家网络针对输入空间的不同区域或任务的不同方面发展出各自的特化 能力。所谓特化,指的是模型中的不同专家在结构上形成功能差异,各自偏向于 处理某类特定数据或任务,这种机制在一定程度上与泛化(Generalization)相对, 强调的是局部适应性与效率而非通用性。通过特化,专家能够在其擅长的输入分 布上更精准、更高效地做出响应,从而提高整体模型的表达能力。然而,在实际 训练过程中,往往难以完美地实现所有专家既能充分特化,又能均匀地分担计算 负载。过度强调特化可能导致负载不均,而过度强调负载均衡又可能牺牲部分特 化程度。如何设计有效的学习机制(如损失函数、正则化项)来平衡这两者,是 早期研究者面临的一大挑战。这一根本性的权衡推动了 MoE 路由算法和负载均 衡策略的持续创新,直接影响着 LLM 中专家知识的有效利用和模型的整体性能 提升。
理论分析不足:尽管 HME 等工作在统计学习理论方面有所推进,但早期对 MoE 模型的许多理论性质,如其确切的收敛保证、泛化能力的边界、最优专家数量的 确定等,尚缺乏深入和完备的分析。这一定程度上限制了对其行为的预测和更深 层次的优化。随着 MoE 在 LLM 中的规模和复杂性远超早期模型,对其理论性质 的深入理解和分析(例如稀疏激活下的参数有效性、知识冗余问题)变得更加迫 切和重要。 这些早期的里程碑为 MoE 的后续发展奠定了理论基础。而早期所面临的挑战,特 别是计算资源限制和门控网络训练的复杂性,也预示了大规模 MoE 模型仍需持续 攻克的关键技术方向。正是由于这些挑战,MoE 技术在诞生后的较长一段时间内 并未成为人工智能领域的主流范式,其真正的复兴与在 LLM 中的大规模应用,有 待于后续计算能力的巨大飞跃、深度学习理论与实践的成熟,以及稀疏化这一核 心思想在现代神经网络架构中的重新发现与强化。可以说,MoE 的“前世”是在 为成为 LLM 核心架构基石的“今生”积蓄能量、指明方向并揭示了必须克服的障 碍。