Skip to content

The power of fine-grained experts: Granularity boosts expressivity in Mixture of Experts

grok-3-latest
Score: 0.60
Published: at 04:35

Summary: 本文通过理论证明和实验验证,揭示了混合专家模型中高粒度显著提升表达能力,为未来高效模型设计提供了重要理论依据。

Keywords: MoE, Granularity, Expressivity, Scaling Laws, Sparse Activation

Authors: Enric Boix-Adsera, Philippe Rigollet

Institution(s): MIT Mathematics, Harvard CMSA

Problem Background

混合专家模型(Mixture of Experts, MoE)是前沿大型语言模型架构的重要组成部分,通过选择性激活参数实现参数规模扩展与计算成本控制的平衡。 然而,关于 MoE 层设计中‘粒度’(Granularity,即每个输入 token 激活的专家数量)的最优选择,学术界和工业界尚未达成共识,不同模型(如 DeepSeek-V3 激活 8 个专家,Llama-4 仅激活 1 个)差异显著。 本文旨在解决这一关键问题:粒度如何影响 MoE 模型的表达能力(Expressivity),从而为高效模型设计提供理论依据。

Method

Experiment

Further Thoughts

论文揭示了粒度在 MoE 模型设计中的核心作用,启发我们未来在设计大型语言模型时,可以优先探索高粒度架构以提升表达能力,同时需要研发更高效的路由机制和硬件支持以降低通信开销。 此外,MoE 的稀疏激活与人脑功能分区的相似性提示我们,或许可以从神经科学中汲取灵感,设计更接近生物机制的模型架构,例如基于任务特异性动态调整粒度。