通过混合专家并行优化混合专家训练的通信

•

原作者:Fan Yu

•

2026年2月2日

Gemini AI生成的图像

一项近期研究揭示了在超大规模专家混合模型（MoE）训练中实施专家并行（EP）通信所面临的挑战。该通信模型需要采用全对全的方式，这一方法受到动态变化和稀疏性的影响，增加了复杂性。研究结果表明，提高EP通信效率对于优化MoE性能至关重要，这将显著改善大规模机器学习环境中的训练时间和资源利用率。

最近在大型语言模型（LLM）训练中的进展突显了与超大规模混合专家（MoE）模型中专家并行（EP）通信相关的挑战。在一项重要突破中，提出了一种混合的EP通信方法，解决了动态稀疏性和数据传输开销的问题。

混合专家并行策略结合了数据并行和模型并行的优势，允许更高效地利用计算资源。主要组件包括：

初步实验表明，这种混合方法可以显著提高训练时间，通信成本降低高达40%。这种优化使研究人员能够处理更大的数据集和更复杂的任务，而无须承担过高的成本。