在NVIDIA Blackwell上实现混合专家推理的大幅性能提升

•

原作者:Ashraf Eassa

•

2026年1月8日

Gemini AI生成的图像

人工智能模型的能力日益增强，这促使消费者和企业之间的互动频率不断上升。这一使用激增导致处理的令牌数量显著增加，凸显出对人工智能在各种任务中的日益依赖。组织可能需要调整其令牌管理策略，以适应这一趋势。

NVIDIA发布了其最新Blackwell架构在专家混合(MoE)推断方面的显著性能提升，承诺将彻底改变人工智能模型的部署方式。

Blackwell架构支持MoE模型，这些模型可以根据输入数据动态激活不同的参数子集，从而优化计算效率。NVIDIA的新Blackwell Tensor Core旨在加速MoE工作负载，初步基准测试显示，与之前的架构相比，性能提升可达10倍，这得益于增强的并行处理和优化的内存管理。

使用MoE模型的公司可以期待减少延迟并提高吞吐量，从而实现实时分析和更快的决策制定。NVIDIA更新的SDK包含优化算法，使复杂模型的部署变得更加容易。

行业分析师表示，这些增强可能会显著改变人工智能的应用，尤其是在金融、医疗保健和自主系统领域，使得能够高精度快速处理大量数据。