AI
AI新闻

STEM:通过嵌入模块扩展变换器模型

Source:arXiv
原作者:Ranajoy Sadhukhan et al.
STEM:通过嵌入模块扩展变换器模型

Gemini AI生成的图像

STEM(使用嵌入模块扩展变换器)为神经网络中的细粒度稀疏性提供了一种新颖的解决方案,通过用静态的、按令牌索引的嵌入查找替代传统的前馈网络。这种方法降低了运行时复杂性,提高了训练的稳定性,从而实现了高效的CPU卸载。STEM在知识密集型任务上能够提高至多4%的准确率,同时将参数访问和每个令牌的浮点运算(FLOPs)降低约三分之一。其架构不仅提高了可解释性和知识编辑能力,而且在不增加额外计算负担的情况下,特别在长上下文场景和不同模型规模中表现出色。

STEM:一种新的变压器扩展方法

一种名为STEM(使用嵌入模块扩展变压器)的新方法被提出,以增强变压器模型的性能和效率。通过实施一种静态的、基于令牌索引的方法,将前馈网络(FFN)的上投影替换为层局部的嵌入查找,STEM在训练过程中实现了更好的稳定性和效率。

实证性能与改进

实证结果表明,STEM在极度稀疏的条件下仍能保持稳定的训练。与密集基线相比,该模型在下游任务中的表现得到了提升,显著减少了每个令牌的FLOPs和参数访问,约消除了三分之一的FFN参数。这一减少有助于更高效地利用资源。

模型规模下的准确性提升

在参数规模为350M和1B的模型中,STEM实现了总体准确性提升范围为3%到4%。该模型在知识和推理密集型基准测试中表现出尤为显著的提升,包括ARC-Challenge、OpenBookQA、GSM8K和MMLU。

相关主题:

STEM嵌入模块训练稳定性参数容量可解释性

📰 原始来源: https://arxiv.org/abs/2601.10639v1

所有权利和署名均属于原出版商。

分享此文章