STEM : Élargissement des transformateurs avec des modules d'intégration

Image générée par Gemini AI
STEM (Scaling Transformers with Embedding Modules) propose une approche innovante pour la sparsité fine dans les réseaux neuronaux en remplaçant les réseaux de neurones à propagation avant traditionnels par des recherches d'embeddings statiques indexées par des tokens. Cela réduit la complexité d'exécution et améliore la stabilité de l'entraînement, permettant ainsi un déchargement efficace sur le CPU. STEM permet d'atteindre des améliorations de précision allant jusqu'à 4 % sur des tâches nécessitant une grande quantité de connaissances, tout en réduisant l'accès aux paramètres et les FLOPs par token d'environ un tiers. Son architecture favorise une meilleure interprétabilité et des capacités d'édition des connaissances sans coût computationnel supplémentaire, en particulier en améliorant les performances dans des scénarios à long contexte et à travers divers échelons de modèles.
STEM : Une nouvelle approche pour l'échelle des Transformers
Une méthode novatrice appelée STEM (Scaling Transformers with Embedding Modules) a été introduite pour améliorer la performance et l'efficacité des modèles Transformer. En mettant en œuvre une approche statique indexée par token qui remplace la projection ascendante du réseau de neurones feedforward (FFN) par une recherche d'embedding locale à la couche, STEM atteint une stabilité et une efficacité accrues durant l'entraînement.
Performance empirique et améliorations
Les résultats empiriques indiquent que STEM maintient un entraînement stable même dans des conditions de grande sparsité. Le modèle démontre une performance améliorée en aval par rapport aux références denses, réduisant considérablement les FLOPs par token et les accès aux paramètres en éliminant environ un tiers des paramètres du FFN. Cette réduction contribue à une utilisation plus efficace des ressources.
Gains de précision à travers les échelles de modèle
Pour les modèles avec des échelles de paramètres de 350M et 1B, STEM atteint des améliorations de précision allant de 3 % à 4 % au total. Le modèle montre des gains particulièrement notables sur des benchmarks intensifs en connaissances et en raisonnement, notamment l'ARC-Challenge, l'OpenBookQA, le GSM8K et le MMLU.
Sujets connexes :
📰 Source originale : https://arxiv.org/abs/2601.10639v1
Tous les droits et crédits appartiennent à l'éditeur original.