STEM: Skalierung von Transformatoren mit Embedding-Modulen

•

Originalautor:Ranajoy Sadhukhan et al.

•

15. Januar 2026

STEM: Skalierung von Transformatoren mit Embedding-Modulen

Von Gemini AI generiertes Bild

STEM (Scaling Transformers with Embedding Modules) bietet einen neuartigen Ansatz für feingranulare Sparsamkeit in neuronalen Netzen, indem traditionelle Feedforward-Netzwerke durch statische, token-indizierte Embedding-Abfragen ersetzt werden. Dies reduziert die Laufzeitkomplexität und verbessert die Stabilität beim Training, was eine effiziente Auslagerung auf die CPU ermöglicht. STEM erzielt bis zu 4 % Genauigkeitsverbesserungen bei wissensintensiven Aufgaben und verringert gleichzeitig den Parameterzugriff sowie die FLOPs pro Token um etwa ein Drittel. Die Architektur fördert eine bessere Interpretierbarkeit und die Bearbeitungsmöglichkeiten von Wissen, ohne zusätzliche Berechnungen zu erfordern. Dies führt insbesondere zu einer Leistungssteigerung in Szenarien mit langen Kontexten und über verschiedene Modellgrößen hinweg.

STEM: Ein neuer Ansatz zur Skalierung von Transformern

Eine neuartige Methode namens STEM (Scaling Transformers with Embedding Modules) wurde eingeführt, um die Leistung und Effizienz von Transformer-Modellen zu verbessern. Durch die Implementierung eines statischen, token-indizierten Ansatzes, der die Aufwärtsprojektion des Feedforward-Netzwerks (FFN) durch eine lagenlokale Embedding-Suche ersetzt, erreicht STEM eine verbesserte Stabilität und Effizienz während des Trainings.

Empirische Leistung und Verbesserungen

Empirische Ergebnisse zeigen, dass STEM ein stabiles Training selbst unter Bedingungen extremer Sparsamkeit aufrechterhält. Das Modell zeigt eine verbesserte Leistung in nachgelagerten Anwendungen im Vergleich zu dichten Baselines und reduziert signifikant die FLOPs pro Token und den Parameterzugriff, indem es ungefähr ein Drittel der FFN-Parameter eliminiert. Diese Reduktion trägt zu einer effizienteren Ressourcennutzung bei.

Genauigkeitsgewinne über Modellskalen hinweg

Bei Modellen mit Parametergrößen von 350M und 1B erzielt STEM Genauigkeitsverbesserungen von 3 % bis 4 % insgesamt. Das Modell zeigt insbesondere bemerkenswerte Fortschritte bei wissens- und schlussfolgerungsintensiven Benchmarks, einschließlich ARC-Challenge, OpenBookQA, GSM8K und MMLU.

Artikel teilen

Twitter Facebook LinkedIn WhatsApp Reddit

STEM: Skalierung von Transformatoren mit Embedding-Modulen

STEM: Ein neuer Ansatz zur Skalierung von Transformern

Empirische Leistung und Verbesserungen

Genauigkeitsgewinne über Modellskalen hinweg

Verwandte Themen:

Artikel teilen