STEM: Espansione dei Trasformatori con Moduli di Embedding

•

Autore originale:Ranajoy Sadhukhan et al.

•

15 gennaio 2026

STEM: Espansione dei Trasformatori con Moduli di Embedding

Immagine generata da Gemini AI

STEM (Scaling Transformers with Embedding Modules) propone un approccio innovativo alla sparsità fine nei reti neurali, sostituendo le tradizionali reti feed-forward con lookup di embedding statici indicizzati per token. Questo cambiamento riduce la complessità runtime e migliora la stabilità dell'addestramento, consentendo un efficiente scarico di lavoro su CPU. STEM riesce a ottenere miglioramenti di accuratezza fino al 4% in compiti ad alta intensità di conoscenza, riducendo nel contempo l'accesso ai parametri e i FLOPs per token di circa un terzo. La sua architettura promuove una maggiore interpretabilità e capacità di editing della conoscenza senza richiedere computazione aggiuntiva, migliorando in particolare le prestazioni in scenari con contesti lunghi e su diverse scale di modelli.

STEM: Un Nuovo Approccio per Scalare i Trasformatori

È stato introdotto un nuovo metodo chiamato STEM (Scaling Transformers with Embedding Modules) per migliorare le prestazioni e l'efficienza dei modelli Transformer. Implementando un approccio statico indicizzato per token che sostituisce la proiezione in avanti della rete (FFN) con una ricerca di embedding locale per layer, STEM raggiunge una maggiore stabilità e efficienza durante l'addestramento.

Prestazioni Empiriche e Miglioramenti

I risultati empirici indicano che STEM mantiene un addestramento stabile anche in condizioni di estrema scarsità. Il modello dimostra prestazioni superiori a valle rispetto ai baselines densi, riducendo significativamente i FLOPs per token e gli accessi ai parametri eliminando circa un terzo dei parametri FFN. Questa riduzione contribuisce a un uso più efficiente delle risorse.

Aumenti di Accuratezza a Diversi Livelli di Modello

Per i modelli con scale di parametri di 350M e 1B, STEM raggiunge miglioramenti di accuratezza che vanno dal 3% al 4% in generale. Il modello mostra guadagni particolarmente notevoli su benchmark intensivi di conoscenza e ragionamento, tra cui ARC-Challenge, OpenBookQA, GSM8K e MMLU.

Argomenti correlati:

STEMtrasformatoriembeddingstabilità addestramentoprestazioni migliorate

📰 Fonte originale: https://arxiv.org/abs/2601.10639v1

Tutti i diritti e i crediti appartengono all'editore originale.

Condividi questo articolo

Twitter Facebook LinkedIn WhatsApp Reddit