STEM: Escalonando Transformadores com Módulos de Embedding

•

Autor original:Ranajoy Sadhukhan et al.

•

15 de janeiro de 2026

STEM: Escalonando Transformadores com Módulos de Embedding

Imagem gerada por Gemini AI

O STEM (Escalonamento de Transformadores com Módulos de Embedding) apresenta uma abordagem inovadora para a esparsidade granular em redes neurais, substituindo as tradicionais redes feed-forward por buscas de embedding estáticas indexadas por tokens. Essa mudança reduz a complexidade em tempo de execução e melhora a estabilidade do treinamento, permitindo um descarregamento eficiente para CPU. O STEM consegue até 4% de melhoria na precisão em tarefas que exigem conhecimento intenso, ao mesmo tempo em que diminui o acesso a parâmetros e os FLOPs por token em cerca de um terço. Sua arquitetura promove melhor interpretabilidade e capacidades de edição de conhecimento sem necessidade de computação adicional, especialmente aprimorando o desempenho em cenários de longo contexto e em diversas escalas de modelos.

STEM: Uma Nova Abordagem para Escalar Transformers

Um novo método chamado STEM (Escalando Transformers com Módulos de Embedding) foi introduzido para aprimorar o desempenho e a eficiência dos modelos Transformer. Ao implementar uma abordagem estática, indexada por tokens, que substitui a projeção ascendente da rede feedforward (FFN) por uma busca de embedding local à camada, o STEM alcança uma maior estabilidade e eficiência durante o treinamento.

Desempenho Empírico e Melhorias

Resultados empíricos indicam que o STEM mantém um treinamento estável mesmo sob condições de extrema esparsidade. O modelo demonstra um desempenho superior em tarefas subsequentes quando comparado a referências densas, reduzindo significativamente os FLOPs por token e os acessos a parâmetros ao eliminar aproximadamente um terço dos parâmetros da FFN. Essa redução contribui para um uso mais eficiente dos recursos.

Aumentos de Precisão em Diferentes Escalas de Modelos

Em modelos com escalas de parâmetros de 350M e 1B, o STEM alcança melhorias de precisão variando de 3% a 4% no total. O modelo apresenta ganhos particularmente notáveis em benchmarks intensivos em conhecimento e raciocínio, incluindo ARC-Challenge, OpenBookQA, GSM8K e MMLU.

Tópicos relacionados:

STEMEscalando TransformadoresMódulos de Embeddingsparsidade finacapacidade paramétrica

📰 Fonte original: https://arxiv.org/abs/2601.10639v1

Todos os direitos e créditos pertencem ao editor original.

Compartilhar este artigo

Twitter Facebook LinkedIn WhatsApp Reddit