STEM: Ampliación de Transformadores con Módulos de Embedding

•

Autor original:Ranajoy Sadhukhan et al.

•

15 de enero de 2026

STEM: Ampliación de Transformadores con Módulos de Embedding

Imagen generada por Gemini AI

STEM (Escalado de Transformadores con Módulos de Embedding) presenta un enfoque innovador para la escasez fina en redes neuronales al reemplazar las redes de alimentación tradicional por búsquedas de embedding estáticas indexadas por tokens. Esto reduce la complejidad de tiempo de ejecución y mejora la estabilidad del entrenamiento, permitiendo una descarga eficiente en la CPU. STEM logra mejoras de precisión de hasta el 4% en tareas intensivas en conocimiento, al tiempo que disminuye el acceso a parámetros y los FLOPs por token en aproximadamente un tercio. Su arquitectura promueve una mejor interpretabilidad y capacidades de edición del conocimiento sin requerir computación adicional, mejorando especialmente el rendimiento en escenarios de contexto largo y en diversos escalas de modelos.

STEM: Un Nuevo Enfoque para Escalar Transformadores

Se ha introducido un método novedoso llamado STEM (Escalando Transformadores con Módulos de Embedding) para mejorar el rendimiento y la eficiencia de los modelos de Transformer. Al implementar un enfoque estático, indexado por tokens que reemplaza la proyección hacia arriba de la red de avance (FFN) con una búsqueda de embedding local a la capa, STEM logra una mayor estabilidad y eficiencia durante el entrenamiento.

Rendimiento Empírico y Mejoras

Los resultados empíricos indican que STEM mantiene un entrenamiento estable incluso en condiciones de extrema escasez. El modelo demuestra un rendimiento mejorado en tareas posteriores en comparación con las líneas base densas, reduciendo significativamente los FLOPs por token y los accesos a parámetros al eliminar aproximadamente un tercio de los parámetros de la FFN. Esta reducción contribuye a un uso más eficiente de los recursos.

Mejoras de Precisión a Través de Escalas de Modelo

A través de modelos con escalas de parámetros de 350M y 1B, STEM logra mejoras de precisión que oscilan entre el 3% y el 4% en general. El modelo muestra ganancias particularmente notables en benchmarks intensivos en conocimiento y razonamiento, incluyendo ARC-Challenge, OpenBookQA, GSM8K y MMLU.

Temas relacionados:

STEMsparsidad finaproyección ascendenteembeddingsestabilidad en el entrenamiento

📰 Fuente original: https://arxiv.org/abs/2601.10639v1

Todos los derechos y créditos pertenecen al editor original.

Compartir este artículo

Twitter Facebook LinkedIn WhatsApp Reddit