Atribución de datos resueltos por pasos para transformadores en bucle

•

Autor original:Georgios Kaissis et al.

•

10 de febrero de 2026

Atribución de datos resueltos por pasos para transformadores en bucle

Imagen generada por Gemini AI

Investigadores han desarrollado un nuevo método denominado Influencia Descompuesta por Pasos (SDI, por sus siglas en inglés) para analizar cómo los ejemplos de entrenamiento individuales afectan a los transformadores en bucle durante los cálculos recurrentes. A diferencia de los métodos existentes que proporcionan una única puntuación de influencia, el SDI ofrece una trayectoria de influencia detallada en cada iteración. Implementado a través de TensorSketch, el SDI evita la generación de gradientes por ejemplo, lo que lo hace escalable para modelos de transformadores. Los experimentos demuestran que el SDI se alinea estrechamente con los métodos tradicionales de gradiente completo, al tiempo que mejora la atribución de datos y la interpretabilidad en tareas de razonamiento algorítmico.

Nuevo Método Mejora la Atribución de Datos en Transformadores en Bucle

Investigadores han desarrollado un enfoque novedoso, Influencia Descompuesta por Pasos (SDI), para mejorar la comprensión de cómo los ejemplos de entrenamiento individuales impactan en el cálculo dentro de los transformadores en bucle. Este avance aborda una limitación significativa en los métodos existentes, que solo proporcionan una única puntuación escalar que agrega influencia a través de todas las iteraciones, oscureciendo el momento de relevancia de un ejemplo.

SDI descompone la influencia atribuida por estimadores existentes como TracIn en una trayectoria de influencia detallada que abarca la duración de las iteraciones recurrentes. Al desplegar el grafo de computación recurrente, el nuevo método permite una atribución precisa de la influencia a iteraciones específicas del bucle, ofreciendo una imagen más clara del razonamiento involucrado en los modelos de transformadores.

Validación Experimental

Se realizaron extensos experimentos utilizando modelos de estilo GPT en bucle en diversas tareas de razonamiento algorítmico. Los resultados indican que SDI se escala de manera efectiva y se alinea estrechamente con las bases de referencia de gradiente completo, manteniendo una baja tasa de error. Este rendimiento demuestra el potencial de SDI como una herramienta confiable para la atribución de datos y la interpretabilidad en el aprendizaje automático.

Temas relacionados:

transformadores cíclicosinfluencia descompuesta por pasosTracIncomputación recurrenterazonamiento latente

📰 Fuente original: https://arxiv.org/abs/2602.10097v1

Todos los derechos y créditos pertenecen al editor original.

Compartir este artículo

Twitter Facebook LinkedIn WhatsApp Reddit