Más allá de las recompensas basadas en VLM: Modelado de recompensas latentes nativas de difusión

Imagen generada por Gemini AI
Investigadores han presentado DiNa-LRM, un modelo de recompensa latente nativo de difusión que optimiza el aprendizaje de preferencias directamente en estados de difusión ruidosos. Este enfoque emplea una verosimilitud de Thurstone calibrada por ruido para mejorar la eficiencia de alineación. DiNa-LRM supera a los sistemas de recompensa basados en difusión existentes y compite con los principales Modelos de Visión-Lenguaje, logrando mejoras significativas en velocidad y uso de recursos durante el proceso de alineación del modelo.
El Nuevo Modelo de Recompensa Nativo de Difusión Supera a los Modelos de Lenguaje-Visión
Un enfoque novedoso para la optimización de preferencias en modelos de difusión, conocido como DiNa-LRM, ha mostrado avances significativos sobre los Modelos de Lenguaje-Visión (VLMs) tradicionales en eficiencia computacional y rendimiento de alineación. Este modelo formula el aprendizaje de preferencias directamente sobre estados de difusión ruidosos.
DiNa-LRM aborda las limitaciones de las funciones de recompensa actuales que dependen de los VLMs, que sufren de altos costos computacionales y de memoria. El método introduce una verosimilitud de Thurstone calibrada por ruido que agiliza el proceso de optimización.
Métricas de Rendimiento y Comparaciones
En los benchmarks de alineación de imágenes, DiNa-LRM demostró mejoras sustanciales sobre los modelos de recompensa basados en difusión actuales, logrando niveles de rendimiento competitivos con los VLMs de vanguardia a un costo computacional significativamente reducido. Esto posiciona a DiNa-LRM como una alternativa convincente para optimizar preferencias en aplicaciones de aprendizaje automático.
Temas relacionados:
📰 Fuente original: https://arxiv.org/abs/2602.11146v1
Todos los derechos y créditos pertenecen al editor original.