Au-delà des récompenses basées sur les VLM : Modélisation des récompenses latentes native à la diffusion

•

Auteur original:Gongye Liu et al.

•

11 février 2026

Au-delà des récompenses basées sur les VLM : Modélisation des récompenses latentes native à la diffusion

Image générée par Gemini AI

Des chercheurs ont présenté DiNa-LRM, un modèle de récompense latent natif de diffusion qui optimise l'apprentissage des préférences directement sur des états de diffusion bruités. Cette approche utilise une vraisemblance de Thurstone calibrée sur le bruit pour améliorer l'efficacité de l'alignement. DiNa-LRM surpasse les systèmes de récompense basés sur la diffusion existants et se mesure aux meilleurs modèles de vision-langage, réalisant des améliorations significatives en termes de vitesse et d'utilisation des ressources durant l'alignement du modèle.

Le Nouveau Modèle de Récompense Diffusion-Natif Surpasse les Modèles Vision-Langage

Une approche novatrice pour l'optimisation des préférences dans les modèles de diffusion, connue sous le nom de DiNa-LRM, a montré des avancées significatives par rapport aux Modèles Vision-Langage (VLMs) traditionnels en termes d'efficacité computationnelle et de performance d'alignement. Ce modèle formule l'apprentissage des préférences directement sur des états de diffusion bruités.

DiNa-LRM s'attaque aux limitations des fonctions de récompense actuelles qui s'appuient sur les VLMs, lesquelles souffrent de coûts computationnels et de mémoire élevés. La méthode introduit une vraisemblance de Thurstone calibrée au bruit qui rationalise le processus d'optimisation.

Métriques de Performance et Comparaisons

Dans les benchmarks d'alignement d'images, DiNa-LRM a démontré des améliorations substantielles par rapport aux modèles de récompense basés sur la diffusion actuels, atteignant des niveaux de performance compétitifs avec les VLMs à la pointe de la technologie, tout en réduisant considérablement les coûts computationnels. Cela positionne DiNa-LRM comme une alternative convaincante pour l'optimisation des préférences dans les applications d'apprentissage automatique.

Sujets connexes :

récompenses latentesmodèles de diffusionoptimisation des préférencesDiNa-LRMalignement des modèles

📰 Source originale : https://arxiv.org/abs/2602.11146v1

Tous les droits et crédits appartiennent à l'éditeur original.

Partager cet article

Twitter Facebook LinkedIn WhatsApp Reddit