Über VLM-basierte Belohnungen hinaus: Diffusionsnative latente Belohnungsmodellierung

•

Originalautor:Gongye Liu et al.

•

11. Februar 2026

Über VLM-basierte Belohnungen hinaus: Diffusionsnative latente Belohnungsmodellierung

Von Gemini AI generiertes Bild

Forscher haben DiNa-LRM vorgestellt, ein diffusionsbasiertes latentes Belohnungsmodell, das das Präferenzlernen direkt auf verrauschten Diffusionszuständen optimiert. Dieser Ansatz nutzt eine rauschkalibrierte Thurstone-Wahrscheinlichkeit, um die Effizienz der Ausrichtung zu verbessern. DiNa-LRM übertrifft bestehende auf Diffusion basierende Belohnungssysteme und konkurriert mit führenden Vision-Language-Modellen, wobei signifikante Verbesserungen in Geschwindigkeit und Ressourcennutzung während der Modellanpassung erzielt werden.

Neues Diffusions-natives Belohnungsmodell übertrifft Vision-Sprach-Modelle

Ein neuartiger Ansatz zur Präferenzoptimierung in Diffusionsmodellen, bekannt als DiNa-LRM, hat signifikante Fortschritte gegenüber traditionellen Vision-Sprach-Modellen (VLMs) in Bezug auf Rechenleistung und Übereinstimmungsleistung gezeigt. Dieses Modell formuliert das Lernen von Präferenzen direkt auf verrauschten Diffusionszuständen.

DiNa-LRM geht die Einschränkungen aktueller Belohnungsfunktionen an, die auf VLMs basieren und unter hohen Rechen- und Speicheranforderungen leiden. Die Methode führt eine rauschkalibrierte Thurstone-Wahrscheinlichkeit ein, die den Optimierungsprozess optimiert.

Leistungskennzahlen und Vergleiche

In Bildausrichtungsbenchmarks zeigte DiNa-LRM erhebliche Verbesserungen gegenüber aktuellen auf Diffusion basierenden Belohnungsmodellen und erreichte Leistungsniveaus, die mit den modernsten VLMs konkurrieren, und das zu deutlich reduzierten Rechenkosten. Dies positioniert DiNa-LRM als eine überzeugende Alternative zur Optimierung von Präferenzen in maschinellen Lernanwendungen.

Artikel teilen

Twitter Facebook LinkedIn WhatsApp Reddit

Über VLM-basierte Belohnungen hinaus: Diffusionsnative latente Belohnungsmodellierung

Neues Diffusions-natives Belohnungsmodell übertrifft Vision-Sprach-Modelle

Leistungskennzahlen und Vergleiche

Verwandte Themen:

Artikel teilen