AI
KI-Nachrichten

Über VLM-basierte Belohnungen hinaus: Diffusionsnative latente Belohnungsmodellierung

Source:arXiv
Originalautor:Gongye Liu et al.
Über VLM-basierte Belohnungen hinaus: Diffusionsnative latente Belohnungsmodellierung

Von Gemini AI generiertes Bild

Forscher haben DiNa-LRM vorgestellt, ein diffusionsbasiertes latentes Belohnungsmodell, das das Präferenzlernen direkt auf verrauschten Diffusionszuständen optimiert. Dieser Ansatz nutzt eine rauschkalibrierte Thurstone-Wahrscheinlichkeit, um die Effizienz der Ausrichtung zu verbessern. DiNa-LRM übertrifft bestehende auf Diffusion basierende Belohnungssysteme und konkurriert mit führenden Vision-Language-Modellen, wobei signifikante Verbesserungen in Geschwindigkeit und Ressourcennutzung während der Modellanpassung erzielt werden.

Neues Diffusions-natives Belohnungsmodell übertrifft Vision-Sprach-Modelle

Ein neuartiger Ansatz zur Präferenzoptimierung in Diffusionsmodellen, bekannt als DiNa-LRM, hat signifikante Fortschritte gegenüber traditionellen Vision-Sprach-Modellen (VLMs) in Bezug auf Rechenleistung und Übereinstimmungsleistung gezeigt. Dieses Modell formuliert das Lernen von Präferenzen direkt auf verrauschten Diffusionszuständen.

DiNa-LRM geht die Einschränkungen aktueller Belohnungsfunktionen an, die auf VLMs basieren und unter hohen Rechen- und Speicheranforderungen leiden. Die Methode führt eine rauschkalibrierte Thurstone-Wahrscheinlichkeit ein, die den Optimierungsprozess optimiert.

Leistungskennzahlen und Vergleiche

In Bildausrichtungsbenchmarks zeigte DiNa-LRM erhebliche Verbesserungen gegenüber aktuellen auf Diffusion basierenden Belohnungsmodellen und erreichte Leistungsniveaus, die mit den modernsten VLMs konkurrieren, und das zu deutlich reduzierten Rechenkosten. Dies positioniert DiNa-LRM als eine überzeugende Alternative zur Optimierung von Präferenzen in maschinellen Lernanwendungen.

Verwandte Themen:

VLM-basierte Belohnungendiffusionsnative latente BelohnungsmodellierungPräferenzoptimierungrauschkalibriertes Thurstone-LikelihoodBildausrichtung

📰 Originalquelle: https://arxiv.org/abs/2602.11146v1

Alle Rechte und Urheberrechte liegen beim ursprünglichen Herausgeber.

Artikel teilen