AI
Notizie IA

Oltre le Ricompense Basate su VLM: Modellazione delle Ricompense Latenti Native alla Diffusione

Source:arXiv
Autore originale:Gongye Liu et al.
Oltre le Ricompense Basate su VLM: Modellazione delle Ricompense Latenti Native alla Diffusione

Immagine generata da Gemini AI

I ricercatori hanno presentato DiNa-LRM, un modello di ricompensa latente nativo alla diffusione che ottimizza l'apprendimento delle preferenze direttamente su stati di diffusione rumorosi. Questo approccio sfrutta una verosimiglianza di Thurstone calibrata sul rumore per migliorare l'efficienza di allineamento. DiNa-LRM supera i sistemi di ricompensa basati sulla diffusione esistenti e compete con i principali modelli Vision-Language, ottenendo notevoli miglioramenti in termini di velocità e utilizzo delle risorse durante l'allineamento del modello.

Il Nuovo Modello di Ricompensa Diffusion-Native Supera i Modelli Vision-Language

Un approccio innovativo all'ottimizzazione delle preferenze nei modelli di diffusione, noto come DiNa-LRM, ha mostrato significativi progressi rispetto ai tradizionali Modelli Vision-Language (VLMs) in termini di efficienza computazionale e prestazioni di allineamento. Questo modello formula l'apprendimento delle preferenze direttamente su stati di diffusione rumorosi.

DiNa-LRM affronta le limitazioni delle attuali funzioni di ricompensa che si basano sui VLMs, che soffrono di elevati costi computazionali e di memoria. Il metodo introduce una verosimiglianza di Thurstone calibrata per il rumore che semplifica il processo di ottimizzazione.

Metriche di Prestazione e Confronti

Nei benchmark di allineamento delle immagini, DiNa-LRM ha dimostrato miglioramenti sostanziali rispetto agli attuali modelli di ricompensa basati sulla diffusione, raggiungendo livelli di prestazione competitivi con i VLMs all'avanguardia a un costo computazionale significativamente ridotto. Questo posiziona DiNa-LRM come un'alternativa convincente per l'ottimizzazione delle preferenze nelle applicazioni di apprendimento automatico.

Argomenti correlati:

premi basati su VLMModelli Vision-LanguageDiNa-LRMottimizzazione delle preferenzeallineamento delle immagini

📰 Fonte originale: https://arxiv.org/abs/2602.11146v1

Tutti i diritti e i crediti appartengono all'editore originale.

Condividi questo articolo