За пределами вознаграждений на основе VLM: Моделирование латентных вознаграждений, основанное на диффузии

•

Оригинальный автор:Gongye Liu et al.

•

11 февраля 2026 г.

За пределами вознаграждений на основе VLM: Моделирование латентных вознаграждений, основанное на диффузии

Изображение создано Gemini AI

Исследователи представили DiNa-LRM — латентную модель вознаграждения на основе диффузии, которая оптимизирует обучение предпочтения непосредственно на зашумленных диффузионных состояниях. Этот подход использует откалиброванную по шуму вероятность по Тёрстону для повышения эффективности согласования. DiNa-LRM превосходит существующие системы вознаграждения на основе диффузии и конкурирует с ведущими моделью «визуальный язык», демонстрируя значительные улучшения в скорости и использовании ресурсов во время согласования модели.

Новая модель вознаграждения на основе диффузии превосходит модели визуального языка

Новаторский подход к оптимизации предпочтений в диффузионных моделях, известный как DiNa-LRM, продемонстрировал значительные достижения по сравнению с традиционными моделями визуального языка (VLM), как в вычислительной эффективности, так и в показателях согласованности. Эта модель формулирует обучение предпочтения непосредственно на шумных состояниях диффузии.

DiNa-LRM решает ограничения текущих функций вознаграждения, которые полагаются на VLM и страдают от высоких вычислительных и памятьных затрат. Метод вводит откалиброванную по шуму вероятность Турстона, которая упрощает процесс оптимизации.

Метрики производительности и сравнения

В бенчмарках выравнивания изображений DiNa-LRM продемонстрировала значительные улучшения по сравнению с текущими моделями вознаграждения на основе диффузии, достигая уровней производительности, сопоставимых с современными VLM при значительно сниженных вычислительных затратах. Это ставит DiNa-LRM в качестве привлекательной альтернативы для оптимизации предпочтений в приложениях машинного обучения.

Связанные темы:

латентное вознаграждениедиффузионная модельвизуально-языковая модель (VLM)оптимизация предпочтенийDiNa-LRM

📰 Первоисточник: https://arxiv.org/abs/2602.11146v1

Все права и авторство принадлежат первоначальному издателю.

Поделиться статьей

Twitter Facebook LinkedIn WhatsApp Reddit