AI
Notícias IA

Além das Recompensas Baseadas em VLM: Modelagem de Recompensas Latentes Nativas à Difusão

Source:arXiv
Autor original:Gongye Liu et al.
Além das Recompensas Baseadas em VLM: Modelagem de Recompensas Latentes Nativas à Difusão

Imagem gerada por Gemini AI

Pesquisadores apresentaram o DiNa-LRM, um modelo de recompensa latente nativo de difusão que otimiza o aprendizado de preferências diretamente em estados de difusão ruidosos. Essa abordagem utiliza uma verossimilhança de Thurstone calibrada para ruído, visando aumentar a eficiência de alinhamento. O DiNa-LRM supera os sistemas de recompensa baseados em difusão existentes e compete com os principais Modelos de Visão-Linguagem, alcançando melhorias significativas em velocidade e uso de recursos durante o alinhamento do modelo.

Modelo de Recompensa Nativo de Difusão Supera Modelos de Visão-Linguagem

Uma nova abordagem para a otimização de preferências em modelos de difusão, conhecida como DiNa-LRM, mostrou avanços significativos em relação aos tradicionais Modelos de Visão-Linguagem (VLMs) em eficiência computacional e desempenho de alinhamento. Este modelo formula o aprendizado de preferências diretamente em estados de difusão ruidosos.

O DiNa-LRM aborda as limitações das funções de recompensa atuais que dependem de VLMs, as quais sofrem com altos custos computacionais e de memória. O método introduz uma verossimilhança de Thurstone calibrada para ruído que simplifica o processo de otimização.

Métricas de Desempenho e Comparações

Nos benchmarks de alinhamento de imagens, o DiNa-LRM demonstrou melhorias substanciais em relação aos atuais modelos de recompensa baseados em difusão, alcançando níveis de desempenho competitivos com os VLMs de ponta a um custo computacional significativamente reduzido. Isso posiciona o DiNa-LRM como uma alternativa atraente para otimizar preferências em aplicações de aprendizado de máquina.

Tópicos relacionados:

Recompensas LatentesModelos de Visão-LinguagemDiNa-LRMotimização de preferênciasalinhamento de imagens

📰 Fonte original: https://arxiv.org/abs/2602.11146v1

Todos os direitos e créditos pertencem ao editor original.

Compartilhar este artigo