Talk2Move: Aprendizado por Reforço para Transformação Geométrica de Objetos em Cenas com Instruções em Texto

Imagem gerada por Gemini AI
Talk2Move é uma nova estrutura de aprendizado por reforço desenvolvida para realizar transformações espaciais de objetos em cenas com base em instruções textuais. Este framework supera as limitações dos métodos existentes, permitindo ajustes geométricos (como rotação e redimensionamento) sem a necessidade de um extenso conjunto de dados pareados. Ao empregar a otimização de políticas relativas em grupo e um sistema de recompensas espaciais exclusivo, o Talk2Move melhora a eficiência de aprendizado e alcança uma precisão superior nas transformações de objetos. Experimentos demonstram que ele supera as técnicas atuais de edição guiada por texto, oferecendo resultados interpretáveis e coerentes na manipulação espacial.
Talk2Move: Avançando a Transformação Geométrica de Nível de Objeto Através do Aprendizado por Reforço
Um novo framework, Talk2Move, utiliza aprendizado por reforço para permitir transformações espaciais de objetos instruídas por texto dentro de várias cenas. Esta abordagem aborda as limitações dos sistemas de geração multimodal existentes que enfrentam dificuldades com ajustes geométricos de nível de objeto, como traduzir, rotacionar ou redimensionar.
Talk2Move emprega a Otimização de Política Relativa em Grupo (GRPO), facilitando a exploração de ações geométricas através de diversas simulações geradas a partir de imagens de entrada e variações textuais leves. O design do framework integra um modelo de recompensa espacial que alinha transformações geométricas com descrições linguísticas correspondentes.
Principais Recursos do Talk2Move
- Avaliação de Passo Off-Policy: Aumenta a eficiência do aprendizado ao focar em estágios informativos da transformação.
- Amostragem de Passo Ativa: Refina as saídas com base em feedback em tempo real.
- Recompensas Espaciais Centradas em Objetos: Avaliam diretamente comportamentos como deslocamento, rotação e escalonamento.
Resultados experimentais indicam que o Talk2Move alcança melhorias notáveis na precisão e consistência das transformações de objetos, superando os métodos de edição guiados por texto existentes em precisão espacial e aprimorando a coerência das cenas.
Tópicos relacionados:
📰 Fonte original: https://arxiv.org/abs/2601.02356v1
Todos os direitos e créditos pertencem ao editor original.