InftyThink+: Raciocínio Infinito e Eficiente em Horizonte Infinito por Meio de Aprendizado por Reforço

•

Autor original:Yuchen Yan et al.

•

6 de fevereiro de 2026

InftyThink+: Raciocínio Infinito e Eficiente em Horizonte Infinito por Meio de Aprendizado por Reforço

Imagem gerada por Gemini AI

O InftyThink+ é uma nova estrutura de aprendizado por reforço desenvolvida para aprimorar o raciocínio iterativo em grandes modelos, otimizando tanto o momento de fazer resumos quanto a forma de retomar o raciocínio. Por meio de um processo de treinamento em duas etapas, a ferramenta melhora a precisão em 21% no AIME24 e supera métodos tradicionais, ao mesmo tempo em que reduz a latência de inferência. Essa abordagem não apenas eleva o desempenho, mas também melhora a generalização para novas referências, tornando o raciocínio mais eficiente.

InftyThink+: Uma Revolução no Raciocínio de Horizonte Infinito via Aprendizado por Reforço

Uma nova estrutura, InftyThink+, foi introduzida para aprimorar o raciocínio de horizonte infinito em grandes modelos. Esta abordagem de aprendizado por reforço de ponta a ponta otimiza o raciocínio iterativo ao melhorar a precisão e reduzir a latência de inferência.

O InftyThink+ incorpora raciocínio iterativo, resumindo pensamentos intermediários para agilizar o processo. Ele emprega uma nova estrutura de aprendizado por reforço que otimiza toda a trajetória do raciocínio, incluindo limites de iteração controlados pelo modelo e técnicas de sumarização explícitas.

Resultados de experimentos utilizando o modelo DeepSeek-R1-Distill-Qwen-1.5B demonstram que o InftyThink+ alcança um aumento de 21% na precisão no benchmark AIME24, superando métodos convencionais de aprendizado por reforço em longas cadeias de pensamento. Além disso, apresenta uma generalização aprimorada contra benchmarks fora da distribuição e reduz a latência de inferência, indicando um desempenho mais robusto e maior eficiência em tarefas de raciocínio.

Tópicos relacionados:

InftyThink+raciocínio iterativoaprendizado por reforçoprecisãoeficiência de raciocínio

📰 Fonte original: https://arxiv.org/abs/2602.06960v1

Todos os direitos e créditos pertencem ao editor original.

Compartilhar este artigo

Twitter Facebook LinkedIn WhatsApp Reddit