InftyThink+: Razonamiento Infinito Eficaz y Eficiente a Través del Aprendizaje por Refuerzo

•

Autor original:Yuchen Yan et al.

•

6 de febrero de 2026

InftyThink+: Razonamiento Infinito Eficaz y Eficiente a Través del Aprendizaje por Refuerzo

Imagen generada por Gemini AI

InftyThink+ es un nuevo marco de aprendizaje por refuerzo diseñado para mejorar el razonamiento iterativo en modelos grandes, optimizando tanto el momento de resumir como la forma de retomar el razonamiento. A través de un proceso de entrenamiento en dos etapas, logra una mejora del 21% en precisión en AIME24 y supera a los métodos tradicionales, al mismo tiempo que reduce la latencia de inferencia. Este enfoque no solo eleva el rendimiento, sino que también mejora la generalización hacia nuevos estándares, haciendo que el razonamiento sea más eficiente.

InftyThink+: Un Avance en el Razonamiento de Horizonte Infinito a Través del Aprendizaje por Refuerzo

Se ha introducido un nuevo marco, InftyThink+, para mejorar el razonamiento de horizonte infinito en modelos grandes. Este enfoque de aprendizaje por refuerzo de extremo a extremo optimiza el razonamiento iterativo al mejorar la precisión y reducir la latencia de inferencia.

InftyThink+ incorpora el razonamiento iterativo, resumiendo pensamientos intermedios para agilizar el proceso. Emplea un novedoso marco de aprendizaje por refuerzo que optimiza toda la trayectoria del razonamiento, incluyendo límites de iteración controlados por el modelo y técnicas de resumido explícito.

Los resultados de experimentos utilizando el modelo DeepSeek-R1-Distill-Qwen-1.5B demuestran que InftyThink+ logra un aumento del 21% en precisión en el benchmark AIME24, superando los métodos convencionales de aprendizaje por refuerzo de larga cadena de pensamiento. Además, muestra una mejor generalización frente a benchmarks fuera de distribución y reduce la latencia de inferencia, lo que indica un rendimiento más sólido y una mayor eficiencia en las tareas de razonamiento.

Temas relacionados:

InftyThink+aprendizaje por refuerzorazonamiento iterativoprecisiónlatencia de inferencia

📰 Fuente original: https://arxiv.org/abs/2602.06960v1

Todos los derechos y créditos pertenecen al editor original.

Compartir este artículo

Twitter Facebook LinkedIn WhatsApp Reddit