InftyThink+: Эффективное и результативное бесконечное рассуждение с использованием обучения с подкреплением

•

Оригинальный автор:Yuchen Yan et al.

•

6 февраля 2026 г.

InftyThink+: Эффективное и результативное бесконечное рассуждение с использованием обучения с подкреплением

Изображение создано Gemini AI

InftyThink+ — это новая платформа для обучения с подкреплением, разработанная для улучшения итеративного мышления в крупных моделях. Она оптимизирует моменты подведения итогов и возобновления рассуждений. Благодаря двухступенчатому процессу обучения, InftyThink+ повышает точность на 21% по сравнению с AIME24 и превосходит традиционные методы, одновременно снижая задержку при выводах. Этот подход не только улучшает производительность, но и способствует лучшей обобщаемости на новых бенчмарках, делая процесс рассуждения более эффективным.

InftyThink+: Прорыв в бесконечном горизонте рассуждений с помощью обучения с подкреплением

Представлен новый фреймворк InftyThink+, который предназначен для улучшения бесконечного горизонта рассуждений в крупных моделях. Этот подход обучения с подкреплением от начала до конца оптимизирует итеративные рассуждения, повышая точность и сокращая задержку вывода.

InftyThink+ включает в себя итеративное рассуждение, обобщая промежуточные мысли для упрощения процесса. Он использует новый фреймворк обучения с подкреплением, который оптимизирует всю траекторию рассуждений, включая управляемые моделью границы итераций и явные техники обобщения.

Результаты экспериментов с использованием модели DeepSeek-R1-Distill-Qwen-1.5B демонстрируют, что InftyThink+ достигает увеличения точности на 21% по сравнению с эталоном AIME24, превосходя традиционные методы обучения с подкреплением в длинных цепочках рассуждений. Кроме того, он показывает улучшенную обобщаемость по сравнению с эталонами вне распределения и снижает задержку вывода, что указывает на более высокую производительность и улучшенную эффективность в задачах рассуждения.

Связанные темы:

InftyThink+обучение с подкреплениемитеративное рассуждениевысока производительностьоптимизация

📰 Первоисточник: https://arxiv.org/abs/2602.06960v1

Все права и авторство принадлежат первоначальному издателю.

Поделиться статьей

Twitter Facebook LinkedIn WhatsApp Reddit