InftyThink+: Raisonnement infini efficace et performant grâce à l'apprentissage par renforcement

Image générée par Gemini AI
InftyThink+ est un nouveau cadre d'apprentissage par renforcement conçu pour améliorer le raisonnement itératif dans les grands modèles en optimisant les moments de résumé et les méthodes de reprise de raisonnement. Grâce à un processus de formation en deux étapes, il permet d'améliorer la précision de 21 % sur AIME24 et surpasse les méthodes traditionnelles tout en réduisant la latence d'inférence. Cette approche non seulement renforce les performances, mais améliore également la généralisation à de nouveaux repères, rendant ainsi le raisonnement plus efficace.
InftyThink+: Une avancée dans le raisonnement à horizon infini via l'apprentissage par renforcement
Un nouveau cadre, InftyThink+, a été introduit pour améliorer le raisonnement à horizon infini dans les grands modèles. Cette approche d'apprentissage par renforcement de bout en bout optimise le raisonnement itératif en améliorant la précision et en réduisant la latence d'inférence.
InftyThink+ intègre le raisonnement itératif, résumant les pensées intermédiaires pour rationaliser le processus. Il utilise un cadre d'apprentissage par renforcement novateur qui optimise l'ensemble de la trajectoire de raisonnement, y compris les limites d'itération contrôlées par le modèle et les techniques de résumé explicites.
Les résultats d'expériences utilisant le modèle DeepSeek-R1-Distill-Qwen-1.5B démontrent qu'InftyThink+ atteint une augmentation de 21 % de la précision sur le benchmark AIME24, surpassant les méthodes conventionnelles d'apprentissage par renforcement avec de longues chaînes de pensée. De plus, il montre une meilleure généralisation face aux benchmarks hors distribution et réduit la latence d'inférence, indiquant une performance plus forte et une efficacité améliorée dans les tâches de raisonnement.
Sujets connexes :
📰 Source originale : https://arxiv.org/abs/2602.06960v1
Tous les droits et crédits appartiennent à l'éditeur original.