InftyThink+: Ragionamento infinito ed efficiente su orizzonti infiniti tramite apprendimento per rinforzo

Immagine generata da Gemini AI
InftyThink+ è un nuovo framework di apprendimento per rinforzo progettato per migliorare il ragionamento iterativo nei modelli complessi, ottimizzando i momenti in cui riassumere e le modalità di ripresa del ragionamento. Attraverso un processo di formazione in due fasi, questo sistema aumenta la precisione del 21% su AIME24 e supera i metodi tradizionali, riducendo al contempo la latenza di inferenza. Questo approccio non solo potenzia le prestazioni, ma migliora anche la capacità di generalizzazione su nuovi benchmark, rendendo il ragionamento più efficiente.
InftyThink+: Una Rivoluzione nel Ragionamento all'Infinito tramite Apprendimento per Rinforzo
È stato introdotto un nuovo framework, InftyThink+, per migliorare il ragionamento all'infinito in modelli di grandi dimensioni. Questo approccio di apprendimento per rinforzo end-to-end ottimizza il ragionamento iterativo migliorando l'accuratezza e riducendo la latenza di inferenza.
InftyThink+ incorpora il ragionamento iterativo, riassumendo i pensieri intermedi per semplificare il processo. Utilizza un nuovo framework di apprendimento per rinforzo che ottimizza l'intera traiettoria del ragionamento, incluse le soglie di iterazione controllate dal modello e tecniche di riassunto esplicito.
I risultati degli esperimenti condotti utilizzando il modello DeepSeek-R1-Distill-Qwen-1.5B dimostrano che InftyThink+ raggiunge un incremento del 21% nell'accuratezza sul benchmark AIME24, superando i metodi convenzionali di apprendimento per rinforzo a lungo termine. Inoltre, mostra una miglior generalizzazione rispetto ai benchmark fuori distribuzione e riduce la latenza di inferenza, indicando prestazioni più robuste e maggiore efficienza nei compiti di ragionamento.
Argomenti correlati:
📰 Fonte originale: https://arxiv.org/abs/2602.06960v1
Tutti i diritti e i crediti appartengono all'editore originale.