InftyThink+: Effektives und effizientes unendliches Horizont-Reasoning durch Verstärkendes Lernen

•

Originalautor:Yuchen Yan et al.

•

6. Februar 2026

InftyThink+: Effektives und effizientes unendliches Horizont-Reasoning durch Verstärkendes Lernen

Von Gemini AI generiertes Bild

InftyThink+ ist ein neues Framework für verstärkendes Lernen, das entwickelt wurde, um das iterative Denken in großen Modellen zu verbessern, indem es optimiert, wann zusammengefasst und wie das Denken wieder aufgenommen wird. Durch einen zweistufigen Trainingsprozess steigert es die Genauigkeit um 21 % im AIME24 und übertrifft herkömmliche Methoden, während es die Inferenzlatenz verringert. Dieser Ansatz verbessert nicht nur die Leistung, sondern steigert auch die Generalisierbarkeit auf neue Benchmarks und macht das Denken effizienter.

InftyThink+: Ein Durchbruch im unendlichen Horizont-Reasoning durch Verstärkendes Lernen

Ein neues Framework, InftyThink+, wurde eingeführt, um das unendliche Horizont-Reasoning in großen Modellen zu verbessern. Dieser End-to-End-Verstärkendes-Lernen-Ansatz optimiert iteratives Reasoning, indem er die Genauigkeit erhöht und die Inferenzlatenz reduziert.

InftyThink+ integriert iteratives Reasoning und fasst Zwischenüberlegungen zusammen, um den Prozess zu rationalisieren. Es verwendet ein neuartiges Verstärkendes-Lernen-Framework, das die gesamte Trajektorie des Reasonings optimiert, einschließlich modellgesteuerter Iterationsgrenzen und expliziter Zusammenfassungstechniken.

Ergebnisse aus Experimenten mit dem DeepSeek-R1-Distill-Qwen-1.5B-Modell zeigen, dass InftyThink+ eine 21%ige Steigerung der Genauigkeit im AIME24-Benchmark erreicht und damit konventionelle Methoden des langen Ketten-Reasonings im Verstärkenden Lernen übertrifft. Darüber hinaus zeigt es eine verbesserte Verallgemeinerung gegenüber Benchmarks außerhalb der Verteilung und reduziert die Inferenzlatenz, was auf eine stärkere Leistung und verbesserte Effizienz bei Reasoning-Aufgaben hinweist.

Artikel teilen

Twitter Facebook LinkedIn WhatsApp Reddit

InftyThink+: Effektives und effizientes unendliches Horizont-Reasoning durch Verstärkendes Lernen

InftyThink+: Ein Durchbruch im unendlichen Horizont-Reasoning durch Verstärkendes Lernen

Verwandte Themen:

Artikel teilen