InftyThink+: Effektives und effizientes unendliches Horizont-Reasoning durch Verstärkendes Lernen

Von Gemini AI generiertes Bild
InftyThink+ ist ein neues Framework für verstärkendes Lernen, das entwickelt wurde, um das iterative Denken in großen Modellen zu verbessern, indem es optimiert, wann zusammengefasst und wie das Denken wieder aufgenommen wird. Durch einen zweistufigen Trainingsprozess steigert es die Genauigkeit um 21 % im AIME24 und übertrifft herkömmliche Methoden, während es die Inferenzlatenz verringert. Dieser Ansatz verbessert nicht nur die Leistung, sondern steigert auch die Generalisierbarkeit auf neue Benchmarks und macht das Denken effizienter.
InftyThink+: Ein Durchbruch im unendlichen Horizont-Reasoning durch Verstärkendes Lernen
Ein neues Framework, InftyThink+, wurde eingeführt, um das unendliche Horizont-Reasoning in großen Modellen zu verbessern. Dieser End-to-End-Verstärkendes-Lernen-Ansatz optimiert iteratives Reasoning, indem er die Genauigkeit erhöht und die Inferenzlatenz reduziert.
InftyThink+ integriert iteratives Reasoning und fasst Zwischenüberlegungen zusammen, um den Prozess zu rationalisieren. Es verwendet ein neuartiges Verstärkendes-Lernen-Framework, das die gesamte Trajektorie des Reasonings optimiert, einschließlich modellgesteuerter Iterationsgrenzen und expliziter Zusammenfassungstechniken.
Ergebnisse aus Experimenten mit dem DeepSeek-R1-Distill-Qwen-1.5B-Modell zeigen, dass InftyThink+ eine 21%ige Steigerung der Genauigkeit im AIME24-Benchmark erreicht und damit konventionelle Methoden des langen Ketten-Reasonings im Verstärkenden Lernen übertrifft. Darüber hinaus zeigt es eine verbesserte Verallgemeinerung gegenüber Benchmarks außerhalb der Verteilung und reduziert die Inferenzlatenz, was auf eine stärkere Leistung und verbesserte Effizienz bei Reasoning-Aufgaben hinweist.
Verwandte Themen:
📰 Originalquelle: https://arxiv.org/abs/2602.06960v1
Alle Rechte und Urheberrechte liegen beim ursprünglichen Herausgeber.