Élargir les capacités de l'apprentissage par renforcement grâce aux retours textuels

•

Auteur original:Yuda Song et al.

•

2 février 2026

Élargir les capacités de l'apprentissage par renforcement grâce aux retours textuels

Image générée par Gemini AI

Une étude récente propose l'apprentissage par renforcement à partir de retours textuels (RLTF), exploitant les critiques écrites pour améliorer les modèles de langage de grande taille après leur entraînement. Contrairement aux méthodes traditionnelles, le RLTF utilise l'apprentissage par renforcement sur plusieurs tours, permettant aux modèles d'intégrer les retours sans nécessiter de démonstrations approfondies. Deux techniques, la distillation auto-dirigée et la modélisation des retours, ont été testées sur diverses tâches et ont systématiquement surpassé les bases de référence existantes, indiquant que les retours textuels peuvent améliorer de manière significative l'efficacité des performances des modèles.

Expansion des capacités d'apprentissage par renforcement avec des retours textuels

Les avancées récentes dans l'apprentissage par renforcement (RL) pour les grands modèles de langage (LLM) ont révélé une approche novatrice utilisant les retours textuels comme signal intermédiaire pour améliorer l'efficacité de l'entraînement des modèles. Les stratégies RL actuelles reposent souvent sur des retours minimaux, généralement limités à des récompenses binaires. L'introduction des retours textuels vise à combler cette lacune, offrant une alternative plus informative et, pourtant, économique.

Présentation du RL à partir de retours textuels (RLTF)

Le cadre proposé, RL à partir de retours textuels (RLTF), formalise une configuration d'entraînement RL multi-tour, où les retours textuels sont utilisés pendant l'entraînement mais ne sont pas disponibles lors de l'inférence. Les modèles doivent internaliser les retours pour améliorer leur performance dans des scénarios à un seul tour pendant les tests.

Deux méthodes innovantes ont été introduites :

Auto-Distillation (RLTF-SD) : Cette approche entraîne la politique à s'aligner sur ses propres sorties de deuxième tour conditionnées par les retours, encourageant ainsi la cohérence dans les réponses du modèle.
Modélisation des Retours (RLTF-FM) : Cette méthode vise à prédire les retours comme un objectif auxiliaire, guidant davantage le modèle dans son processus d'apprentissage.

Évaluations théoriques et empiriques

Les chercheurs ont mené une analyse théorique approfondie des deux méthodes RLTF, suivie d'évaluations empiriques à travers diverses tâches, y compris des énigmes de raisonnement et des exercices d'écriture créative. Les résultats ont constamment démontré que les deux méthodes RLTF surpassaient de manière significative de solides modèles de référence dans ces benchmarks.

Les résultats soulignent le potentiel d'intégration des retours textuels comme une source riche de supervision dans le RL, suggérant que cette approche pourrait conduire à des LLM plus robustes et adaptables.

Sujets connexes :

apprentissage par renforcementretour d'information textuelmodèles de langage de grande taillecadre d'apprentissage par renforcementDistillation Autonome

📰 Source originale : https://arxiv.org/abs/2602.02482v1

Tous les droits et crédits appartiennent à l'éditeur original.

Partager cet article

Twitter Facebook LinkedIn WhatsApp Reddit