DynaWeb : Apprentissage par renforcement basé sur des modèles pour les agents web

•

Auteur original:Hang Ding et al.

•

29 janvier 2026

DynaWeb : Apprentissage par renforcement basé sur des modèles pour les agents web

Image générée par Gemini AI

DynaWeb est un nouveau cadre d'apprentissage par renforcement basé sur des modèles, conçu pour former des agents web autonomes dans un environnement web simulé. En prédisant les représentations des pages web en fonction des actions des agents, il permet un entraînement efficace sans les risques associés à des interactions en temps réel sur Internet. Les expériences montrent que DynaWeb améliore les performances des modèles d'agents web existants sur des références telles que WebArena, offrant ainsi une approche évolutive pour l'apprentissage par renforcement en ligne.

DynaWeb : Une avancée dans l'entraînement des agents web autonomes

DynaWeb marque une avancée significative dans le développement d'agents web autonomes alimentés par des Modèles de Langage de Grande Taille (LLMs) et l'apprentissage par renforcement (RL). Ce cadre d'apprentissage par renforcement basé sur un modèle (MBRL) s'attaque aux défis associés à l'entraînement des agents dans des environnements internet en temps réel.

DynaWeb utilise un modèle du monde pour simuler les interactions au sein d'un environnement web synthétique, permettant aux agents web de "rêver" et de générer d'importantes trajectoires d'action pour améliorer l'apprentissage par renforcement en ligne. En prédisant les changements de pages web en fonction des actions des agents, DynaWeb crée un espace contrôlé pour que les agents affinent leurs politiques.

Caractéristiques du Cadre

Les caractéristiques de DynaWeb incluent :

Apprentissage du Modèle du Monde : Prédit les changements de pages web en réponse aux actions des agents.
Lancements de Politique : Génère d'énormes quantités de trajectoires de lancement.
Intégration des Trajectoires d'Experts : Combine les trajectoires d'experts réelles avec les lancements générés par l'agent pour un entraînement amélioré.

Validation des Performances

Les expériences menées sur les benchmarks WebArena et WebVoyager démontrent que DynaWeb surpasse de manière significative les modèles d'agents web open-source à la pointe de la technologie, soulignant le potentiel du cadre à transformer l'entraînement des agents web.

Sujets connexes :

DynaWebapprentissage par renforcement basé sur des modèlesagents web autonomesinteractions simuléesperformances des modèles d'agents web

📰 Source originale : https://arxiv.org/abs/2601.22149v1

Tous les droits et crédits appartiennent à l'éditeur original.

Partager cet article

Twitter Facebook LinkedIn WhatsApp Reddit