DynaWeb: Aprendizaje por Refuerzo Basado en Modelos para Agentes Web

•

Autor original:Hang Ding et al.

•

29 de enero de 2026

DynaWeb: Aprendizaje por Refuerzo Basado en Modelos para Agentes Web

Imagen generada por Gemini AI

DynaWeb es un nuevo marco de aprendizaje por refuerzo basado en modelos, diseñado para entrenar agentes autónomos en entornos web simulados. Al predecir las representaciones de las páginas web según las acciones de los agentes, permite un entrenamiento eficiente sin los riesgos asociados a la interacción en tiempo real con Internet. Los experimentos demuestran que DynaWeb mejora el rendimiento de los modelos de agentes web existentes en pruebas de referencia como WebArena, ofreciendo un enfoque escalable para el aprendizaje por refuerzo en línea.

DynaWeb: Un Avance en el Entrenamiento de Agentes Web Autónomos

DynaWeb marca un avance significativo en el desarrollo de agentes web autónomos impulsados por Modelos de Lenguaje Grande (LLMs) y aprendizaje por refuerzo (RL). Este marco de aprendizaje por refuerzo basado en modelos (MBRL) aborda los desafíos asociados con el entrenamiento de agentes en entornos de internet en tiempo real.

DynaWeb utiliza un modelo del mundo para simular interacciones dentro de un entorno web sintético, permitiendo a los agentes web "soñar" y generar extensas trayectorias de acción para un aprendizaje por refuerzo en línea mejorado. Al predecir cambios en las páginas web en función de las acciones del agente, DynaWeb crea un espacio controlado para que los agentes refinen sus políticas.

Características del Marco

Las características de DynaWeb incluyen:

Aprendizaje del Modelo del Mundo: Predice los cambios en las páginas web en respuesta a las acciones del agente.
Despliegues de Políticas: Genera grandes cantidades de trayectorias de despliegue.
Integración de Trayectorias de Expertos: Combina trayectorias de expertos reales con despliegues generados por el agente para un entrenamiento mejorado.

Validación del Rendimiento

Los experimentos en los benchmarks de WebArena y WebVoyager demuestran que DynaWeb supera significativamente a los modelos de agentes web de código abierto de última generación, destacando el potencial del marco para transformar el entrenamiento de agentes web.

Temas relacionados:

DynaWebaprendizaje por refuerzo basado en modelosagentes webinteracción simuladarendimiento de modelos.

📰 Fuente original: https://arxiv.org/abs/2601.22149v1

Todos los derechos y créditos pertenecen al editor original.

Compartir este artículo

Twitter Facebook LinkedIn WhatsApp Reddit