DynaWeb：基于模型的网页代理强化学习

•

原作者:Hang Ding et al.

•

2026年1月29日

Gemini AI生成的图像

DynaWeb 是一种新型的基于模型的强化学习框架，旨在利用模拟网页环境训练自主网络代理。通过根据代理的动作预测网页表示，DynaWeb 实现了高效的训练，避免了实时互联网交互带来的风险。实验结果表明，DynaWeb 在 WebArena 等基准测试中提升了现有网络代理模型的表现，为在线强化学习提供了一种可扩展的方法。

DynaWeb：训练自主网络代理的突破性进展

DynaWeb标志着由大型语言模型（LLMs）和强化学习（RL）驱动的自主网络代理开发中的重要进展。这个基于模型的强化学习（MBRL）框架解决了在实时互联网环境中训练代理所面临的挑战。

DynaWeb利用世界模型来模拟合成网络环境中的交互，使网络代理能够“做梦”，并生成大量的行动轨迹，以增强在线强化学习。通过根据代理行为预测网页变化，DynaWeb为代理创建了一个受控空间，以便优化其策略。

框架特点

DynaWeb的特点包括：

世界模型学习：预测网页在代理行为下的变化。
策略扩展：生成大量的扩展轨迹。
专家轨迹整合：将真实专家轨迹与代理生成的扩展轨迹相结合，以增强训练效果。

性能验证

在WebArena和WebVoyager基准测试中的实验表明，DynaWeb显著优于当前最先进的开源网络代理模型，突显了该框架重塑网络代理训练的潜力。

分享此文章

Twitter Facebook LinkedIn WhatsApp Reddit

DynaWeb：基于模型的网页代理强化学习

DynaWeb：训练自主网络代理的突破性进展

框架特点

性能验证

相关主题：

分享此文章