AI
AI新闻

DynaWeb:基于模型的网页代理强化学习

Source:arXiv
原作者:Hang Ding et al.
DynaWeb:基于模型的网页代理强化学习

Gemini AI生成的图像

DynaWeb 是一种新型的基于模型的强化学习框架,旨在利用模拟网页环境训练自主网络代理。通过根据代理的动作预测网页表示,DynaWeb 实现了高效的训练,避免了实时互联网交互带来的风险。实验结果表明,DynaWeb 在 WebArena 等基准测试中提升了现有网络代理模型的表现,为在线强化学习提供了一种可扩展的方法。

DynaWeb:训练自主网络代理的突破性进展

DynaWeb标志着由大型语言模型(LLMs)和强化学习(RL)驱动的自主网络代理开发中的重要进展。这个基于模型的强化学习(MBRL)框架解决了在实时互联网环境中训练代理所面临的挑战。

DynaWeb利用世界模型来模拟合成网络环境中的交互,使网络代理能够“做梦”,并生成大量的行动轨迹,以增强在线强化学习。通过根据代理行为预测网页变化,DynaWeb为代理创建了一个受控空间,以便优化其策略。

框架特点

DynaWeb的特点包括:

  • 世界模型学习:预测网页在代理行为下的变化。
  • 策略扩展:生成大量的扩展轨迹。
  • 专家轨迹整合:将真实专家轨迹与代理生成的扩展轨迹相结合,以增强训练效果。

性能验证

在WebArena和WebVoyager基准测试中的实验表明,DynaWeb显著优于当前最先进的开源网络代理模型,突显了该框架重塑网络代理训练的潜力。

相关主题:

DynaWeb基于模型的强化学习自主网络代理网络世界模型在线强化学习

📰 原始来源: https://arxiv.org/abs/2601.22149v1

所有权利和署名均属于原出版商。

分享此文章