AI
Новости ИИ

DynaWeb: Обучение с подкреплением на основе моделей для веб-агентов

Source:arXiv
Оригинальный автор:Hang Ding et al.
DynaWeb: Обучение с подкреплением на основе моделей для веб-агентов

Изображение создано Gemini AI

DynaWeb — это новая модельная платформа для обучения с подкреплением, созданная для тренировки автономных веб-агентов в симулированной веб-среде. Путем прогнозирования представлений веб-страниц на основе действий агентов, DynaWeb обеспечивает эффективное обучение без рисков, связанных с взаимодействием в реальном интернете. Эксперименты показывают, что DynaWeb значительно улучшает производительность существующих моделей веб-агентов на таких тестах, как WebArena, предлагая масштабируемый подход к онлайн-обучению с подкреплением.

DynaWeb: Прорыв в обучении автономных веб-агентов

DynaWeb представляет собой значительное достижение в разработке автономных веб-агентов, работающих на основе больших языковых моделей (LLMs) и обучения с подкреплением (RL). Эта модельно-ориентированная структура обучения с подкреплением (MBRL) решает проблемы, связанные с обучением агентов в реальном времени в интернет-среде.

DynaWeb использует модель мира для симуляции взаимодействий в синтетической веб-среде, позволяя веб-агентам "мечтать" и генерировать обширные траектории действий для улучшения онлайн-обучения с подкреплением. Путем предсказания изменений веб-страниц на основе действий агентов, DynaWeb создает контролируемое пространство для уточнения их политик.

Особенности фреймворка

К особенностям DynaWeb относятся:

  • Обучение модели мира: Предсказывает изменения веб-страниц в ответ на действия агентов.
  • Запуск политик: Генерирует огромные объемы траекторий запусков.
  • Интеграция экспертных траекторий: Объединяет реальные экспертные траектории с запусками, сгенерированными агентами, для улучшения обучения.

Проверка производительности

Эксперименты на бенчмарках WebArena и WebVoyager демонстрируют, что DynaWeb значительно превосходит современные лучшие открытые модели веб-агентов, подчеркивая потенциал фреймворка в трансформации обучения веб-агентов.

Связанные темы:

DynaWebвеб-агентымодели с использованием методов усиленного обученияобучение с использованием моделейсинтетическая веб-среда

📰 Первоисточник: https://arxiv.org/abs/2601.22149v1

Все права и авторство принадлежат первоначальному издателю.

Поделиться статьей