DynaWeb: Обучение с подкреплением на основе моделей для веб-агентов

Изображение создано Gemini AI
DynaWeb — это новая модельная платформа для обучения с подкреплением, созданная для тренировки автономных веб-агентов в симулированной веб-среде. Путем прогнозирования представлений веб-страниц на основе действий агентов, DynaWeb обеспечивает эффективное обучение без рисков, связанных с взаимодействием в реальном интернете. Эксперименты показывают, что DynaWeb значительно улучшает производительность существующих моделей веб-агентов на таких тестах, как WebArena, предлагая масштабируемый подход к онлайн-обучению с подкреплением.
DynaWeb: Прорыв в обучении автономных веб-агентов
DynaWeb представляет собой значительное достижение в разработке автономных веб-агентов, работающих на основе больших языковых моделей (LLMs) и обучения с подкреплением (RL). Эта модельно-ориентированная структура обучения с подкреплением (MBRL) решает проблемы, связанные с обучением агентов в реальном времени в интернет-среде.
DynaWeb использует модель мира для симуляции взаимодействий в синтетической веб-среде, позволяя веб-агентам "мечтать" и генерировать обширные траектории действий для улучшения онлайн-обучения с подкреплением. Путем предсказания изменений веб-страниц на основе действий агентов, DynaWeb создает контролируемое пространство для уточнения их политик.
Особенности фреймворка
К особенностям DynaWeb относятся:
- Обучение модели мира: Предсказывает изменения веб-страниц в ответ на действия агентов.
- Запуск политик: Генерирует огромные объемы траекторий запусков.
- Интеграция экспертных траекторий: Объединяет реальные экспертные траектории с запусками, сгенерированными агентами, для улучшения обучения.
Проверка производительности
Эксперименты на бенчмарках WebArena и WebVoyager демонстрируют, что DynaWeb значительно превосходит современные лучшие открытые модели веб-агентов, подчеркивая потенциал фреймворка в трансформации обучения веб-агентов.
Связанные темы:
📰 Первоисточник: https://arxiv.org/abs/2601.22149v1
Все права и авторство принадлежат первоначальному издателю.