CRoSS: Непрерывный робототехнический симуляционный пакет для масштабируемого обучения с подкреплением с высокой разнообразностью задач и реалистичной физической симуляцией

Изображение создано Gemini AI
Исследователи разработали Continual Robotic Simulation Suite (CRoSS) — набор тестов для непрерывного обучения с подкреплением (CRL), использующий роботов, смоделированных в Gazebo. В него входят двухколесный робот и семиосный манипулятор, что позволяет выполнять разнообразные задачи, такие как следование по линии и достижение целей. CRoSS предлагает варианты только с кинематикой для повышения производительности и включает контейнеризированную конфигурацию для удобного доступа и воспроизводимости, демонстрируя стандартные алгоритмы RL. Этот набор направлен на улучшение исследований в области CRL, предоставляя реалистичную и расширяемую тестовую среду.
Новый набор бенчмарков CRoSS улучшает непрерывное обучение с подкреплением для робототехники
Представлен прорывной набор бенчмарков под названием Непрерывный Роботизированный Симуляционный Набор (CRoSS), который направлен на развитие непрерывного обучения с подкреплением (CRL), решая задачу агентов, обучающихся на последовательности задач, не забывая ранее приобретенные стратегии. Разработанный с использованием симулятора Gazebo, CRoSS способствует исследованиям в роботизированных условиях с высоким уровнем физического реализма.
CRoSS использует две различные роботизированные платформы: двухколесный дифференциальный робот и семиосевую манипулятор. Дифференциальный робот перемещается по различным сценариям, включая задачи следования по линии и толкания объектов, используя лидар, камеру и датчики удара. Манипулятор сосредоточен на задачах достижения целей, предлагая высокоуровневое декартово управление и низкоуровневое управление углом суставов. CRoSS также представляет варианты только с кинематикой для манипулятора, что позволяет значительно ускорить симуляции, когда физические данные с датчиков не требуются.
Расширяемость и воспроизводимость
CRoSS разработан с учетом расширяемости, позволяя исследователям интегрировать широкий спектр симулированных датчиков в свои исследования. Для улучшения воспроизводимости набор включает контейнеризированную настройку с использованием Apptainer, что обеспечивает возможность запуска бенчмарка без обширной конфигурации.
В рамках набора сообщается о производительности стандартных алгоритмов обучения с подкреплением, таких как Deep Q-Networks (DQN) и методы градиента политики, что иллюстрирует его эффективность как масштабируемого бенчмарка для исследований в области CRL. Введение CRoSS стало значительным шагом вперед в разработке сложных систем обучения для робототехники.
Связанные темы:
📰 Первоисточник: https://arxiv.org/abs/2602.04868v1
Все права и авторство принадлежат первоначальному издателю.