CRoSS: Una Suite de Simulación Robótica Continua para Aprendizaje por Refuerzo Escalable con Alta Diversidad de Tareas y Simulación Física Realista

Imagen generada por Gemini AI
Investigadores han desarrollado el Continual Robotic Simulation Suite (CRoSS), una referencia para el aprendizaje por refuerzo continuo (CRL, por sus siglas en inglés) utilizando robots simulados en Gazebo. Este conjunto incluye un robot de dos ruedas y un brazo robótico de siete articulaciones, que permite realizar diversas tareas como seguir líneas y alcanzar objetivos. CRoSS ofrece variantes que se centran únicamente en la cinemática para un rendimiento más rápido e incluye una configuración en contenedores que facilita el acceso y la reproducibilidad, mostrando algoritmos estándar de aprendizaje por refuerzo. Este conjunto tiene como objetivo potenciar la investigación en CRL al proporcionar un entorno de pruebas realista y extensible.
El Nuevo Conjunto de Evaluación CRoSS Mejora el Aprendizaje por Refuerzo Continuo para Robótica
Se ha introducido un innovador conjunto de evaluación llamado Conjunto de Simulación Robótica Continua (CRoSS) para avanzar en el aprendizaje por refuerzo continuo (CRL) al abordar el desafío de que los agentes aprendan de una secuencia de tareas sin olvidar las políticas adquiridas previamente. Desarrollado utilizando el simulador Gazebo, CRoSS facilita la investigación en entornos robóticos con un alto realismo físico.
CRoSS utiliza dos plataformas robóticas distintas: un robot de tracción diferencial de dos ruedas y un brazo robótico de siete articulaciones. El robot de tracción diferencial navega por varios escenarios, incluyendo tareas de seguimiento de línea y empuje de objetos, utilizando sensores lidar, cámaras y parachoques. El brazo robótico se centra en tareas de alcanzar objetivos, ofreciendo control cartesiano de alto nivel y control de ángulo de articulación de bajo nivel. CRoSS también introduce variantes solo cinemáticas para el brazo robótico, permitiendo que las simulaciones se ejecuten significativamente más rápido cuando no se requieren lecturas de sensores físicos.
Extensibilidad y Reproducibilidad
CRoSS está diseñado con la extensibilidad en mente, permitiendo a los investigadores incorporar una amplia gama de sensores simulados en sus estudios. Para mejorar la reproducibilidad, el conjunto incluye una configuración contenedorizada utilizando Apptainer, asegurando que los usuarios puedan ejecutar la evaluación sin una configuración extensa.
El rendimiento de algoritmos estándar de aprendizaje por refuerzo, como las Redes Neuronales Profundas Q (DQN) y métodos de gradiente de política, ha sido reportado dentro del conjunto, ilustrando su eficacia como un conjunto de evaluación escalable para la investigación en CRL. La introducción de CRoSS representa un avance significativo en el desarrollo de sistemas sofisticados de aprendizaje robótico.
Temas relacionados:
📰 Fuente original: https://arxiv.org/abs/2602.04868v1
Todos los derechos y créditos pertenecen al editor original.