IRL-DAL: Planejamento de Trajetória Seguro e Adaptativo para Direção Autônoma por meio de Modelos de Difusão Guiados por Energia

•

Autor original:Seyed Ahmad Hosseini Miangoleh et al.

•

30 de janeiro de 2026

IRL-DAL: Planejamento de Trajetória Seguro e Adaptativo para Direção Autônoma por meio de Modelos de Difusão Guiados por Energia

Imagem gerada por Gemini AI

Um novo framework, chamado IRL-DAL, aprimora a navegação de veículos autônomos por meio de um planejador adaptativo de antecipação baseado em difusão. O processo inicia com o aprendizado por imitação de um controlador FSM especializado, integrando feedback ambiental e recompensas de Aprendizado por Reforço Inverso (IRL). Essa abordagem alcança uma taxa de sucesso de 96% e reduz o número de colisões para 0,05 a cada 1.000 passos, melhorando significativamente a segurança. O código está disponível publicamente para pesquisas adicionais.

Framework IRL-DAL Melhora a Navegação de Veículos Autônomos

Um novo framework de aprendizado por reforço inverso chamado IRL-DAL está prestes a avançar a segurança e a adaptabilidade do planejamento de trajetórias em veículos autônomos. O sistema alcança uma taxa de sucesso de 96% e reduz drasticamente as instâncias de colisão para apenas 0,05 a cada 1.000 passos.

O framework IRL-DAL inicia o treinamento por meio da imitação de um controlador de máquina de estados finitos (FSM) especializado, integrando feedback ambiental com um sinal de discriminador de aprendizado por reforço inverso (IRL). Após essa fase, o sistema passa por aprendizado por reforço (RL) utilizando uma estrutura de recompensa híbrida que combina percepções ambientais com incentivos direcionados de IRL.

Um componente crucial é um modelo de difusão condicional, que atua como um supervisor de segurança para o planejamento de trajetórias de direção seguras e manutenção da disciplina de faixa. Além disso, uma máscara adaptativa aprendível (LAM) aprimora a percepção do veículo ajustando a atenção visual com base na velocidade e na proximidade de perigos.

Após a fase inicial de imitação, a política de direção é refinada utilizando a Otimização de Política Proximal (PPO), com treinamento ocorrendo dentro do simulador Webots.

O IRL-DAL navega habilmente em ambientes inseguros, demonstrando um manuseio de nível especialista em condições de direção complexas. A equipe de pesquisa disponibilizou o código do framework publicamente para incentivar o desenvolvimento adicional em direção autônoma.

Tópicos relacionados:

Planejamento de TrajetóriasCondução AutônomaAprendizado por Reforço InversoModelo de DifusãoSegurança em Veículos

📰 Fonte original: https://arxiv.org/abs/2601.23266v1

Todos os direitos e créditos pertencem ao editor original.

Compartilhar este artigo

Twitter Facebook LinkedIn WhatsApp Reddit