Обучение координации с использованием квантовой запутанности в многопользовательском обучении с подкреплением

•

Оригинальный автор:John Gardiner et al.

•

9 февраля 2026 г.

Обучение координации с использованием квантовой запутанности в многопользовательском обучении с подкреплением

Изображение создано Gemini AI

Новая структура для многопользовательского обучения с подкреплением (MARL) использует общее квантовое запутывание для улучшения координации без необходимости в коммуникации, что позволяет ей превзойти предыдущие методы, основанные на совместной случайности. Этот подход включает дифференцируемую параметризацию политики и инновационную архитектуру, которая отделяет квантовую координацию от локального принятия решений. Результаты показывают, что стратегии достигают квантового преимущества как в однократных кооперативных играх, так и в децентрализованных частично наблюдаемых марковских процессах принятия решений (Dec-POMDP), что указывает на значительные достижения в производительности MARL.

Новая структура использует квантовую запутанность для координации в многопользовательском обучении с подкреплением

Революционный подход в многопользовательском обучении с подкреплением (MARL) использует квантовую запутанность для повышения координации между агентами без прямой коммуникации. Это первая структура, которая позволяет агентам MARL использовать общую квантовую запутанность для разработки более эффективных согласованных стратегий, чем те, которые можно достичь с помощью традиционной совместной случайности.

Исследования показывают, что для определенных кооперативных игр, где коммуникация запрещена, стратегии, использующие общую квантовую запутанность, могут превосходить те, которые основаны исключительно на общей случайности. Эта структура интегрирует новую дифференцируемую параметризацию политики и архитектуру, предназначенную для разделения совместных политик на квантового координатора и децентрализованных локальных агентов.

Новая структура позволяет оптимизировать квантовые измерения, позволяя агентам разрабатывать стратегии, которые достигают квантового преимущества в однократных играх. Исследователи продемонстрировали эту возможность, используя черные ящики-оракулы, чтобы проиллюстрировать, как агенты могут обучаться эффективным стратегиям без предварительно существующих протоколов коммуникации.

Связанные темы:

квантовая запутанностьмногопользовательское обучение с подкреплениемкоррелированные политикиквантовое преимуществодецентрализованный частично наблюдаемый марковский процесс

📰 Первоисточник: https://arxiv.org/abs/2602.08965v1

Все права и авторство принадлежат первоначальному издателю.

Поделиться статьей

Twitter Facebook LinkedIn WhatsApp Reddit