Apprentissage de la coordination par l'entrelacement quantique dans l'apprentissage par renforcement multi-agents

•

Auteur original:John Gardiner et al.

•

9 février 2026

Apprentissage de la coordination par l'entrelacement quantique dans l'apprentissage par renforcement multi-agents

Image générée par Gemini AI

Un nouveau cadre pour l'apprentissage par renforcement multi-agents (MARL) exploite l'intrication quantique partagée pour améliorer la coordination sans nécessiter de communication, surpassant ainsi les méthodes précédentes qui reposaient sur une randomisation partagée. Cette approche introduit une paramétrisation de politique différentiable et une architecture novatrice qui dissocie la coordination quantique de la prise de décision locale. Les résultats montrent que les stratégies développées permettent d'obtenir un avantage quantique tant dans des jeux coopératifs à un tour que dans des processus de décision de Markov partiellement observables décentralisés (Dec-POMDPs), suggérant des avancées significatives dans les performances du MARL.

Nouveau Cadre Utilise l'Intrication Quantique pour la Coordination dans l'Apprentissage par Renforcement Multi-Agents

Une approche révolutionnaire dans l'apprentissage par renforcement multi-agents (MARL) exploite l'intrication quantique pour améliorer la coordination entre les agents sans communication directe. Cela marque le premier cadre permettant aux agents MARL de tirer parti de l'intrication quantique partagée pour développer des politiques corrélées plus efficaces que celles réalisables par le biais de l'aléa partagé traditionnel.

Les recherches indiquent que pour certains jeux coopératifs interdisant la communication, les stratégies utilisant l'intrication quantique partagée peuvent surpasser celles basées uniquement sur l'aléa partagé. Le cadre intègre une nouvelle paramétrisation de politique différentiable et une architecture conçue pour séparer les politiques conjointes en un coordinateur quantique et des acteurs locaux décentralisés.

Le nouveau cadre permet l'optimisation sur les mesures quantiques, permettant aux agents d'apprendre des stratégies qui réalisent un avantage quantique dans des jeux à tour unique. Les chercheurs ont démontré cette capacité en utilisant des oracles en boîte noire pour illustrer comment les agents peuvent apprendre des stratégies efficaces sans protocoles de communication préexistants.

Sujets connexes :

apprentissage par renforcement multi-agentsentrelacement quantiquecoordinationavantage quantiqueprocessus de décision de Markov partiellement observable décentralisé

📰 Source originale : https://arxiv.org/abs/2602.08965v1

Tous les droits et crédits appartiennent à l'éditeur original.

Partager cet article

Twitter Facebook LinkedIn WhatsApp Reddit