MedMO : Ancrage et compréhension des modèles de langage multimodaux de grande taille pour les images médicales

•

Auteur original:Ankan Deria et al.

•

6 février 2026

MedMO : Ancrage et compréhension des modèles de langage multimodaux de grande taille pour les images médicales

Image générée par Gemini AI

MedMO est un nouveau modèle de langage multimodal conçu spécifiquement pour le domaine médical, visant à surmonter les limites des modèles existants. Il utilise un processus de formation en plusieurs étapes, incluant un pré-entraînement cross-modal et un apprentissage par renforcement, ce qui se traduit par des améliorations significatives des performances : +13,7 % dans le domaine des questions visuelles et des gains notables en précision de génération de rapports. MedMO démontre de solides capacités d'ancrage dans diverses spécialités médicales. Deux versions du modèle, 4B et 8B, sont disponibles sur genmilab.github.io/MedMO-Page.

MedMO : Une avancée dans les modèles de langage multimodaux de grande taille pour l'imagerie médicale

Des chercheurs ont présenté MedMO, un modèle fondamental médical spécialisé conçu pour améliorer l'utilisation des modèles de langage multimodaux de grande taille (MLLMs) dans les environnements de soins de santé. MedMO répond aux limitations qui freinent l'adoption des MLLMs en médecine, notamment en matière de couverture des domaines et de raisonnement fondé.

Méthodologie d'entraînement et performance

MedMO utilise une approche d'entraînement en plusieurs étapes qui inclut un pré-entraînement croisé, un réglage par instruction et un apprentissage par renforcement. En conséquence, il surpasse systématiquement les MLLMs médicaux open-source existants. Dans les benchmarks de réponse à des questions visuelles, MedMO a atteint une amélioration de précision moyenne de 13,7 % par rapport aux modèles de référence et a performé à moins de 1,9 % du modèle à la pointe de la technologie, Fleming-VL.

Application clinique et capacités de fondation

MedMO démontre des avancées significatives dans la génération de rapports médicaux, avec des améliorations notables en matière de précision sémantique et clinique. Ses capacités de fondation montrent une augmentation de 40,4 % des métriques d'Intersection over Union (IoU) par rapport aux modèles de référence, ce qui est essentiel pour l'interprétation d'images médicales complexes.

Disponibilité

MedMO est disponible en deux versions, 4 milliards et 8 milliards de paramètres. Le projet peut être consulté sur la page du projet MedMO.

Sujets connexes :

MedMOmodèles de langage multimodauxalignement des modalitésraisonnement ancréapprentissage par renforcement

📰 Source originale : https://arxiv.org/abs/2602.06965v1

Tous les droits et crédits appartiennent à l'éditeur original.

Partager cet article

Twitter Facebook LinkedIn WhatsApp Reddit