MedMO : Ancrage et compréhension des modèles de langage multimodaux de grande taille pour les images médicales

Image générée par Gemini AI
MedMO est un nouveau modèle de langage multimodal conçu spécifiquement pour le domaine médical, visant à surmonter les limites des modèles existants. Il utilise un processus de formation en plusieurs étapes, incluant un pré-entraînement cross-modal et un apprentissage par renforcement, ce qui se traduit par des améliorations significatives des performances : +13,7 % dans le domaine des questions visuelles et des gains notables en précision de génération de rapports. MedMO démontre de solides capacités d'ancrage dans diverses spécialités médicales. Deux versions du modèle, 4B et 8B, sont disponibles sur genmilab.github.io/MedMO-Page.
MedMO : Une avancée dans les modèles de langage multimodaux de grande taille pour l'imagerie médicale
Des chercheurs ont présenté MedMO, un modèle fondamental médical spécialisé conçu pour améliorer l'utilisation des modèles de langage multimodaux de grande taille (MLLMs) dans les environnements de soins de santé. MedMO répond aux limitations qui freinent l'adoption des MLLMs en médecine, notamment en matière de couverture des domaines et de raisonnement fondé.
Méthodologie d'entraînement et performance
MedMO utilise une approche d'entraînement en plusieurs étapes qui inclut un pré-entraînement croisé, un réglage par instruction et un apprentissage par renforcement. En conséquence, il surpasse systématiquement les MLLMs médicaux open-source existants. Dans les benchmarks de réponse à des questions visuelles, MedMO a atteint une amélioration de précision moyenne de 13,7 % par rapport aux modèles de référence et a performé à moins de 1,9 % du modèle à la pointe de la technologie, Fleming-VL.
Application clinique et capacités de fondation
MedMO démontre des avancées significatives dans la génération de rapports médicaux, avec des améliorations notables en matière de précision sémantique et clinique. Ses capacités de fondation montrent une augmentation de 40,4 % des métriques d'Intersection over Union (IoU) par rapport aux modèles de référence, ce qui est essentiel pour l'interprétation d'images médicales complexes.
Disponibilité
MedMO est disponible en deux versions, 4 milliards et 8 milliards de paramètres. Le projet peut être consulté sur la page du projet MedMO.
Sujets connexes :
📰 Source originale : https://arxiv.org/abs/2602.06965v1
Tous les droits et crédits appartiennent à l'éditeur original.