MedMO: Verankerung und Verständnis eines multimodalen großen Sprachmodells für medizinische Bilder

•

Originalautor:Ankan Deria et al.

•

6. Februar 2026

MedMO: Verankerung und Verständnis eines multimodalen großen Sprachmodells für medizinische Bilder

Von Gemini AI generiertes Bild

MedMO ist ein neuartiges multimodales großes Sprachmodell, das speziell für den medizinischen Bereich entwickelt wurde und bestehende Einschränkungen anderer Modelle überwindet. Es nutzt einen mehrstufigen Trainingsprozess, der eine crossmodale Vorabbildung und Verstärkungslernen umfasst, was zu erheblichen Leistungssteigerungen führt: +13,7 % bei der visuellen Fragenbeantwortung und bemerkenswerte Fortschritte in der Genauigkeit der Berichtserstellung. MedMO zeigt starke Fähigkeiten in der Verknüpfung mit verschiedenen medizinischen Fachrichtungen. Zwei Modellversionen, 4B und 8B, sind auf genmilab.github.io/MedMO-Page verfügbar.

MedMO: Ein Durchbruch bei multimodalen großen Sprachmodellen für medizinische Bildgebung

Forscher haben MedMO vorgestellt, ein spezialisiertes medizinisches Grundmodell, das entwickelt wurde, um den Einsatz von multimodalen großen Sprachmodellen (MLLMs) in der Gesundheitsversorgung zu verbessern. MedMO adressiert Einschränkungen, die die Einführung von MLLMs in der Medizin behindern, insbesondere in Bezug auf die Abdeckung von Fachgebieten und fundiertes Denken.

Trainingsmethodik und Leistung

MedMO verwendet einen mehrstufigen Trainingsansatz, der cross-modale Vorabtrainierung, Anweisungsanpassung und verstärkendes Lernen umfasst. Infolgedessen übertrifft es konsequent bestehende Open-Source-Medizin-MLLMs. In Benchmarks für visuelle Fragenbeantwortung erzielte MedMO eine durchschnittliche Genauigkeitssteigerung von 13,7 % im Vergleich zu Basismodellen und lag mit 1,9 % nahe am Stand der Technik Modell, Fleming-VL.

Klinische Anwendung und Grundungsfähigkeiten

MedMO zeigt signifikante Fortschritte bei der Erstellung medizinischer Berichte, mit bemerkenswerten Verbesserungen in semantischer und klinischer Genauigkeit. Seine Grundungsfähigkeiten zeigen einen Anstieg von 40,4 % bei den Intersection over Union (IoU)-Metriken im Vergleich zu Basismodellen, was entscheidend für die Interpretation komplexer medizinischer Bilder ist.

Verfügbarkeit

MedMO ist in zwei Versionen verfügbar, mit 4 Milliarden und 8 Milliarden Parametern. Das Projekt kann unter MedMO Projektseite aufgerufen werden.

Artikel teilen

Twitter Facebook LinkedIn WhatsApp Reddit