MedMO: Verankerung und Verständnis eines multimodalen großen Sprachmodells für medizinische Bilder

Von Gemini AI generiertes Bild
MedMO ist ein neuartiges multimodales großes Sprachmodell, das speziell für den medizinischen Bereich entwickelt wurde und bestehende Einschränkungen anderer Modelle überwindet. Es nutzt einen mehrstufigen Trainingsprozess, der eine crossmodale Vorabbildung und Verstärkungslernen umfasst, was zu erheblichen Leistungssteigerungen führt: +13,7 % bei der visuellen Fragenbeantwortung und bemerkenswerte Fortschritte in der Genauigkeit der Berichtserstellung. MedMO zeigt starke Fähigkeiten in der Verknüpfung mit verschiedenen medizinischen Fachrichtungen. Zwei Modellversionen, 4B und 8B, sind auf genmilab.github.io/MedMO-Page verfügbar.
MedMO: Ein Durchbruch bei multimodalen großen Sprachmodellen für medizinische Bildgebung
Forscher haben MedMO vorgestellt, ein spezialisiertes medizinisches Grundmodell, das entwickelt wurde, um den Einsatz von multimodalen großen Sprachmodellen (MLLMs) in der Gesundheitsversorgung zu verbessern. MedMO adressiert Einschränkungen, die die Einführung von MLLMs in der Medizin behindern, insbesondere in Bezug auf die Abdeckung von Fachgebieten und fundiertes Denken.
Trainingsmethodik und Leistung
MedMO verwendet einen mehrstufigen Trainingsansatz, der cross-modale Vorabtrainierung, Anweisungsanpassung und verstärkendes Lernen umfasst. Infolgedessen übertrifft es konsequent bestehende Open-Source-Medizin-MLLMs. In Benchmarks für visuelle Fragenbeantwortung erzielte MedMO eine durchschnittliche Genauigkeitssteigerung von 13,7 % im Vergleich zu Basismodellen und lag mit 1,9 % nahe am Stand der Technik Modell, Fleming-VL.
Klinische Anwendung und Grundungsfähigkeiten
MedMO zeigt signifikante Fortschritte bei der Erstellung medizinischer Berichte, mit bemerkenswerten Verbesserungen in semantischer und klinischer Genauigkeit. Seine Grundungsfähigkeiten zeigen einen Anstieg von 40,4 % bei den Intersection over Union (IoU)-Metriken im Vergleich zu Basismodellen, was entscheidend für die Interpretation komplexer medizinischer Bilder ist.
Verfügbarkeit
MedMO ist in zwei Versionen verfügbar, mit 4 Milliarden und 8 Milliarden Parametern. Das Projekt kann unter MedMO Projektseite aufgerufen werden.
Verwandte Themen:
📰 Originalquelle: https://arxiv.org/abs/2602.06965v1
Alle Rechte und Urheberrechte liegen beim ursprünglichen Herausgeber.