MedMO: Fondamenti e Comprensione del Modello di Linguaggio Multimodale per Immagini Mediche

•

Autore originale:Ankan Deria et al.

•

6 febbraio 2026

MedMO: Fondamenti e Comprensione del Modello di Linguaggio Multimodale per Immagini Mediche

Immagine generata da Gemini AI

MedMO è un nuovo modello di linguaggio multimodale di grandi dimensioni progettato per il settore medico, pensato per superare le limitazioni dei modelli esistenti. Utilizza un processo di formazione a più fasi, che include il preaddestramento cross-modale e l'apprendimento per rinforzo, portando a significativi miglioramenti delle prestazioni: +13,7% nelle risposte a domande visive e notevoli guadagni in termini di accuratezza nella generazione di report. MedMO dimostra forti capacità di ancoraggio in diverse specialità mediche. Sono disponibili due versioni del modello, 4B e 8B, su genmilab.github.io/MedMO-Page.

MedMO: Una Rivelazione nei Modelli Linguistici Multimodali di Grandi Dimensioni per l’Imaging Medico

I ricercatori hanno introdotto MedMO, un modello fondazionale medico specializzato progettato per migliorare l'uso dei modelli linguistici multimodali di grandi dimensioni (MLLM) negli ambienti sanitari. MedMO affronta le limitazioni che ostacolano l'adozione degli MLLM in medicina, in particolare per quanto riguarda la copertura del dominio e il ragionamento ancorato.

Metodologia di Addestramento e Prestazioni

MedMO utilizza un approccio di addestramento multi-fase che include pre-addestramento cross-modale, messa a punto delle istruzioni e apprendimento per rinforzo. Di conseguenza, supera costantemente gli attuali MLLM medici open-source. Nei benchmark di risposta a domande visive, MedMO ha raggiunto un miglioramento medio di precisione del 13,7% rispetto ai modelli di base e ha ottenuto risultati molto vicini, con una differenza dell'1,9%, rispetto al modello all'avanguardia, Fleming-VL.

Applicazione Clinica e Capacità di Ancoraggio

MedMO dimostra significativi progressi nella generazione di report medici, con notevoli miglioramenti nella precisione semantica e clinica. Le sue capacità di ancoraggio mostrano un aumento del 40,4% nelle metriche di Intersection over Union (IoU) rispetto ai modelli di base, essenziali per l'interpretazione di immagini mediche complesse.

Disponibilità

MedMO è disponibile in due versioni, da 4 miliardi e 8 miliardi di parametri. Il progetto può essere consultato su Pagina del Progetto MedMO.

Argomenti correlati:

MedMOmodelli di linguaggio multimodalipre-addestramento cross-modaleragionamento spazialegenerazione di report medici

📰 Fonte originale: https://arxiv.org/abs/2602.06965v1

Tutti i diritti e i crediti appartengono all'editore originale.

Condividi questo articolo

Twitter Facebook LinkedIn WhatsApp Reddit