MedMO: Fundamentos y Comprensión del Modelo de Lenguaje Multimodal Grande para Imágenes Médicas

•

Autor original:Ankan Deria et al.

•

6 de febrero de 2026

MedMO: Fundamentos y Comprensión del Modelo de Lenguaje Multimodal Grande para Imágenes Médicas

Imagen generada por Gemini AI

MedMO es un nuevo modelo de lenguaje multimodal diseñado específicamente para el ámbito médico, que busca superar las limitaciones de los modelos existentes. Este modelo utiliza un proceso de entrenamiento en múltiples etapas, que incluye preentrenamiento cruzado entre modalidades y aprendizaje por refuerzo, lo que se traduce en mejoras significativas en su rendimiento: un aumento del 13.7% en la capacidad de respuesta a preguntas visuales y notables avances en la precisión de generación de informes. MedMO demuestra sólidas capacidades de anclaje en diversas especialidades médicas. Se encuentran disponibles dos versiones del modelo, de 4B y 8B, en genmilab.github.io/MedMO-Page.

MedMO: Un Avance en Modelos de Lenguaje Multimodal de Gran Tamaño para Imágenes Médicas

Los investigadores han presentado MedMO, un modelo de fundación médica especializado diseñado para mejorar el uso de modelos de lenguaje multimodal de gran tamaño (MLLMs) en entornos de salud. MedMO aborda las limitaciones que obstaculizan la adopción de MLLMs en medicina, particularmente en la cobertura del dominio y el razonamiento fundamentado.

Metodología de Entrenamiento y Rendimiento

MedMO utiliza un enfoque de entrenamiento en múltiples etapas que incluye preentrenamiento cruzado, ajuste de instrucciones y aprendizaje por refuerzo. Como resultado, supera constantemente a los MLLMs médicos de código abierto existentes. En los benchmarks de respuesta a preguntas visuales, MedMO logró una mejora promedio de precisión del 13.7% sobre los modelos base y se desempeñó muy cerca, dentro del 1.9%, del modelo de última generación, Fleming-VL.

Aplicación Clínica y Capacidades de Fundamentación

MedMO demuestra avances significativos en la generación de informes médicos, con mejoras notables en precisión semántica y clínica. Sus capacidades de fundamentación muestran un aumento del 40.4% en las métricas de Intersección sobre Unión (IoU) en comparación con los modelos base, lo cual es esencial para la interpretación de imágenes médicas complejas.

Disponibilidad

MedMO está disponible en dos versiones, de 4 mil millones y 8 mil millones de parámetros. El proyecto se puede acceder en Página del Proyecto MedMO.

Temas relacionados:

MedMOmodelo de lenguaje multimodalimágenes médicasprecisión semánticaaprendizaje por refuerzo

📰 Fuente original: https://arxiv.org/abs/2602.06965v1

Todos los derechos y créditos pertenecen al editor original.

Compartir este artículo

Twitter Facebook LinkedIn WhatsApp Reddit