MedMO: Fundamentos y Comprensión del Modelo de Lenguaje Multimodal Grande para Imágenes Médicas

Imagen generada por Gemini AI
MedMO es un nuevo modelo de lenguaje multimodal diseñado específicamente para el ámbito médico, que busca superar las limitaciones de los modelos existentes. Este modelo utiliza un proceso de entrenamiento en múltiples etapas, que incluye preentrenamiento cruzado entre modalidades y aprendizaje por refuerzo, lo que se traduce en mejoras significativas en su rendimiento: un aumento del 13.7% en la capacidad de respuesta a preguntas visuales y notables avances en la precisión de generación de informes. MedMO demuestra sólidas capacidades de anclaje en diversas especialidades médicas. Se encuentran disponibles dos versiones del modelo, de 4B y 8B, en genmilab.github.io/MedMO-Page.
MedMO: Un Avance en Modelos de Lenguaje Multimodal de Gran Tamaño para Imágenes Médicas
Los investigadores han presentado MedMO, un modelo de fundación médica especializado diseñado para mejorar el uso de modelos de lenguaje multimodal de gran tamaño (MLLMs) en entornos de salud. MedMO aborda las limitaciones que obstaculizan la adopción de MLLMs en medicina, particularmente en la cobertura del dominio y el razonamiento fundamentado.
Metodología de Entrenamiento y Rendimiento
MedMO utiliza un enfoque de entrenamiento en múltiples etapas que incluye preentrenamiento cruzado, ajuste de instrucciones y aprendizaje por refuerzo. Como resultado, supera constantemente a los MLLMs médicos de código abierto existentes. En los benchmarks de respuesta a preguntas visuales, MedMO logró una mejora promedio de precisión del 13.7% sobre los modelos base y se desempeñó muy cerca, dentro del 1.9%, del modelo de última generación, Fleming-VL.
Aplicación Clínica y Capacidades de Fundamentación
MedMO demuestra avances significativos en la generación de informes médicos, con mejoras notables en precisión semántica y clínica. Sus capacidades de fundamentación muestran un aumento del 40.4% en las métricas de Intersección sobre Unión (IoU) en comparación con los modelos base, lo cual es esencial para la interpretación de imágenes médicas complejas.
Disponibilidad
MedMO está disponible en dos versiones, de 4 mil millones y 8 mil millones de parámetros. El proyecto se puede acceder en Página del Proyecto MedMO.
Temas relacionados:
📰 Fuente original: https://arxiv.org/abs/2602.06965v1
Todos los derechos y créditos pertenecen al editor original.