MedMO: Основы и понимание многомодальной языковой модели для медицинских изображений

Изображение создано Gemini AI
MedMO — это новая многомодальная языковая модель, разработанная для медицинской сферы, которая устраняет ограничения существующих моделей. Она использует многоступенчатый процесс обучения, включая кросс-модальное предварительное обучение и обучение с подкреплением, что приводит к значительным улучшениям в производительности: +13,7% в задаче визуального вопросно-ответного взаимодействия и заметные приросты в точности генерации отчетов. MedMO демонстрирует сильные способности к привязке информации в различных медицинских специальностях. Доступны две версии модели — 4B и 8B, которые можно найти на сайте genmilab.github.io/MedMO-Page.
MedMO: Прорыв в многомодальных больших языковых моделях для медицинской визуализации
Исследователи представили MedMO, специализированную медицинскую базовую модель, разработанную для улучшения использования многомодальных больших языковых моделей (MLLM) в сфере здравоохранения. MedMO решает ограничения, мешающие внедрению MLLM в медицину, особенно в области охвата и обоснованного рассуждения.
Методология обучения и производительность
MedMO использует многоступенчатый подход к обучению, который включает кросс-модальное предварительное обучение, настройку на инструкции и обучение с подкреплением. В результате она последовательно превосходит существующие открытые медицинские MLLM. В тестах на визуальное ответствование MedMO достигла среднего улучшения точности на 13,7% по сравнению с базовыми моделями и показала результаты, близкие к 1,9% от модели передового уровня, Fleming-VL.
Клиническое применение и возможности обоснования
MedMO демонстрирует значительные достижения в генерации медицинских отчетов, с заметными улучшениями в семантической и клинической точности. Ее возможности обоснования показывают увеличение метрик Intersection over Union (IoU) на 40,4% по сравнению с базовыми моделями, что крайне важно для интерпретации сложных медицинских изображений.
Доступность
MedMO доступна в двух версиях: с 4 миллиардами и 8 миллиардами параметров. Проект можно найти на странице Проекта MedMO.
Связанные темы:
📰 Первоисточник: https://arxiv.org/abs/2602.06965v1
Все права и авторство принадлежат первоначальному издателю.