MedMO: Основы и понимание многомодальной языковой модели для медицинских изображений

•

Оригинальный автор:Ankan Deria et al.

•

6 февраля 2026 г.

MedMO: Основы и понимание многомодальной языковой модели для медицинских изображений

Изображение создано Gemini AI

MedMO — это новая многомодальная языковая модель, разработанная для медицинской сферы, которая устраняет ограничения существующих моделей. Она использует многоступенчатый процесс обучения, включая кросс-модальное предварительное обучение и обучение с подкреплением, что приводит к значительным улучшениям в производительности: +13,7% в задаче визуального вопросно-ответного взаимодействия и заметные приросты в точности генерации отчетов. MedMO демонстрирует сильные способности к привязке информации в различных медицинских специальностях. Доступны две версии модели — 4B и 8B, которые можно найти на сайте genmilab.github.io/MedMO-Page.

MedMO: Прорыв в многомодальных больших языковых моделях для медицинской визуализации

Исследователи представили MedMO, специализированную медицинскую базовую модель, разработанную для улучшения использования многомодальных больших языковых моделей (MLLM) в сфере здравоохранения. MedMO решает ограничения, мешающие внедрению MLLM в медицину, особенно в области охвата и обоснованного рассуждения.

Методология обучения и производительность

MedMO использует многоступенчатый подход к обучению, который включает кросс-модальное предварительное обучение, настройку на инструкции и обучение с подкреплением. В результате она последовательно превосходит существующие открытые медицинские MLLM. В тестах на визуальное ответствование MedMO достигла среднего улучшения точности на 13,7% по сравнению с базовыми моделями и показала результаты, близкие к 1,9% от модели передового уровня, Fleming-VL.

Клиническое применение и возможности обоснования

MedMO демонстрирует значительные достижения в генерации медицинских отчетов, с заметными улучшениями в семантической и клинической точности. Ее возможности обоснования показывают увеличение метрик Intersection over Union (IoU) на 40,4% по сравнению с базовыми моделями, что крайне важно для интерпретации сложных медицинских изображений.

Доступность

MedMO доступна в двух версиях: с 4 миллиардами и 8 миллиардами параметров. Проект можно найти на странице Проекта MedMO.

Связанные темы:

MedMOмногомодальные большие языковые моделимедицинские изображенияпространственное обоснованиетесты VQA

📰 Первоисточник: https://arxiv.org/abs/2602.06965v1

Все права и авторство принадлежат первоначальному издателю.

Поделиться статьей

Twitter Facebook LinkedIn WhatsApp Reddit