MedMO：为医学图像奠定基础并理解多模态大语言模型

•

原作者:Ankan Deria et al.

•

2026年2月6日

Gemini AI生成的图像

MedMO是一款专为医疗领域设计的新型多模态大型语言模型，旨在克服现有模型的局限性。该模型采用多阶段训练流程，包括跨模态预训练和强化学习，从而实现显著的性能提升：视觉问答准确率提高了13.7%，报告生成的准确性也有显著提高。MedMO在多个医学专业领域表现出强大的基础能力。目前，模型提供了4B和8B两个版本，用户可以在genmilab.github.io/MedMO-Page获取相关信息。

MedMO：医疗影像多模态大型语言模型的突破

研究人员推出了MedMO，这是一种专门的医疗基础模型，旨在增强多模态大型语言模型（MLLMs）在医疗环境中的应用。MedMO解决了阻碍MLLMs在医学中采用的局限性，特别是在领域覆盖和基础推理方面。

训练方法与性能

MedMO采用多阶段训练方法，包括跨模态预训练、指令调优和强化学习。因此，它在性能上始终优于现有的开源医疗MLLMs。在视觉问答基准测试中，MedMO相较于基线模型实现了平均准确率提高13.7%，并且与最先进的模型Fleming-VL的表现相差不超过1.9%。

临床应用与基础能力

MedMO在医疗报告生成方面展示了显著的进步，在语义和临床准确性方面都有显著改善。其基础能力在Intersection over Union（IoU）指标上相比基线模型提高了40.4%，这对解读复杂医疗影像至关重要。

可用性

MedMO提供了两个版本，分别为40亿和80亿参数。该项目可以在MedMO项目页面访问。

分享此文章

Twitter Facebook LinkedIn WhatsApp Reddit

MedMO：为医学图像奠定基础并理解多模态大语言模型

MedMO：医疗影像多模态大型语言模型的突破

训练方法与性能

临床应用与基础能力

可用性

相关主题：

分享此文章