MedMO: Fundamentação e Compreensão de Modelos de Linguagem Multimodais de Grande Escala para Imagens Médicas

•

Autor original:Ankan Deria et al.

•

6 de fevereiro de 2026

MedMO: Fundamentação e Compreensão de Modelos de Linguagem Multimodais de Grande Escala para Imagens Médicas

Imagem gerada por Gemini AI

O MedMO é um novo modelo de linguagem multimodal de grande escala, desenvolvido para o campo médico, que busca superar as limitações dos modelos existentes. Ele utiliza um processo de treinamento em múltiplas etapas, que inclui pré-treinamento cruzado e aprendizado por reforço, resultando em melhorias significativas de desempenho: um aumento de 13,7% na resposta a perguntas visuais e avanços notáveis na precisão da geração de relatórios. O MedMO demonstra fortes capacidades de ancoragem em diversas especialidades médicas. Estão disponíveis duas versões do modelo, 4B e 8B, em genmilab.github.io/MedMO-Page.

MedMO: Um Avanço em Modelos de Linguagem Grande Multimodal para Imagem Médica

Pesquisadores introduziram o MedMO, um modelo de fundação médica especializado projetado para melhorar o uso de modelos de linguagem grande multimodal (MLLMs) em ambientes de saúde. O MedMO aborda limitações que dificultam a adoção de MLLMs na medicina, particularmente em cobertura de domínio e raciocínio fundamentado.

Metodologia de Treinamento e Desempenho

O MedMO utiliza uma abordagem de treinamento em múltiplas etapas que inclui pré-treinamento cruzado, ajuste de instruções e aprendizado por reforço. Como resultado, ele supera consistentemente os MLLMs médicos de código aberto existentes. Em benchmarks de perguntas visuais, o MedMO alcançou uma melhoria média de 13,7% na precisão em relação aos modelos base e teve um desempenho muito próximo, dentro de 1,9%, do modelo de ponta, Fleming-VL.

Aplicação Clínica e Capacidades de Fundamento

O MedMO demonstra avanços significativos na geração de relatórios médicos, com melhorias notáveis em precisão semântica e clínica. Suas capacidades de fundamentação mostram um aumento de 40,4% nas métricas de Interseção sobre União (IoU) em comparação com modelos base, fundamentais para a interpretação de imagens médicas complexas.

Disponibilidade

O MedMO está disponível em duas versões, com 4 bilhões e 8 bilhões de parâmetros. O projeto pode ser acessado na Página do Projeto MedMO.

Tópicos relacionados:

MedMOmodelos de linguagem multimodalimagens médicastreinamento em múltiplas etapasraciocínio espacial

📰 Fonte original: https://arxiv.org/abs/2602.06965v1

Todos os direitos e créditos pertencem ao editor original.

Compartilhar este artigo

Twitter Facebook LinkedIn WhatsApp Reddit