MedMO: Fundamentação e Compreensão de Modelos de Linguagem Multimodais de Grande Escala para Imagens Médicas

Imagem gerada por Gemini AI
O MedMO é um novo modelo de linguagem multimodal de grande escala, desenvolvido para o campo médico, que busca superar as limitações dos modelos existentes. Ele utiliza um processo de treinamento em múltiplas etapas, que inclui pré-treinamento cruzado e aprendizado por reforço, resultando em melhorias significativas de desempenho: um aumento de 13,7% na resposta a perguntas visuais e avanços notáveis na precisão da geração de relatórios. O MedMO demonstra fortes capacidades de ancoragem em diversas especialidades médicas. Estão disponíveis duas versões do modelo, 4B e 8B, em genmilab.github.io/MedMO-Page.
MedMO: Um Avanço em Modelos de Linguagem Grande Multimodal para Imagem Médica
Pesquisadores introduziram o MedMO, um modelo de fundação médica especializado projetado para melhorar o uso de modelos de linguagem grande multimodal (MLLMs) em ambientes de saúde. O MedMO aborda limitações que dificultam a adoção de MLLMs na medicina, particularmente em cobertura de domínio e raciocínio fundamentado.
Metodologia de Treinamento e Desempenho
O MedMO utiliza uma abordagem de treinamento em múltiplas etapas que inclui pré-treinamento cruzado, ajuste de instruções e aprendizado por reforço. Como resultado, ele supera consistentemente os MLLMs médicos de código aberto existentes. Em benchmarks de perguntas visuais, o MedMO alcançou uma melhoria média de 13,7% na precisão em relação aos modelos base e teve um desempenho muito próximo, dentro de 1,9%, do modelo de ponta, Fleming-VL.
Aplicação Clínica e Capacidades de Fundamento
O MedMO demonstra avanços significativos na geração de relatórios médicos, com melhorias notáveis em precisão semântica e clínica. Suas capacidades de fundamentação mostram um aumento de 40,4% nas métricas de Interseção sobre União (IoU) em comparação com modelos base, fundamentais para a interpretação de imagens médicas complexas.
Disponibilidade
O MedMO está disponível em duas versões, com 4 bilhões e 8 bilhões de parâmetros. O projeto pode ser acessado na Página do Projeto MedMO.
Tópicos relacionados:
📰 Fonte original: https://arxiv.org/abs/2602.06965v1
Todos os direitos e créditos pertencem ao editor original.