LightOnOCR: Um Modelo Multilíngue de Visão-Linguagem de 1 Bilhão de Parâmetros para OCR de Última Geração

Imagem gerada por Gemini AI
A LightOn lançou o modelo LightOnOCR-2-1B, um modelo multilíngue com 1 bilhão de parâmetros que converte imagens de documentos em texto organizado, sem a necessidade de OCR tradicional. Ele se destaca em precisão no OlmOCR-Bench, sendo 9 vezes menor e mais rápido do que seus antecessores. O modelo prevê caixas delimitadoras para as imagens e utiliza estratégias de treinamento inovadoras. Os checkpoints e conjuntos de dados estão disponíveis sob a licença Apache 2.0, o que facilita o acesso para pesquisas adicionais.
LightOnOCR-2-1B: Uma Revolução na Tecnologia de OCR Multilíngue
A LightOn apresentou o LightOnOCR-2-1B, um modelo de linguagem-visual multilíngue projetado para transformar imagens de documentos em texto estruturado com notável eficiência. Este modelo, composto por 1 bilhão de parâmetros, promete superar os sistemas tradicionais de Reconhecimento Óptico de Caracteres (OCR).
O LightOnOCR-2 demonstrou desempenho de ponta no benchmark OlmOCR-Bench e é 9 vezes menor e significativamente mais rápido do que seus predecessores.
Principais Recursos
- Predição Normalizada de Caixas Delimitadoras: Prediz caixas delimitadoras normalizadas para imagens incorporadas, melhorando a utilidade para layouts complexos.
- Aprendizado por Reforço com Recompensas: Refina o desempenho por meio de recompensas baseadas em IoU, garantindo uma extração de texto mais precisa.
A LightOn liberou os pontos de verificação do modelo sob a licença Apache 2.0, juntamente com o conjunto de dados correspondente e a nova avaliação LightOnOCR-bbox-bench. Isso posiciona o LightOnOCR-2-1B como um avanço significativo para aplicações que exigem extração rápida e precisa de texto de imagens de documentos multilíngues.
Tópicos relacionados:
📰 Fonte original: https://arxiv.org/abs/2601.14251v1
Todos os direitos e créditos pertencem ao editor original.