LightOnOCR: Um Modelo Multilíngue de Visão-Linguagem de 1 Bilhão de Parâmetros para OCR de Última Geração

•

Autor original:Said Taghadouini et al.

•

20 de janeiro de 2026

LightOnOCR: Um Modelo Multilíngue de Visão-Linguagem de 1 Bilhão de Parâmetros para OCR de Última Geração

Imagem gerada por Gemini AI

A LightOn lançou o modelo LightOnOCR-2-1B, um modelo multilíngue com 1 bilhão de parâmetros que converte imagens de documentos em texto organizado, sem a necessidade de OCR tradicional. Ele se destaca em precisão no OlmOCR-Bench, sendo 9 vezes menor e mais rápido do que seus antecessores. O modelo prevê caixas delimitadoras para as imagens e utiliza estratégias de treinamento inovadoras. Os checkpoints e conjuntos de dados estão disponíveis sob a licença Apache 2.0, o que facilita o acesso para pesquisas adicionais.

LightOnOCR-2-1B: Uma Revolução na Tecnologia de OCR Multilíngue

A LightOn apresentou o LightOnOCR-2-1B, um modelo de linguagem-visual multilíngue projetado para transformar imagens de documentos em texto estruturado com notável eficiência. Este modelo, composto por 1 bilhão de parâmetros, promete superar os sistemas tradicionais de Reconhecimento Óptico de Caracteres (OCR).

O LightOnOCR-2 demonstrou desempenho de ponta no benchmark OlmOCR-Bench e é 9 vezes menor e significativamente mais rápido do que seus predecessores.

Principais Recursos

Predição Normalizada de Caixas Delimitadoras: Prediz caixas delimitadoras normalizadas para imagens incorporadas, melhorando a utilidade para layouts complexos.
Aprendizado por Reforço com Recompensas: Refina o desempenho por meio de recompensas baseadas em IoU, garantindo uma extração de texto mais precisa.

A LightOn liberou os pontos de verificação do modelo sob a licença Apache 2.0, juntamente com o conjunto de dados correspondente e a nova avaliação LightOnOCR-bbox-bench. Isso posiciona o LightOnOCR-2-1B como um avanço significativo para aplicações que exigem extração rápida e precisa de texto de imagens de documentos multilíngues.

Tópicos relacionados:

LightOnOCRmodelo multilíngueOCR1 bilhão de parâmetrosOlmOCR-Bench

📰 Fonte original: https://arxiv.org/abs/2601.14251v1

Todos os direitos e créditos pertencem ao editor original.

Compartilhar este artigo

Twitter Facebook LinkedIn WhatsApp Reddit