AI
Notizie IA

LightOnOCR: Un modello multilingue end-to-end da 1 miliardo per OCR all'avanguardia

Source:arXiv
Autore originale:Said Taghadouini et al.
LightOnOCR: Un modello multilingue end-to-end da 1 miliardo per OCR all'avanguardia

Immagine generata da Gemini AI

LightOn ha lanciato LightOnOCR-2-1B, un modello multilingue con 1 miliardo di parametri che trasforma le immagini di documenti in testo organizzato senza ricorrere alla tradizionale OCR. Questo modello si distingue per la sua precisione su OlmOCR-Bench, risultando al contempo 9 volte più piccolo e veloce rispetto ai suoi predecessori. È in grado di prevedere le bounding box per le immagini e utilizza strategie di addestramento innovative. I checkpoint e i dataset sono disponibili sotto licenza Apache 2.0, migliorando l'accessibilità per ulteriori ricerche.

LightOnOCR-2-1B: Una Rivelazione nella Tecnologia OCR Multilingue

LightOn ha presentato il LightOnOCR-2-1B, un modello visione-linguaggio multilingue progettato per trasformare le immagini di documenti in testo strutturato con straordinaria efficienza. Questo modello, composto da 1 miliardo di parametri, promette di superare i tradizionali sistemi di Riconoscimento Ottico dei Caratteri (OCR).

LightOnOCR-2 ha dimostrato prestazioni all'avanguardia nel benchmark OlmOCR-Bench ed è 9 volte più piccolo e significativamente più veloce dei suoi predecessori.

Caratteristiche Chiave

  • Predizione delle Bounding Box Normalizzate: Predice bounding box normalizzate per immagini incorporate, migliorando l'utilità per layout complessi.
  • Apprendimento per Rinforzo con Ricompense: Affina le prestazioni attraverso ricompense basate sull'IoU, garantendo un'estrazione del testo più accurata.

LightOn ha rilasciato i checkpoint del modello sotto la licenza Apache 2.0, insieme al dataset associato e alla nuova valutazione LightOnOCR-bbox-bench. Questo posiziona LightOnOCR-2-1B come un avanzamento significativo per applicazioni che richiedono un'estrazione rapida e accurata del testo da immagini di documenti multilingue.

Argomenti correlati:

LightOnOCRmodello multilingueparametriOCR all'avanguardiabenchmark OlmOCR-Bench

📰 Fonte originale: https://arxiv.org/abs/2601.14251v1

Tutti i diritti e i crediti appartengono all'editore originale.

Condividi questo articolo