LightOnOCR: Un modello multilingue end-to-end da 1 miliardo per OCR all'avanguardia

Immagine generata da Gemini AI
LightOn ha lanciato LightOnOCR-2-1B, un modello multilingue con 1 miliardo di parametri che trasforma le immagini di documenti in testo organizzato senza ricorrere alla tradizionale OCR. Questo modello si distingue per la sua precisione su OlmOCR-Bench, risultando al contempo 9 volte più piccolo e veloce rispetto ai suoi predecessori. È in grado di prevedere le bounding box per le immagini e utilizza strategie di addestramento innovative. I checkpoint e i dataset sono disponibili sotto licenza Apache 2.0, migliorando l'accessibilità per ulteriori ricerche.
LightOnOCR-2-1B: Una Rivelazione nella Tecnologia OCR Multilingue
LightOn ha presentato il LightOnOCR-2-1B, un modello visione-linguaggio multilingue progettato per trasformare le immagini di documenti in testo strutturato con straordinaria efficienza. Questo modello, composto da 1 miliardo di parametri, promette di superare i tradizionali sistemi di Riconoscimento Ottico dei Caratteri (OCR).
LightOnOCR-2 ha dimostrato prestazioni all'avanguardia nel benchmark OlmOCR-Bench ed è 9 volte più piccolo e significativamente più veloce dei suoi predecessori.
Caratteristiche Chiave
- Predizione delle Bounding Box Normalizzate: Predice bounding box normalizzate per immagini incorporate, migliorando l'utilità per layout complessi.
- Apprendimento per Rinforzo con Ricompense: Affina le prestazioni attraverso ricompense basate sull'IoU, garantendo un'estrazione del testo più accurata.
LightOn ha rilasciato i checkpoint del modello sotto la licenza Apache 2.0, insieme al dataset associato e alla nuova valutazione LightOnOCR-bbox-bench. Questo posiziona LightOnOCR-2-1B come un avanzamento significativo per applicazioni che richiedono un'estrazione rapida e accurata del testo da immagini di documenti multilingue.
Argomenti correlati:
📰 Fonte originale: https://arxiv.org/abs/2601.14251v1
Tutti i diritti e i crediti appartengono all'editore originale.