LightOnOCR : Un modèle multilingue vision-langage de 1 milliard de paramètres pour un OCR de pointe

•

Auteur original:Said Taghadouini et al.

•

20 janvier 2026

LightOnOCR : Un modèle multilingue vision-langage de 1 milliard de paramètres pour un OCR de pointe

Image générée par Gemini AI

LightOn a lancé le modèle LightOnOCR-2-1B, un modèle multilingue de 1 milliard de paramètres qui convertit les images de documents en texte structuré sans recourir à l'OCR traditionnel. Il se distingue par sa précision sur OlmOCR-Bench, tout en étant neuf fois plus petit et rapide que ses prédécesseurs. Ce modèle prédit les boîtes englobantes pour les images et utilise des stratégies de formation innovantes. Les points de contrôle et les ensembles de données sont disponibles sous la licence Apache 2.0, ce qui facilite l'accès pour des recherches supplémentaires.

LightOnOCR-2-1B : Une avancée dans la technologie OCR multilingue

LightOn a dévoilé le LightOnOCR-2-1B, un modèle de vision-langage multilingue conçu pour transformer les images de documents en texte structuré avec une efficacité remarquable. Ce modèle, comprenant 1 milliard de paramètres, promet de surpasser les systèmes traditionnels de Reconnaissance Optique de Caractères (OCR).

LightOnOCR-2 a démontré des performances de pointe sur le benchmark OlmOCR-Bench et est 9 fois plus petit et significativement plus rapide que ses prédécesseurs.

Caractéristiques Clés

Prédiction de Boîte Englobante Normalisée : Prédit des boîtes englobantes normalisées pour les images intégrées, améliorant l'utilité pour les mises en page complexes.
Apprentissage par Renforcement avec Récompenses : Affine les performances grâce à des récompenses basées sur l'IoU, garantissant une extraction de texte plus précise.

LightOn a publié les points de contrôle du modèle sous la licence Apache 2.0, ainsi que l'ensemble de données associé et la nouvelle évaluation LightOnOCR-bbox-bench. Cela positionne LightOnOCR-2-1B comme une avancée significative pour les applications nécessitant une extraction rapide et précise de texte à partir d'images de documents multilingues.

Sujets connexes :

LightOnOCRmodèle de vision-langage1 milliard de paramètresOCR de pointelocalisation durant le préentraînement

📰 Source originale : https://arxiv.org/abs/2601.14251v1

Tous les droits et crédits appartiennent à l'éditeur original.

Partager cet article

Twitter Facebook LinkedIn WhatsApp Reddit