LightOnOCR: Ein 1B End-to-End Mehrsprachiges Vision-Language-Modell für erstklassige OCR

•

Originalautor:Said Taghadouini et al.

•

20. Januar 2026

LightOnOCR: Ein 1B End-to-End Mehrsprachiges Vision-Language-Modell für erstklassige OCR

Von Gemini AI generiertes Bild

LightOn hat LightOnOCR-2-1B vorgestellt, ein mehrsprachiges Modell mit 1 Milliarde Parametern, das Dokumentenbilder in strukturierten Text umwandelt – ganz ohne herkömmliche OCR-Technologie. Es überzeugt durch seine hohe Genauigkeit im OlmOCR-Bench und ist dabei neunmal kleiner und schneller als seine Vorgängermodelle. Das Modell sagt Begrenzungsrahmen für Bilder voraus und nutzt innovative Trainingsstrategien. Checkpoints und Datensätze sind unter Apache 2.0 verfügbar, was die Zugänglichkeit für weitere Forschungsarbeiten verbessert.

LightOnOCR-2-1B: Ein Durchbruch in der multilingualen OCR-Technologie

LightOn hat das LightOnOCR-2-1B vorgestellt, ein mehrsprachiges Vision-Language-Modell, das darauf ausgelegt ist, Dokumentenbilder mit bemerkenswerter Effizienz in strukturierten Text zu transformieren. Dieses Modell, das aus 1 Milliarde Parametern besteht, verspricht, traditionelle optische Zeichenerkennungssysteme (OCR) zu übertreffen.

LightOnOCR-2 hat auf dem OlmOCR-Bench-Benchmark eine Spitzenleistung gezeigt und ist 9 Mal kleiner sowie erheblich schneller als seine Vorgänger.

Hauptmerkmale

Normalisierte Vorhersage von Begrenzungsrahmen: Vorhersage von normalisierten Begrenzungsrahmen für eingebettete Bilder, was die Nutzung bei komplexen Layouts verbessert.
Verstärkendes Lernen mit Belohnungen: Verfeinerung der Leistung durch IoU-basierte Belohnungen, um eine genauere Textextraktion zu gewährleisten.

LightOn hat die Modell-Checkpoints unter der Apache 2.0-Lizenz veröffentlicht, zusammen mit dem begleitenden Datensatz und der neuen LightOnOCR-bbox-bench-Bewertung. Dies positioniert LightOnOCR-2-1B als einen bedeutenden Fortschritt für Anwendungen, die eine schnelle und präzise Textextraktion aus mehrsprachigen Dokumentenbildern erfordern.

Artikel teilen

Twitter Facebook LinkedIn WhatsApp Reddit

LightOnOCR: Ein 1B End-to-End Mehrsprachiges Vision-Language-Modell für erstklassige OCR

LightOnOCR-2-1B: Ein Durchbruch in der multilingualen OCR-Technologie

Hauptmerkmale

Verwandte Themen:

Artikel teilen