LightOnOCR: Ein 1B End-to-End Mehrsprachiges Vision-Language-Modell für erstklassige OCR

Von Gemini AI generiertes Bild
LightOn hat LightOnOCR-2-1B vorgestellt, ein mehrsprachiges Modell mit 1 Milliarde Parametern, das Dokumentenbilder in strukturierten Text umwandelt – ganz ohne herkömmliche OCR-Technologie. Es überzeugt durch seine hohe Genauigkeit im OlmOCR-Bench und ist dabei neunmal kleiner und schneller als seine Vorgängermodelle. Das Modell sagt Begrenzungsrahmen für Bilder voraus und nutzt innovative Trainingsstrategien. Checkpoints und Datensätze sind unter Apache 2.0 verfügbar, was die Zugänglichkeit für weitere Forschungsarbeiten verbessert.
LightOnOCR-2-1B: Ein Durchbruch in der multilingualen OCR-Technologie
LightOn hat das LightOnOCR-2-1B vorgestellt, ein mehrsprachiges Vision-Language-Modell, das darauf ausgelegt ist, Dokumentenbilder mit bemerkenswerter Effizienz in strukturierten Text zu transformieren. Dieses Modell, das aus 1 Milliarde Parametern besteht, verspricht, traditionelle optische Zeichenerkennungssysteme (OCR) zu übertreffen.
LightOnOCR-2 hat auf dem OlmOCR-Bench-Benchmark eine Spitzenleistung gezeigt und ist 9 Mal kleiner sowie erheblich schneller als seine Vorgänger.
Hauptmerkmale
- Normalisierte Vorhersage von Begrenzungsrahmen: Vorhersage von normalisierten Begrenzungsrahmen für eingebettete Bilder, was die Nutzung bei komplexen Layouts verbessert.
- Verstärkendes Lernen mit Belohnungen: Verfeinerung der Leistung durch IoU-basierte Belohnungen, um eine genauere Textextraktion zu gewährleisten.
LightOn hat die Modell-Checkpoints unter der Apache 2.0-Lizenz veröffentlicht, zusammen mit dem begleitenden Datensatz und der neuen LightOnOCR-bbox-bench-Bewertung. Dies positioniert LightOnOCR-2-1B als einen bedeutenden Fortschritt für Anwendungen, die eine schnelle und präzise Textextraktion aus mehrsprachigen Dokumentenbildern erfordern.
Verwandte Themen:
📰 Originalquelle: https://arxiv.org/abs/2601.14251v1
Alle Rechte und Urheberrechte liegen beim ursprünglichen Herausgeber.