LightOnOCR: Un modelo de visión-lenguaje multilingüe de 1 mil millones para un OCR de vanguardia

Imagen generada por Gemini AI
LightOn ha lanzado LightOnOCR-2-1B, un modelo multilingüe de 1 mil millones de parámetros que convierte imágenes de documentos en texto estructurado sin necesidad de la OCR tradicional. Este modelo destaca por su precisión en OlmOCR-Bench y es 9 veces más pequeño y rápido que sus predecesores. Además, predice cajas delimitadoras para las imágenes y utiliza estrategias de entrenamiento innovadoras. Los puntos de control y los conjuntos de datos están disponibles bajo la licencia Apache 2.0, lo que mejora la accesibilidad para futuras investigaciones.
LightOnOCR-2-1B: Un Avance en Tecnología de OCR Multilingüe
LightOn ha presentado el LightOnOCR-2-1B, un modelo de visión-lenguaje multilingüe diseñado para transformar imágenes de documentos en texto estructurado con una eficiencia notable. Este modelo, que cuenta con 1 mil millones de parámetros, promete superar a los sistemas tradicionales de Reconocimiento Óptico de Caracteres (OCR).
LightOnOCR-2 ha demostrado un rendimiento de vanguardia en el benchmark OlmOCR-Bench y es 9 veces más pequeño y significativamente más rápido que sus predecesores.
Características Clave
- Predicción de Cajas Delimitadoras Normalizadas: Predice cajas delimitadoras normalizadas para imágenes incrustadas, mejorando la utilidad para diseños complejos.
- Aprendizaje por Refuerzo con Recompensas: Mejora el rendimiento a través de recompensas basadas en IoU, asegurando una extracción de texto más precisa.
LightOn ha liberado los puntos de control del modelo bajo la licencia Apache 2.0, junto con el conjunto de datos correspondiente y la nueva evaluación LightOnOCR-bbox-bench. Esto posiciona al LightOnOCR-2-1B como un avance significativo para aplicaciones que requieren una extracción rápida y precisa de texto de imágenes de documentos multilingües.
Temas relacionados:
📰 Fuente original: https://arxiv.org/abs/2601.14251v1
Todos los derechos y créditos pertenecen al editor original.