LightOnOCR：一种具有10亿参数的端到端多语言视觉语言模型，实现先进的光学字符识别技术

•

原作者:Said Taghadouini et al.

•

2026年1月20日

LightOnOCR：一种具有10亿参数的端到端多语言视觉语言模型，实现先进的光学字符识别技术

Gemini AI生成的图像

LightOn推出了LightOnOCR-2-1B，这是一款拥有10亿参数的多语言模型，能够将文档图像转换为有序文本，且无需传统光学字符识别（OCR）。该模型在OlmOCR-Bench上表现出色，准确度高，同时体积比前代产品小9倍，速度更快。该模型可以预测图像的边界框，并采用了创新的训练策略。相关的检查点和数据集已在Apache 2.0协议下公开，进一步提升了后续研究的可及性。

LightOnOCR-2-1B：多语言OCR技术的突破

LightOn推出了LightOnOCR-2-1B，这是一种旨在将文档图像转化为结构化文本的多语言视觉语言模型，具有卓越的效率。该模型包含10亿个参数，承诺超越传统的光学字符识别（OCR）系统。

LightOnOCR-2在OlmOCR-Bench基准测试中展示了最先进的性能，其体积比前辈小9倍，并且速度显著更快。

主要特性

标准化边界框预测：为嵌入图像预测标准化边界框，提高了复杂布局的实用性。
基于奖励的强化学习：通过基于IoU的奖励来优化性能，确保文本提取更加准确。

LightOn已根据Apache 2.0许可证发布了模型检查点，以及相关数据集和新的LightOnOCR-bbox-bench评估。这使得LightOnOCR-2-1B在需要快速且准确地从多语言文档图像中提取文本的应用中，成为一项重要的进展。

分享此文章

Twitter Facebook LinkedIn WhatsApp Reddit

LightOnOCR：一种具有10亿参数的端到端多语言视觉语言模型，实现先进的光学字符识别技术

LightOnOCR-2-1B：多语言OCR技术的突破

主要特性

相关主题：

分享此文章