AI
AI新闻

LightOnOCR:一种具有10亿参数的端到端多语言视觉语言模型,实现先进的光学字符识别技术

Source:arXiv
原作者:Said Taghadouini et al.
LightOnOCR:一种具有10亿参数的端到端多语言视觉语言模型,实现先进的光学字符识别技术

Gemini AI生成的图像

LightOn推出了LightOnOCR-2-1B,这是一款拥有10亿参数的多语言模型,能够将文档图像转换为有序文本,且无需传统光学字符识别(OCR)。该模型在OlmOCR-Bench上表现出色,准确度高,同时体积比前代产品小9倍,速度更快。该模型可以预测图像的边界框,并采用了创新的训练策略。相关的检查点和数据集已在Apache 2.0协议下公开,进一步提升了后续研究的可及性。

LightOnOCR-2-1B:多语言OCR技术的突破

LightOn推出了LightOnOCR-2-1B,这是一种旨在将文档图像转化为结构化文本的多语言视觉语言模型,具有卓越的效率。该模型包含10亿个参数,承诺超越传统的光学字符识别(OCR)系统。

LightOnOCR-2在OlmOCR-Bench基准测试中展示了最先进的性能,其体积比前辈小9倍,并且速度显著更快。

主要特性

  • 标准化边界框预测:为嵌入图像预测标准化边界框,提高了复杂布局的实用性。
  • 基于奖励的强化学习:通过基于IoU的奖励来优化性能,确保文本提取更加准确。

LightOn已根据Apache 2.0许可证发布了模型检查点,以及相关数据集和新的LightOnOCR-bbox-bench评估。这使得LightOnOCR-2-1B在需要快速且准确地从多语言文档图像中提取文本的应用中,成为一项重要的进展。

相关主题:

LightOnOCR端到端多语言模型光学字符识别文档图像转换强化学习验证

📰 原始来源: https://arxiv.org/abs/2601.14251v1

所有权利和署名均属于原出版商。

分享此文章