LightOnOCR: Многоязычная модель компьютерного зрения и языка с параметрами 1 миллиард для достижения лучших результатов в области оптического распознавания символов

Изображение создано Gemini AI
Компания LightOn представила модель LightOnOCR-2-1B — многоязычную модель с 1 миллиардом параметров, которая преобразует изображения документов в структурированный текст без использования традиционного оптического распознавания символов (OCR). Модель демонстрирует высокую точность на тестовом наборе OlmOCR-Bench и при этом в 9 раз меньше и быстрее своих предшественников. Она предсказывает границы для изображений и использует новаторские стратегии обучения. Контрольные точки и наборы данных доступны под лицензией Apache 2.0, что улучшает доступность для дальнейших исследований.
LightOnOCR-2-1B: Прорыв в технологии многоязычного OCR
LightOn представила LightOnOCR-2-1B, многоязычную модель визуального языка, разработанную для преобразования изображений документов в структурированный текст с выдающейся эффективностью. Эта модель, состоящая из 1 миллиарда параметров, обещает превзойти традиционные системы оптического распознавания символов (OCR).
LightOnOCR-2 продемонстрировала передовые результаты на бенчмарке OlmOCR-Bench и в 9 раз меньше и значительно быстрее своих предшественников.
Ключевые особенности
- Предсказание нормализованных ограничивающих рамок: Предсказывает нормализованные ограничивающие рамки для встроенных изображений, улучшая полезность для сложных макетов.
- Обучение с подкреплением с вознаграждениями: Улучшает производительность с помощью вознаграждений на основе IoU, обеспечивая более точное извлечение текста.
LightOn выпустила контрольные точки модели под лицензией Apache 2.0, а также сопутствующий набор данных и новую оценку LightOnOCR-bbox-bench. Это позиционирует LightOnOCR-2-1B как значительное достижение для приложений, требующих быстрого и точного извлечения текста из многоязычных изображений документов.
Связанные темы:
📰 Первоисточник: https://arxiv.org/abs/2601.14251v1
Все права и авторство принадлежат первоначальному издателю.