AI
Новости ИИ

LightOnOCR: Многоязычная модель компьютерного зрения и языка с параметрами 1 миллиард для достижения лучших результатов в области оптического распознавания символов

Source:arXiv
Оригинальный автор:Said Taghadouini et al.
LightOnOCR: Многоязычная модель компьютерного зрения и языка с параметрами 1 миллиард для достижения лучших результатов в области оптического распознавания символов

Изображение создано Gemini AI

Компания LightOn представила модель LightOnOCR-2-1B — многоязычную модель с 1 миллиардом параметров, которая преобразует изображения документов в структурированный текст без использования традиционного оптического распознавания символов (OCR). Модель демонстрирует высокую точность на тестовом наборе OlmOCR-Bench и при этом в 9 раз меньше и быстрее своих предшественников. Она предсказывает границы для изображений и использует новаторские стратегии обучения. Контрольные точки и наборы данных доступны под лицензией Apache 2.0, что улучшает доступность для дальнейших исследований.

LightOnOCR-2-1B: Прорыв в технологии многоязычного OCR

LightOn представила LightOnOCR-2-1B, многоязычную модель визуального языка, разработанную для преобразования изображений документов в структурированный текст с выдающейся эффективностью. Эта модель, состоящая из 1 миллиарда параметров, обещает превзойти традиционные системы оптического распознавания символов (OCR).

LightOnOCR-2 продемонстрировала передовые результаты на бенчмарке OlmOCR-Bench и в 9 раз меньше и значительно быстрее своих предшественников.

Ключевые особенности

  • Предсказание нормализованных ограничивающих рамок: Предсказывает нормализованные ограничивающие рамки для встроенных изображений, улучшая полезность для сложных макетов.
  • Обучение с подкреплением с вознаграждениями: Улучшает производительность с помощью вознаграждений на основе IoU, обеспечивая более точное извлечение текста.

LightOn выпустила контрольные точки модели под лицензией Apache 2.0, а также сопутствующий набор данных и новую оценку LightOnOCR-bbox-bench. Это позиционирует LightOnOCR-2-1B как значительное достижение для приложений, требующих быстрого и точного извлечения текста из многоязычных изображений документов.

Связанные темы:

LightOnOCR-2-1Bмультиязычное распознавание текста1 миллиард параметровOlmOCR-Benchконтрольные точки модели

📰 Первоисточник: https://arxiv.org/abs/2601.14251v1

Все права и авторство принадлежат первоначальному издателю.

Поделиться статьей