Предварительно обученные плотные и контекстуальные векторные представления на основе диффузии

Изображение создано Gemini AI
Новая линейка многозначных моделей встраивания pplx-embed использует многоступенчатое контрастивное обучение на основе диффузионной предобученной архитектуры для улучшения поиска на веб-уровне. Выпущены две версии: pplx-embed-v1 для стандартных задач и pplx-embed-context-v1 для контекстных встраиваний. Последняя демонстрирует выдающиеся результаты на бенчмарке ConTEB, в то время как обе модели показывают хорошие результаты на нескольких других бенчмарках поиска и внутренних оценках, что свидетельствует об их надежности для приложений масштабного поиска.
Новые многоязычные модели встраивания, революционизирующие поиск на веб-уровне
Исследователи представили pplx-embed, серию многоязычных моделей встраивания, разработанных для улучшения процессов поиска на веб-уровне. Используя многоступенчатый контрастивный подход к обучению на диффузионной предобученной языковой модели, эти модели нацелены на эффективное захватывание контекста в длинных текстах.
Модели pplx-embed используют механизм двунаправленного внимания, который способствует глубокому пониманию контекста документа. Выпущены две варианта: pplx-embed-v1, оптимизированная для стандартных задач поиска, и pplx-embed-context-v1, которая предлагает контекстуализированные встраивания, интегрирующие более широкий контекст документа в представления отдельных отрывков.
Основные показатели производительности
Модель pplx-embed-v1 продемонстрировала конкурентоспособные результаты на нескольких известных бенчмарках, включая:
- MTEB (Многоязычный, v2)
- MTEB (Код)
- MIRACL
- BERGEN
- ToolRet
Обратите внимание, что модель pplx-embed-context-v1 достигла рекордных результатов на бенчмарке ConTEB, который оценивает контекстуальное понимание.
Применение в реальном мире
Помимо формальных бенчмарков, модель pplx-embed-v1 показала надежную производительность в внутренних оценках, имитирующих реальные сценарии поиска, оценивая эффективность на десятках миллионов документов. Это подчеркивает ее потенциал для повышения качества и эффективности поиска в производственных условиях.
Связанные темы:
📰 Первоисточник: https://arxiv.org/abs/2602.11151v1
Все права и авторство принадлежат первоначальному издателю.