Предварительно обученные плотные и контекстуальные векторные представления на основе диффузии

•

Оригинальный автор:Sedigheh Eslami et al.

•

11 февраля 2026 г.

Предварительно обученные плотные и контекстуальные векторные представления на основе диффузии

Изображение создано Gemini AI

Новая линейка многозначных моделей встраивания pplx-embed использует многоступенчатое контрастивное обучение на основе диффузионной предобученной архитектуры для улучшения поиска на веб-уровне. Выпущены две версии: pplx-embed-v1 для стандартных задач и pplx-embed-context-v1 для контекстных встраиваний. Последняя демонстрирует выдающиеся результаты на бенчмарке ConTEB, в то время как обе модели показывают хорошие результаты на нескольких других бенчмарках поиска и внутренних оценках, что свидетельствует об их надежности для приложений масштабного поиска.

Новые многоязычные модели встраивания, революционизирующие поиск на веб-уровне

Исследователи представили pplx-embed, серию многоязычных моделей встраивания, разработанных для улучшения процессов поиска на веб-уровне. Используя многоступенчатый контрастивный подход к обучению на диффузионной предобученной языковой модели, эти модели нацелены на эффективное захватывание контекста в длинных текстах.

Модели pplx-embed используют механизм двунаправленного внимания, который способствует глубокому пониманию контекста документа. Выпущены две варианта: pplx-embed-v1, оптимизированная для стандартных задач поиска, и pplx-embed-context-v1, которая предлагает контекстуализированные встраивания, интегрирующие более широкий контекст документа в представления отдельных отрывков.

Основные показатели производительности

Модель pplx-embed-v1 продемонстрировала конкурентоспособные результаты на нескольких известных бенчмарках, включая:

MTEB (Многоязычный, v2)
MTEB (Код)
MIRACL
BERGEN
ToolRet

Обратите внимание, что модель pplx-embed-context-v1 достигла рекордных результатов на бенчмарке ConTEB, который оценивает контекстуальное понимание.

Применение в реальном мире

Помимо формальных бенчмарков, модель pplx-embed-v1 показала надежную производительность в внутренних оценках, имитирующих реальные сценарии поиска, оценивая эффективность на десятках миллионов документов. Это подчеркивает ее потенциал для повышения качества и эффективности поиска в производственных условиях.

Связанные темы:

pplx-embedмногоязычные моделиконтрастивное обучениеглобальный контекстбенчмарки MTEB

📰 Первоисточник: https://arxiv.org/abs/2602.11151v1

Все права и авторство принадлежат первоначальному издателю.

Поделиться статьей

Twitter Facebook LinkedIn WhatsApp Reddit