AI
Actualités IA

Diffusion : Embeddings denses et contextuels pré-entraînés

Source:arXiv
Auteur original:Sedigheh Eslami et al.
Diffusion : Embeddings denses et contextuels pré-entraînés

Image générée par Gemini AI

La nouvelle famille de modèles d'embeddings multilingues pplx-embed utilise un apprentissage contrastif à plusieurs niveaux sur une base pré-entraînée par diffusion, permettant ainsi d'améliorer la récupération à l'échelle du web. Deux variantes ont été lancées : pplx-embed-v1 pour les tâches standards et pplx-embed-context-v1 pour des embeddings contextuels. Cette dernière se distingue particulièrement sur le benchmark ConTEB, tandis que les deux modèles affichent de bonnes performances sur plusieurs autres benchmarks de récupération et évaluations internes, attestant de leur fiabilité pour des applications de recherche à grande échelle.

Nouveaux modèles d'embeddings multilingues prêts à transformer la recherche à l'échelle du web

Des chercheurs ont dévoilé pplx-embed, une série de modèles d'embeddings multilingues conçus pour améliorer les processus de recherche à l'échelle du web. En utilisant une approche d'apprentissage contrastif en plusieurs étapes sur un modèle de langage pré-entraîné par diffusion, ces modèles visent à capturer efficacement le contexte au sein de longs passages.

Les modèles pplx-embed emploient un mécanisme d'attention bidirectionnelle qui facilite une compréhension complète du contexte des documents. Deux variantes ont été publiées : pplx-embed-v1, optimisé pour les tâches de recherche standard, et pplx-embed-context-v1, qui propose des embeddings contextualisés intégrant un contexte documentaire plus large dans les représentations des passages individuels.

Points forts de la performance

Le modèle pplx-embed-v1 a démontré une performance compétitive sur plusieurs benchmarks notables, notamment :

  • MTEB (Multilingue, v2)
  • MTEB (Code)
  • MIRACL
  • BERGEN
  • ToolRet

Notamment, le modèle pplx-embed-context-v1 a atteint des résultats record sur le benchmark ConTEB, qui évalue la compréhension contextuelle.

Applications dans le monde réel

Au-delà des benchmarks formels, le modèle pplx-embed-v1 a montré une performance robuste lors d'évaluations internes simulant des scénarios de recherche réels, évaluant son efficacité sur des dizaines de millions de documents. Cela souligne son potentiel pour améliorer la qualité et l'efficacité de la recherche dans des environnements de production.

Sujets connexes :

pplx-embedmodèles d'embeddings multilinguesapprentissage contrastifrécupération à l'échelle du webcontexte global du document

📰 Source originale : https://arxiv.org/abs/2602.11151v1

Tous les droits et crédits appartiennent à l'éditeur original.

Partager cet article