
Diffusion : Embeddings denses et contextuels pré-entraînés
La nouvelle famille de modèles d'embeddings multilingues pplx-embed utilise un apprentissage contrastif à plusieurs niveaux sur une base pré-entraînée par diffusion, permettant ainsi d'améliorer la récupération à l'échelle du web. Deux variantes ont été lancées : pplx-embed-v1 pour les tâches standards et pplx-embed-context-v1 pour des embeddings contextuels. Cette dernière se distingue particulièrement sur le benchmark ConTEB, tandis que les deux modèles affichent de bonnes performances sur plusieurs autres benchmarks de récupération et évaluations internes, attestant de leur fiabilité pour des applications de recherche à grande échelle.










