AI
Notícias IA

Embutimentos Densos e Contextuais Pré-treinados por Difusão

Source:arXiv
Autor original:Sedigheh Eslami et al.
Embutimentos Densos e Contextuais Pré-treinados por Difusão

Imagem gerada por Gemini AI

A nova família de modelos de incorporação multilíngue pplx-embed utiliza aprendizado contrastivo em múltiplas etapas, baseado em um backbone pré-treinado com difusão, para aprimorar a recuperação em escala web. Duas variantes foram lançadas: o pplx-embed-v1 para tarefas padrão e o pplx-embed-context-v1 para incorporações contextuais. Este último se destaca no benchmark ConTEB, enquanto ambos os modelos demonstram um bom desempenho em diversas outras avaliações de recuperação e testes internos, o que indica sua confiabilidade para aplicações de busca em grande escala.

Novos Modelos de Embedding Multilíngues Prometem Transformar a Recuperação em Escala Web

Pesquisadores revelaram o pplx-embed, uma série de modelos de embedding multilíngues projetados para melhorar os processos de recuperação em escala web. Utilizando uma abordagem de aprendizado contrastivo em múltiplas etapas em um modelo de linguagem pré-treinado por difusão, esses modelos visam capturar de forma eficiente o contexto em passagens longas.

Os modelos pplx-embed empregam um mecanismo de atenção bidirecional que facilita a compreensão abrangente do contexto do documento. Duas variantes foram lançadas: pplx-embed-v1, otimizada para tarefas de recuperação padrão, e pplx-embed-context-v1, que oferece embeddings contextualizados que integram um contexto mais amplo do documento nas representações de passagens individuais.

Destaques de Desempenho

O modelo pplx-embed-v1 demonstrou desempenho competitivo em vários benchmarks proeminentes, incluindo:

  • MTEB (Multilíngue, v2)
  • MTEB (Código)
  • MIRACL
  • BERGEN
  • ToolRet

Notavelmente, o modelo pplx-embed-context-v1 alcançou resultados recordes no benchmark ConTEB, que avalia a compreensão contextual.

Aplicações no Mundo Real

Além dos benchmarks formais, o modelo pplx-embed-v1 mostrou um desempenho robusto em avaliações internas que simulam cenários de busca do mundo real, avaliando a eficácia em dezenas de milhões de documentos. Isso ressalta seu potencial para melhorar a qualidade e a eficiência da recuperação em ambientes de produção.

Tópicos relacionados:

pplx-embedaprendizado contrastivopré-treinamento por difusãorecuperação em escala webbenchmarks de recuperação

📰 Fonte original: https://arxiv.org/abs/2602.11151v1

Todos os direitos e créditos pertencem ao editor original.

Compartilhar este artigo