AI
Notícias IA

Mentes Múltiplas a partir de um Único Modelo: Transformadores Bayesianos para Inteligência Populacional

Source:arXiv
Autor original:Diji Yang et al.
Mentes Múltiplas a partir de um Único Modelo: Transformadores Bayesianos para Inteligência Populacional

Imagem gerada por Gemini AI

Pesquisadores apresentaram os Population Bayesian Transformers (B-Trans), uma abordagem inovadora que possibilita comportamentos diversos em modelos a partir de um único conjunto de pesos pré-treinados em grandes modelos de linguagem. Ao tratar os deslocamentos das camadas de normalização como variáveis estocásticas, o B-Trans preserve a coerência enquanto permite saídas variadas. Experimentos demonstram que essa técnica melhora a diversidade semântica e o desempenho em tarefas em cenários de geração zero-shot e aprendizado por reforço, superando modelos determinísticos tradicionais. Esse método aprimora a tomada de decisões colaborativa ao agregar previsões de várias instâncias do modelo.

Transformadores Bayesianos Revolucionam a Diversidade de Modelos em IA

Pesquisadores desenvolveram os Transformadores Bayesianos de População (B-Trans), um modelo que aprimora a diversidade e as capacidades de tomada de decisão dos tradicionais Modelos de Linguagem de Grande Escala (LLMs). O B-Trans gera múltiplas instâncias coerentes a partir de um único conjunto de pesos pré-treinados, abordando as limitações dos transformadores convencionais.

Ao contrário dos modelos de transformadores padrão, que dependem de um conjunto determinístico de parâmetros, o B-Trans incorpora uma estrutura Bayesiana. Este método trata desvios semelhantes a viés nas camadas de normalização como variáveis estocásticas, permitindo a geração de diversas instâncias de modelo sem o ônus computacional das redes neurais Bayesiana completas.

Principais Características do B-Trans

  • Diversidade através de Amostragem: O B-Trans permite a amostragem de várias instâncias de modelo, cada uma exibindo comportamentos únicos enquanto mantém a competência nas tarefas.
  • Tomada de Decisão em Nível de População: O modelo agrega previsões de múltiplas instâncias amostradas, melhorando os processos de exploração e tomada de decisão.

Em experimentos, o B-Trans mostrou superioridade em diversidade semântica e superou as referências determinísticas tradicionais em tarefas como geração zero-shot e Aprendizado por Reforço com Recompensas Verificáveis (RLVR).

Tópicos relacionados:

Transformadores BayesianosInteligência PopulacionalModelos de Linguagem Grandeamostragem de instânciasAprendizado por Reforço.

📰 Fonte original: https://arxiv.org/abs/2512.25063v1

Todos os direitos e créditos pertencem ao editor original.

Compartilhar este artigo