Mentes Múltiplas a partir de um Único Modelo: Transformadores Bayesianos para Inteligência Populacional

Imagem gerada por Gemini AI
Pesquisadores apresentaram os Population Bayesian Transformers (B-Trans), uma abordagem inovadora que possibilita comportamentos diversos em modelos a partir de um único conjunto de pesos pré-treinados em grandes modelos de linguagem. Ao tratar os deslocamentos das camadas de normalização como variáveis estocásticas, o B-Trans preserve a coerência enquanto permite saídas variadas. Experimentos demonstram que essa técnica melhora a diversidade semântica e o desempenho em tarefas em cenários de geração zero-shot e aprendizado por reforço, superando modelos determinísticos tradicionais. Esse método aprimora a tomada de decisões colaborativa ao agregar previsões de várias instâncias do modelo.
Transformadores Bayesianos Revolucionam a Diversidade de Modelos em IA
Pesquisadores desenvolveram os Transformadores Bayesianos de População (B-Trans), um modelo que aprimora a diversidade e as capacidades de tomada de decisão dos tradicionais Modelos de Linguagem de Grande Escala (LLMs). O B-Trans gera múltiplas instâncias coerentes a partir de um único conjunto de pesos pré-treinados, abordando as limitações dos transformadores convencionais.
Ao contrário dos modelos de transformadores padrão, que dependem de um conjunto determinístico de parâmetros, o B-Trans incorpora uma estrutura Bayesiana. Este método trata desvios semelhantes a viés nas camadas de normalização como variáveis estocásticas, permitindo a geração de diversas instâncias de modelo sem o ônus computacional das redes neurais Bayesiana completas.
Principais Características do B-Trans
- Diversidade através de Amostragem: O B-Trans permite a amostragem de várias instâncias de modelo, cada uma exibindo comportamentos únicos enquanto mantém a competência nas tarefas.
- Tomada de Decisão em Nível de População: O modelo agrega previsões de múltiplas instâncias amostradas, melhorando os processos de exploração e tomada de decisão.
Em experimentos, o B-Trans mostrou superioridade em diversidade semântica e superou as referências determinísticas tradicionais em tarefas como geração zero-shot e Aprendizado por Reforço com Recompensas Verificáveis (RLVR).
Tópicos relacionados:
📰 Fonte original: https://arxiv.org/abs/2512.25063v1
Todos os direitos e créditos pertencem ao editor original.