AI
Noticias IA

Múltiples Mentes de un Solo Modelo: Transformadores Bayesianos para la Inteligencia Poblacional

Source:arXiv
Autor original:Diji Yang et al.
Múltiples Mentes de un Solo Modelo: Transformadores Bayesianos para la Inteligencia Poblacional

Imagen generada por Gemini AI

Investigadores han presentado los Transformadores Bayesianos de Población (B-Trans), un enfoque innovador que permite obtener comportamientos diversos de un único conjunto de pesos preentrenados en grandes modelos de lenguaje. Al tratar los desplazamientos de las capas de normalización como variables estocásticas, B-Trans mantiene la coherencia al mismo tiempo que permite salidas variadas. Los experimentos demuestran que mejora la diversidad semántica y el rendimiento en tareas de generación sin entrenamiento previo y en escenarios de aprendizaje por refuerzo, superando a los modelos deterministas tradicionales. Este método potencia la toma de decisiones colaborativa al agregar predicciones de múltiples instancias del modelo.

Transformadores Bayesianos Revolucionan la Diversidad de Modelos en IA

Investigadores han desarrollado Transformadores Bayesianos de Población (B-Trans), un modelo que mejora la diversidad y las capacidades de toma de decisiones de los Modelos de Lenguaje Grande (LLMs) tradicionales. B-Trans genera múltiples instancias coherentes a partir de un único conjunto de pesos preentrenados, abordando las limitaciones de los transformadores convencionales.

A diferencia de los modelos de transformadores estándar, que dependen de un conjunto determinista de parámetros, B-Trans incorpora un marco bayesiano. Este método trata los sesgos como desplazamientos en las capas de normalización como variables estocásticas, lo que permite la generación de diversas instancias de modelos sin la carga computacional de redes neuronales bayesianas completas.

Características Clave de B-Trans

  • Diversidad a través del Muestreo: B-Trans permite el muestreo de varias instancias de modelos, cada una exhibiendo comportamientos únicos mientras mantiene competencia en las tareas.
  • Toma de Decisiones a Nivel de Población: El modelo agrega predicciones de múltiples instancias muestreadas, mejorando los procesos de exploración y toma de decisiones.

En experimentos, B-Trans mostró una superior diversidad semántica y superó las líneas base deterministas tradicionales en tareas como la generación sin ejemplos (zero-shot) y el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR).

Temas relacionados:

Transformadores BayesianosInteligencia Poblacionalmodelos de Lenguaje de Gran EscalamuestreoAprendizaje por Refuerzo

📰 Fuente original: https://arxiv.org/abs/2512.25063v1

Todos los derechos y créditos pertenecen al editor original.

Compartir este artículo