Множество умов из одной модели: байесовские трансформеры для популяционной интеллигенции

•

Оригинальный автор:Diji Yang et al.

•

31 декабря 2025 г.

Множество умов из одной модели: байесовские трансформеры для популяционной интеллигенции

Изображение создано Gemini AI

Исследователи представили Population Bayesian Transformers (B-Trans) — новый подход, который позволяет достигать разнообразия в поведении моделей, используя единственный набор предварительно обученных весов в крупных языковых моделях. Обрабатывая смещения нормализационных слоев как стохастические переменные, B-Trans сохраняет согласованность, одновременно позволяя получать различные выходные данные. Эксперименты показывают, что этот метод улучшает семантическое разнообразие и эффективность выполнения задач в сценариях нулевого выстрела и обучения с подкреплением, превосходя традиционные детерминированные модели. Этот метод также способствует более эффективному совместному принятию решений, агрегируя предсказания от нескольких экземпляров моделей.

Байесовские Трансформеры Революционизируют Разнообразие Моделей в ИИ

Исследователи разработали Популяционные Байесовские Трансформеры (B-Trans), модель, которая улучшает разнообразие и способности к принятию решений традиционных Больших Языковых Моделей (LLMs). B-Trans генерирует несколько согласованных экземпляров из одного набора предварительно обученных весов, устраняя ограничения обычных трансформеров.

В отличие от стандартных моделей трансформеров, которые полагаются на детерминированный набор параметров, B-Trans включает в себя байесовскую структуру. Этот метод рассматривает смещения, подобные предвзятости, в слоях нормализации как стохастические переменные, что позволяет генерировать разнообразные экземпляры моделей без вычислительной нагрузки полных байесовских нейронных сетей.

Ключевые Особенности B-Trans

Разнообразие через Выборку: B-Trans позволяет выбирать различные экземпляры модели, каждый из которых демонстрирует уникальное поведение, обеспечивая при этом компетентность в задачах.
Принятие Решений на Уровне Популяции: Модель агрегирует прогнозы от нескольких выбранных экземпляров, улучшая процессы исследования и принятия решений.

В экспериментах B-Trans продемонстрировал превосходное семантическое разнообразие и превзошел традиционные детерминированные базовые модели в таких задачах, как генерация без обучения (zero-shot) и Обучение с Укрепляемыми Наградами (RLVR).

Связанные темы:

Популяционные Байесовские Трансформерымодель Байесовского Трансформерапрокси-постериормудрость толпысемантическое разнообразие

📰 Первоисточник: https://arxiv.org/abs/2512.25063v1

Все права и авторство принадлежат первоначальному издателю.

Поделиться статьей

Twitter Facebook LinkedIn WhatsApp Reddit