PixelGen: Диффузия пикселей превосходит латентную диффузию с использованием перцептивной потери

•

Оригинальный автор:Zehong Ma et al.

•

2 февраля 2026 г.

PixelGen: Диффузия пикселей превосходит латентную диффузию с использованием перцептивной потери

Изображение создано Gemini AI

PixelGen — это новая платформа для диффузии пикселей, которая преодолевает ограничения традиционных двустадийных латентных моделей диффузии, оптимизируя непосредственно в пиксельном пространстве. Она использует две перцептивные потери — LPIPS для локальных паттернов и DINO для глобальной семантики — чтобы улучшить качество изображений. PixelGen достигает конкурентоспособного значения FID в 5.11 на ImageNet-256 всего за 80 эпох обучения и демонстрирует высокую эффективность в масштабных задачах текст-к-изображению, о чем свидетельствует балл GenEval в 0.79. Этот подход исключает необходимость в вариационных автоэнкодерах и вспомогательных этапах, предлагая упрощенную и эффективную генеративную модель. Полный код доступен на GitHub.

PixelGen превосходит латентную диффузию с помощью инновационной перцептивной потери

PixelGen, новая рамочная система диффузии пикселей, продемонстрировала превосходную производительность по сравнению с традиционными моделями латентной диффузии за счет внедрения перцептивного супервайзинга. Это нововведение позволяет напрямую генерировать изображения в пиксельном пространстве, устраняя артефакты и узкие места, связанные с двухступенчатыми процессами латентной диффузии.

Ключевые показатели производительности

В ходе строгих испытаний PixelGen достигла значения Fréchet Inception Distance (FID) в 5.11 на наборе данных ImageNet-256, не используя безклассификаторное руководство и применяя всего 80 эпох обучения. Это является значительным улучшением по сравнению с существующими базовыми моделями латентной диффузии.

Более того, PixelGen продемонстрировала впечатляющие возможности масштабирования в задачах генерации текста в изображение, достигнув оценки GenEval в 0.79. Дизайн системы исключает необходимость в вариационных автокодировщиках (VAE) и латентных представлениях, тем самым упрощая процесс генерации.

Доступность

Разработчики и исследователи могут получить доступ к коду публично по адресу в этом репозитории GitHub.

Связанные темы:

PixelGenпиксельная диффузияперцептивные потерилатентная диффузиягенерация изображений

📰 Первоисточник: https://arxiv.org/abs/2602.02493v1

Все права и авторство принадлежат первоначальному издателю.

Поделиться статьей

Twitter Facebook LinkedIn WhatsApp Reddit