Последние новости ИИ

Готовы ли ИИ-агенты к работе? Новый стандарт вызывает сомнения.

В недавнем анализе пересматривается предсказание генерального директора Microsoft Сатьи Наделлы, сделанное два года назад, о потенциале искусственного интеллекта заменить рабочие места в офисах. Несмотря на достижения в области ИИ, ожидаемое массовое вытеснение специалистов в таких сферах, как право, финансы и информационные технологии, не произошло в той мере, как ожидалось. Статья исследует сложности и нюансы интеграции ИИ в эти профессии, подчеркивая, что хотя ИИ может повысить производительность, он, вероятно, не сможет полностью заменить человеческий элемент, который критически важен в области знаний.

TechCrunch

141 день назад

Масштабирование вывода NVFP4 для FLUX.2 на графических процессорах NVIDIA Blackwell в дата-центрах

NVIDIA объединилась с Black Forest Labs (BFL) для улучшения серии моделей текст-в-изображение FLUX.1. Цель этого сотрудничества — достичь возможностей генерации изображений FP4, специально для предстоящей серии графических процессоров NVIDIA Blackwell GeForce RTX 50, запуск которых запланирован на 2025 год. Это нововведение может значительно повысить качество рендеринга изображений в реальном времени для разработчиков и создателей, использующих графику с поддержкой ИИ.

Nvidia.com

141 день назад

CamPilot: Улучшение управления камерой в модели видеодиффузии с помощью эффективной обратной связи по вознаграждению камеры

Недавние исследования улучшили модели диффузии видео, управляемые камерами, решая проблемы с их управляемостью. В работе представлен эффективный 3D-декодер, который преобразует латентные представления видео и позу камеры в 3D-репрезентации, оптимизируя согласованность на уровне пикселей для повышения точности выравнивания. Этот метод устраняет существующие недостатки моделей вознаграждения и снижает вычислительные затраты, демонстрируя свою эффективность на бенчмарках RealEstate10K и WorldScore. Для получения более подробной информации посетите страницу [CamPilot](https://a-bigbao.github.io/CamPilot/).

arXiv

141 день назад

Масштабирование диффузионных трансформеров текст-в-изображение с использованием авто编码еров представления

Исследования по автоэнкодерам представления (RAE) показывают, что они превосходят современные вариационные автоэнкодеры (VAE) в генерации изображений на основе текста (T2I) на больших масштабах. RAEs демонстрируют более быструю сходимость, высшее качество генерации и стабильность во время тонкой настройки. Это указывает на то, что RAEs могут упростить T2I-фреймворки, улучшая мультимодальные модели, которые объединяют визуальное понимание и генерацию.

arXiv

141 день назад

Доказуемая надежность многомодальных больших языковых моделей через сглаживание пространств признаков

Предложен новый подход под названием сглаживание в пространстве признаков (Feature-space Smoothing, FS), который направлен на повышение устойчивости мультимодальных больших языковых моделей (MLLM) к атакам с использованием противодействия. FS обеспечивает сертифицированный нижний предел на косинусное сходство признаков при атаках, ограниченных по норме $\ell_2$. Внедрение модуля Purifier and Smoothness Mapper (PSM) дополнительно укрепляет устойчивость без необходимости повторной тренировки. Эксперименты показывают, что FS-PSM значительно снижает уровень успешных атак с почти 90% до около 1%, превосходя традиционное обучение с учетом противодействия в различных MLLM и задачах.

arXiv

141 день назад

Эта операционная система незаметно управляет всеми ИИ и большинством будущих ИТ-работ.

Недавняя статья ZDNET подчеркивает, что Linux является доминирующей операционной системой для приложений искусственного интеллекта, не оставляя места для серьезных альтернатив. Ключевые игроки, такие как Canonical и Red Hat, занимают центральное место в этой сфере, предоставляя необходимые инструменты и поддержку для разработки ИИ. В статье акцентируется внимание на том, что компаниям следует переходить на Linux для эффективного развертывания и управления решениями на базе искусственного интеллекта.

ZDNet

142 дня назад

Хронология рынка полупроводников США в 2025 году

В 2022 году американская полупроводниковая отрасль пережила значительные потрясения, отмеченные изменениями в руководстве крупных компаний и изменением дискуссий о регулировании экспорта чипов для искусственного интеллекта. Эти события подчеркивают продолжающуюся адаптацию сектора к геополитическим вызовам и технологическим достижениям, что влияет на стратегии развития и конкурентные динамики в будущем.

TechCrunch

142 дня назад

Ирония: Обнаружены ложные цитаты в статьях конференции NeurIPS, престижного мероприятия в области ИИ

Стартап по детекции ИИ GPTZero проанализировал 4,841 работы, представленные на недавней конференции NeurIPS в Сан-Диего, и выяснил, что 1,900 из них, или около 39%, содержат контент, сгенерированный искусственным интеллектом. Это подчеркивает растущую распространенность ИИ в академическом письме и вызывает опасения по поводу подлинности и оригинальности исследований. Полученные результаты могут привести к ужесточению правил использования ИИ в академических submissions.

TechCrunch

142 дня назад

США и Китай сотрудничают в области искусственного интеллекта более тесно, чем предполагается

США и Китай находятся в конкурентной гонке в области искусственного интеллекта, сосредоточив внимание на усовершенствовании алгоритмов, моделей и аппаратного обеспечения. Несмотря на соперничество, сотрудничество сохраняется в академических исследованиях, где происходит обмен опытом и ресурсами. Эта динамика создает как возможности, так и вызовы, поскольку наряду с инновациями усиливаются опасения по поводу национальной безопасности. Баланс между конкурентной борьбой и сотрудничеством может определить будущее развитие и регулирование искусственного интеллекта.

Wired

142 дня назад

APPLE: Сохранение атрибутов при псевдозначении для диффузионного замещения лиц

Исследователи разработали метод APPLE (Attribute-Preserving Pseudo-Labeling) для замены лиц, который улучшает передачу идентичности, сохраняя при этом ключевые атрибуты, такие как освещение и макияж. Подходя к замене лиц как к задаче условного размытия и применяя модель «учитель-ученик» для более эффективного контроля, APPLE демонстрирует фотореалистичные результаты и устанавливает новые стандарты в области сохранения атрибутов.

arXiv

142 дня назад

К пониманию лучших практик квантования моделей зрения и языка

Исследование изучает эффективность различных методов квантизации, включая GPTQ и AWQ, в мультимодальных пайплайнах, связанных с моделями зрительного восприятия и языка. Результаты показывают, что как модели ViT, так и LLM играют ключевую роль в производительности, при этом квантизация LLM с использованием меньшего количества бит сохраняет высокую точность. Это исследование предоставляет ценные рекомендации для оптимизации использования памяти и задержки при развертывании мультимодальных языковых моделей. Код доступен по ссылке: https://github.com/gautomdas/mmq.

arXiv

142 дня назад

Надежное обнаружение фейковых новостей с использованием больших языковых моделей в условиях атак с противоречивыми настроениями

Исследователи разработали AdSent — новую платформу, которая улучшает выявление фейковых новостей, противодействуя манипуляциям с настроением, уязвимости, выявленной в крупных языковых моделях. В исследовании показано, что изменение настроения значительно влияет на точность обнаружения, что приводит к тому, что нейтральные статьи воспринимаются как подлинные. AdSent использует стратегию обучения, не зависящую от настроения, и превосходит существующие модели по надежности и точности на различных наборах данных.

arXiv

142 дня назад