最新AI新闻

人工智能代理是否准备好进入职场？新基准引发质疑。

在最近的一项分析中，微软首席执行官萨提亚·纳德拉两年前关于人工智能可能取代白领工作的预测正受到重新审视。尽管人工智能技术不断进步，但在法律、金融和IT等领域广泛取代职位的预期并未如预期般实现。文章探讨了在这些职业中整合人工智能所面临的挑战与复杂性，指出虽然人工智能能够提升生产力，但它可能无法完全取代知识工作中必不可少的人类因素。

TechCrunch

141天前

在NVIDIA Blackwell数据中心GPU上扩展FLUX.2的NVFP4推理能力

NVIDIA与黑森林实验室（Black Forest Labs，BFL）合作，旨在提升FLUX.1文本生成图像模型系列。这一合作的目标是为即将于2025年发布的NVIDIA Blackwell GeForce RTX 50系列GPU实现FP4图像生成能力。这一进展将显著提升开发人员和创作者使用人工智能驱动图形时的实时图像渲染效果。

Nvidia.com

142天前

CamPilot：利用高效的摄像机奖励反馈提升视频扩散模型中的摄像机控制

最近的研究提升了基于摄像机控制的视频扩散模型，解决了摄像机可控性方面的局限性。该研究引入了一种高效的3D解码器，将视频潜在特征和摄像机姿态转化为3D表示，优化了像素级一致性，从而改善对齐效果。这一方法有效解决了现有奖励模型的不足，并降低了计算开销，在RealEstate10K和WorldScore基准测试中表现出色。如需了解更多信息，请访问[CamPilot页面](https://a-bigbao.github.io/CamPilot/)。

arXiv

142天前

利用表示自编码器扩展文本到图像扩散变换器

关于表示自编码器（RAEs）的研究表明，它们在大规模文本到图像（T2I）生成方面表现优异，超越了各个模型规模的最新变分自编码器（VAEs）。RAEs不仅收敛速度更快，生成质量更高，而且在微调过程中表现出更好的稳定性。这表明，RAEs有望简化T2I框架，提升整合视觉理解与生成的多模态模型的效果。

arXiv

142天前

通过特征空间平滑实现多模态大型语言模型的可证明鲁棒性

一种名为特征空间平滑（Feature-space Smoothing, FS）的新方法被提出，以增强多模态大语言模型（MLLMs）对对抗攻击的鲁棒性。FS 确保在 $\ell_2$ 有界攻击下特征余弦相似度的认证下限。引入的净化器和平滑映射器（Purifier and Smoothness Mapper, PSM）模块进一步提升了鲁棒性，且无需重新训练。实验表明，FS-PSM 显著降低了攻击成功率，从近 90% 降至约 1%，在多个 MLLMs 和任务上表现优于传统的对抗训练方法。

arXiv

142天前

该操作系统悄然驱动所有人工智能及大多数未来IT职位

ZDNET最新的报道强调，Linux是人工智能应用的主要操作系统，目前没有可行的替代方案。Canonical和Red Hat等关键企业在这一领域中扮演着重要角色，提供了支持和工具，助力人工智能的发展。文章指出，企业必须采纳Linux，以实现有效的人工智能部署和管理。

ZDNet

142天前

2025年美国半导体市场时间表

美国半导体行业在2022年经历了重大变革，主要企业的领导层发生了变动，同时关于人工智能芯片出口管制的讨论也在不断演进。这些发展凸显了该行业在面对地缘政治压力和技术进步时的持续调整，正在重新塑造未来的战略和竞争格局。

TechCrunch

142天前

讽刺警报：在著名AI会议NeurIPS的论文中发现虚构引用

人工智能检测初创公司GPTZero分析了近期在圣地亚哥举行的NeurIPS会议上提交的4,841篇论文，结果显示其中有1,900篇，即约39%的论文包含了AI生成的内容。这一发现突显了人工智能在学术写作中的日益普及，令人对研究的真实性和原创性产生担忧。这些结果可能促使学术界对AI在论文提交中的使用制定更严格的指导方针。

TechCrunch

142天前

美国与中国在人工智能领域的合作比想象中更加紧密

美国与中国在人工智能领域展开激烈竞争，重点关注算法、模型和硬件的进步。尽管两国之间的对抗持续存在，学术研究领域仍然保持着合作，双方在专业知识和资源方面进行着共享。这种动态既带来了机遇，也提出了挑战，随着创新的推进，国家安全问题也愈发突出。竞争与合作之间的平衡，将可能塑造未来人工智能发展的格局和监管环境。

Wired

143天前

苹果：基于扩散的人脸置换的属性保留伪标签技术

研究人员开发了一种名为APPLE（属性保留伪标签）的新型换脸方法，该技术在增强身份转移的同时，能够有效保留诸如光照和妆容等关键属性。APPLE将换脸视为一种条件去模糊任务，并采用教师-学生框架进行更好的监督，从而实现了逼真的图像效果，并为属性保留设定了新的标准。

arXiv

143天前

理解视觉-语言模型量化最佳实践

一项研究探讨了多模态管道中不同量化方法的有效性，包括GPTQ和AWQ，这些管道涉及视觉和语言模型。结果表明，视觉变换器（ViT）和大型语言模型（LLM）对性能至关重要，而LLM的低比特量化仍能保持较高的准确性。这项研究为优化多模态语言模型的内存使用和延迟提供了宝贵的见解。相关代码可在 https://github.com/gautomdas/mmq 获取。

arXiv

143天前

在对抗性情感攻击下，使用大型语言模型进行强有力的假新闻检测

研究人员开发了AdSent，这是一种新框架，旨在通过对抗情感操控来提升假新闻检测的效果，这一脆弱性是大型语言模型暴露出来的。研究表明，情感的改变对检测准确性有显著影响，使得中立文章更容易被误判为真实新闻。AdSent采用了无关情感的训练策略，在各种数据集上展现出比现有模型更强的鲁棒性和准确性。

arXiv

143天前