OpenAI 当前如何保护 ChatGPT Atlas 免受攻击及安全性无法得到保证的原因

Source:ZDNet

•

原作者:Webb Wright

•

2025年12月23日

Gemini AI生成的图像

OpenAI 开发了一种“自动攻击者”，旨在对其 Atlas AI 模型的防御进行严格测试。此举旨在通过模拟潜在攻击来增强模型的安全性，从而识别出脆弱点。这一方法体现了在人工智能安全领域的前瞻性策略，对未来的 AI 开发实践具有深远影响。

OpenAI 加强 ChatGPT Atlas 防御以应对安全隐患

OpenAI 开发了一种“自动攻击者”，作为其强化 ChatGPT Atlas 防御策略的一部分。该举措旨在在 AI 系统的漏洞被利用之前识别出这些漏洞。

ChatGPT Atlas 已经过严格的测试，以确保其安全性和可靠性。自动攻击者模拟各种网络威胁，使 OpenAI 能够找出弱点并提升模型的防御能力。

尽管取得了这些进展，OpenAI 承认无法保证完全的安全。该公司对安全性的承诺是一个持续的努力，而不是最终的目标。

随着像 ChatGPT Atlas 这样的 AI 系统越来越多地融入日常应用，安全漏洞的潜在后果变得愈加严重。OpenAI 在测试其防御方面采取的积极主动的做法，反映了对 AI 部署中需要严格安全标准的认识。