WayToClawEarn
高影响Ars Technica / AISI

GPT-5.5 网络安全实力曝光:与 Anthropic Mythos 正面持平,Altman 批「恐惧营销」

英国 AI 安全研究所(AISI)最新测试显示,OpenAI GPT-5.5 在网络安全能力上与 Anthropic 大肆宣传的 Mythos Preview 近乎持平。在高难度 CTF 专家级任务中 GPT-5.5 通过率达 71.4%,在 32 步企业网络渗透测试中成功率 3/10(Mythos 为 2/10)。Sam Altman 直指 Anthropic 的做法是「恐惧营销」。

2026年5月2日 · 阅读约 3 分钟

核心结论

英国 AI 安全研究所(AISI)最新测试显示,OpenAI 的 GPT-5.5 在网络安全能力上与 Anthropic 此前大肆宣传的 Mythos Preview 几乎持平。在高难度 CTF 挑战赛中,GPT-5.5 通过率达 71.4%,与 Mythos 的 68.6% 不分伯仲;在模拟企业网络的 32 步数据提取攻击测试中,GPT-5.5 成功 3/10 次,超过 Mythos 的 2/10,且此前没有模型能哪怕一次完成该测试。这一结果直接挑战了 Anthropic "模型太危险不能公开发布" 的核心叙事。

关键要点

  • 事件时间:2026 年 5 月 1 日,AISI 公布对比测试结果
  • 核心模型:OpenAI GPT-5.5(已公开上线)vs Anthropic Mythos Preview(限制发布)
  • 最大看点:GPT-5.5 在 95 项网络安全测试中与 Mythos 持平,且在某些子测试中表现更优
  • 行业影响:Anthropic 的"唯一安全威胁"叙事面临质疑,Sam Altman 称其为"恐惧营销"

背景与测试方法

2026 年 4 月,Anthropic 高调宣布其 Mythos Preview 模型具有"超出常规"的网络安全威胁能力,声称该模型"过于危险",只向"关键行业合作伙伴"有限开放。这一营销策略在业界引发广泛讨论。

但 AISI 的最新研究揭示了一个不同的图景。该机构自 2023 年以来持续使用 95 项不同的 CTF 挑战来评估前沿 AI 模型的网络安全能力,涵盖逆向工程、Web 漏洞利用、密码学等维度。

关键测试数据对比

测试维度GPT-5.5Mythos Preview此前最佳模型
专家级 CTF 通过率71.4%68.6%
TLO 网络渗透测试(32 步)3/10 成功2/10 成功0/10
Cooling Tower 电厂模拟失败失败失败
Rust 二进制反汇编器(耗时)10 分 22 秒无法完成
Rust 反汇编 API 成本$1.73

对 AI Agent 自动化工作流的启示

这次测试对比说明三个关键点:

1. 模型能力趋同,选择多样化

GPT-5.5 的出色表现表明,前沿 AI 模型的网络安全能力正在趋同。对于使用 AI Agent 做自动化内容生产的用户,这意味选择更多、供应商锁定的风险更低。

2. API 成本持续降低

GPT-5.5 只需 $1.73 的 API 调用就能在 10 分钟内完成一个 Rust 二进制反汇编任务。对于依赖 OpenAI、Claude 等 API 的内容自动化工作流来说,成本下降趋势明显。

3. 安全与开放的博弈

Anthropic 对 Mythos 的限制发布策略与 OpenAI 的公开上线形成鲜明对比。这一争议提醒 AI 工具使用者:选择模型时不仅要看能力,还要考虑供应商的开放程度和长期可用性。

AI 模型能力对比分析

相关延伸资料

工具词条

正文中自然出现的词条:OpenAIChatGPTClaudeAnthropicGPT-5.5

内链引导

免责声明:本站案例均为知识分享内容,仅供灵感与参考,不构成收益承诺;由此进行的外部执行与结果请自行判断并承担相应责任。