GPT-5.5 网络安全实力曝光：与 Anthropic Mythos 正面持平，Altman 批「恐惧营销」

英国 AI 安全研究所（AISI）最新测试显示，OpenAI GPT-5.5 在网络安全能力上与 Anthropic 大肆宣传的 Mythos Preview 近乎持平。在高难度 CTF 专家级任务中 GPT-5.5 通过率达 71.4%，在 32 步企业网络渗透测试中成功率 3/10（Mythos 为 2/10）。Sam Altman 直指 Anthropic 的做法是「恐惧营销」。

核心结论

英国 AI 安全研究所（AISI）最新测试显示，OpenAI 的 GPT-5.5 在网络安全能力上与 Anthropic 此前大肆宣传的 Mythos Preview 几乎持平。在高难度 CTF 挑战赛中，GPT-5.5 通过率达 71.4%，与 Mythos 的 68.6% 不分伯仲；在模拟企业网络的 32 步数据提取攻击测试中，GPT-5.5 成功 3/10 次，超过 Mythos 的 2/10，且此前没有模型能哪怕一次完成该测试。这一结果直接挑战了 Anthropic "模型太危险不能公开发布" 的核心叙事。

关键要点

事件时间：2026 年 5 月 1 日，AISI 公布对比测试结果
核心模型：OpenAI GPT-5.5（已公开上线）vs Anthropic Mythos Preview（限制发布）
最大看点：GPT-5.5 在 95 项网络安全测试中与 Mythos 持平，且在某些子测试中表现更优
行业影响：Anthropic 的"唯一安全威胁"叙事面临质疑，Sam Altman 称其为"恐惧营销"

背景与测试方法

2026 年 4 月，Anthropic 高调宣布其 Mythos Preview 模型具有"超出常规"的网络安全威胁能力，声称该模型"过于危险"，只向"关键行业合作伙伴"有限开放。这一营销策略在业界引发广泛讨论。

但 AISI 的最新研究揭示了一个不同的图景。该机构自 2023 年以来持续使用 95 项不同的 CTF 挑战来评估前沿 AI 模型的网络安全能力，涵盖逆向工程、Web 漏洞利用、密码学等维度。

关键测试数据对比

测试维度	GPT-5.5	Mythos Preview	此前最佳模型
专家级 CTF 通过率	71.4%	68.6%	—
TLO 网络渗透测试（32 步）	3/10 成功	2/10 成功	0/10
Cooling Tower 电厂模拟	失败	失败	失败
Rust 二进制反汇编器（耗时）	10 分 22 秒	—	无法完成
Rust 反汇编 API 成本	$1.73	—	—

对 AI Agent 自动化工作流的启示

这次测试对比说明三个关键点：

1. 模型能力趋同，选择多样化

GPT-5.5 的出色表现表明，前沿 AI 模型的网络安全能力正在趋同。对于使用 AI Agent 做自动化内容生产的用户，这意味选择更多、供应商锁定的风险更低。

2. API 成本持续降低

GPT-5.5 只需 $1.73 的 API 调用就能在 10 分钟内完成一个 Rust 二进制反汇编任务。对于依赖 OpenAI、Claude 等 API 的内容自动化工作流来说，成本下降趋势明显。

3. 安全与开放的博弈

Anthropic 对 Mythos 的限制发布策略与 OpenAI 的公开上线形成鲜明对比。这一争议提醒 AI 工具使用者：选择模型时不仅要看能力，还要考虑供应商的开放程度和长期可用性。

AI 模型能力对比分析

工具词条

正文中自然出现的词条：OpenAI、ChatGPT、Claude、Anthropic、GPT-5.5

内链引导

想深入了解 AI Agent 工具实操？看：AI Agent 工具实操教程：从安装到自动化工作流
真实案例：Claude Code 48 小时创业的完整复盘：一人+29美元月费，3个月做到月入$9,000