Claude Fable 5 恢复上线:被美国政府"封杀"三周后重见天日,Anthropic 同时推出行业越狱评估框架
基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。
7月1日,Anthropic 的旗舰模型 Claude Fable 5 在被美国政府出口管制令强制下线三周后,正式恢复全球访问。这次事件是 AI 行业首次因政府安全管制导致大模型大规模下线又恢复的案例,Anthropic 同时联合亚马逊、微软、谷歌等公司推出了行业首个 AI 越狱严重度评估框架。
事件回顾:从高光发布到被迫下线
6月9日,Anthropic 同时发布了 Claude Fable 5 和 Claude Mythos 5 两个模型——Fable 5 面向消费者,内置强安全护栏;Mythos 5 面向少数信任合作伙伴,用于防御性网络安全,护栏更少。
好日子只过了三天。6月12日(周五傍晚),美国政府突然对这两个模型下达出口管制令,理由是亚马逊研究人员发现了一种绕过 Fable 5 安全护栏的方法——通过特定提示词,模型可以识别软件漏洞并生成利用代码。由于管制令要求立即限制所有外国用户访问,而 Anthropic 无法在实时交互中验证用户国籍,公司不得不将两个模型全面暂停。
三周后的6月26日,Mythos 5 率先恢复,但仅限美国政府预批准的组织使用。7月1日,Fable 5 终于全面恢复全球访问。
安全问题到底有多严重?
先说结论:这次被发现的"越狱"并没有暴露 Mythos 级别的网络安全能力。
Anthropic 的内部测试发现,报告中的绕过技术让 Fable 5 识别了若干软件漏洞,其中一例还生成了漏洞利用代码。但同样的漏洞识别和代码生成,其他模型也能做到——包括 Claude Opus 4.8、GPT-5.5、Kimi K2.7,甚至更轻量的 Claude Haiku 4.5 和 Sonnet 4.6 都能复现。换句话说,这不是 Fable 5 的"独门危险",而是当前这一代模型普遍具备的能力。
尽管如此,Anthropic 仍然快速升级了安全措施:
- 训练了新的安全分类器,专门针对亚马逊报告中描述的绕过技术,阻断率超过 99%
- 被阻断的请求会自动转给 Opus 4.8 处理,用户会收到通知
- Anthropic 坦诚承认:没有任何 AI 模型能完全免疫越狱,目前也没有发现 Fable 5 的"万能越狱"
行业首个越狱评估框架:四维打分
这次事件暴露了一个行业空白:当有人发现 AI 模型的越狱方法时,谁来评判这个越狱有多严重?目前没有统一标准。
Anthropic 联合亚马逊、微软、谷歌及其他 Glasswing 项目合作伙伴,起草了一个四维评估框架:
- 攻击者能力增益:越狱让攻击者获得了什么新能力?
- 能力增益范围:这种能力增益是窄域的还是广域的?
- 武器化难度:把越狱结果变成实际攻击有多容易?
- 可重复性:其他人复现这个越狱有多容易?
这个框架的目标是让 AI 开发者在面对新发现的越狱时,能快速判断严重程度、决定修复优先级,并用统一的语言向政府和行业伙伴沟通风险等级。
与美国政府的深度绑定
Fable 5 事件也让 Anthropic 和美国政府的关系发生了微妙变化。在经历了数月的公开冲突(包括诉讼和总统行政行动)后,Anthropic 这次选择了更紧密的合作路径:
- 预发布政府评估:涉及国家安全能力的模型,政府将在发布前获得独立评估权限和技术团队支持
- 快速信息共享:发现重大越狱或滥用模式时,将即时通报政府
- 24/7 越狱监控:新团队全天候监控关键越狱提交通道
- HackerOne 赏金计划:安全研究者将可提交 Fable 5 的越狱发现
Anthropic 同时承诺投入大量计算资源支持政府测试和研究,并将安全红队专长开放给政府使用。
对用户意味着什么
如果你是 Claude 用户,以下是你需要知道的:
- Fable 5 已恢复:Claude.ai、Claude Code、Claude Cowork 均可使用
- 额度安排:Pro、Max、Team 和部分 Enterprise 用户在7月7日前可使用最高 50% 的周用量额度访问 Fable 5,之后转为 usage credits 模式
- 云平台恢复待定:AWS、Google Cloud、Microsoft Foundry 上的 Fable 5 恢复时间尚未确定
- Mythos 5 仍受限:仅限美国政府预批准组织,Anthropic 正在协调扩大访问范围
这次事件也提出了一个更深层的问题:当 AI 模型的能力越来越强,政府安全审查和行业自我监管之间的边界在哪里?Fable 5 的"三周消失"可能只是未来类似事件的预演。
---
*基于 Anthropic 官方博客及 The Verge 等多家媒体转述整理*
参考来源
说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。