绝了,Claude Fable5惨遭二次越狱,黑客20小时撬开神话防线

深度賽事分析與預測報告 - 江南体育
作者 David Thompson
发布于 2026-07-03
阅读量 5分钟阅读
深度賽事分析與預測報告 - 江南体育 深度賽事分析與預測報告 - 江南体育

Anthropic已确认,Fable模型将从7月7日起暂停订阅服务,一旦可用容量允许,将尽快恢复为标准订阅内容。

此前,Fable 5曾遭遇越狱,这是该模型安全防线第二次被攻破。黑客Vitto Rivabella公开表示,Fable 5的保护机制已被突破。

值得注意的是,此前Fable 5恢复访问时,Anthropic曾强调,上一次禁用的原因是一位亚马逊研究员发现了一种绕过其安全防护的方法。因此,此次对安全分类器进行了针对性加强。

然而,这种加强的“神话”仅维持了两天。Fable 5在重新上线后不久即被成功越狱。这使得Fable 5能否回归订阅套餐成为一个疑问。

Fable 5的“神话”在发布后72小时内便宣告破灭。6月9日发布时,Anthropic曾声称经过1000小时的外部压力测试,Fable 5不存在通用越狱方法。然而,黑客“解放者普林尼”(Pliny the Liberator)仅用了三天时间,就成功让Fable 5泄露了违禁化学品制作步骤和堆栈溢出漏洞代码。

普林尼的越狱方法利用了人类视觉和机器逻辑之间的“时差”。他通过将敏感词中的英文字母替换为西里尔字母或Unicode异形字符,使得人眼能识别,但分类器将其视为乱码。此外,他还利用Fable 5的长上下文窗口,将恶意意图隐藏在大量温和的学术讨论中,稀释了分类器的警觉性。

7月1日,Anthropic宣布Fable 5回归,并推出了名为“Cyber Jailbreak”的公开HackerOne项目,邀请用户报告可用于协助网络攻击的新越狱方法。这是一个漏洞披露计划,不提供报酬,旨在通过全球顶尖越狱高手的全天候对抗性测试来提升安全性,是Anthropic在Fable 5恢复后的一项重要安全升级,标志着从被动应对转向主动“众筹”红队。

然而,发现这些越狱方法的人并不总是会悄悄提交。像普林尼这样的行为者,其目的之一就是要让自己的行为被看见。

Fable 5再次被越狱,这是其第二次被破解。此次事件中,黑客Vitto Rivabella在耗费约20小时后,得出结论:与其费力越狱,不如直接通过谷歌搜索,这样更快且成本更低。

Fable 5于7月1日重新上线,配备了“专门针对上次漏洞加强过”的新分类器。Anthropic同时启动了HackerOne项目,公开邀请全球黑客报告新的越狱方法。几天后,Vitto Rivabella对其进行了尝试。

Vitto Rivabella的初步评估是,Fable 5的保护机制非常强大,大多数尝试均告失败。他观察到Fable 5至少包含三层防御:入场检查、实时生成的“断路器”以及集成在思维链(CoT)中的“大脑防火墙”。这些防御措施的拦截率高达90%,能够有效抵御常规攻击。分类器不仅识别关键词,更能理解意图,并具备跨语言能力。直接命令或拐弯抹角的铺垫都可能触发其恶意检测机制,导致防线重置。

据Vitto Rivabella的观察,90%的破解请求被拦截。意大利人工智能研究院的测试结果也印证了这一点,该机构发现Fable 5能够中和绝大多数静态攻击,只有耗费大量时间的“笨功夫”才有可能奏效。即使绕过分类器,思维链的防御依然存在,但公开文献中已有大量关于如何应对的方法。

Vitto Rivabella最终通过一套复杂的组合拳勉强绕过了防御,包括字符混淆、学术化包装、超长铺垫、拆解重组以及加入随机性。然而,这些方法在红队领域已公开讨论多年。真正的挑战在于,在能够实时反制的系统中,反复尝试直至成功绕过。

Vitto Rivabella提到,所有防线中相对薄弱的环节是桑塔利语、阿姆哈拉语等小语种。但这并非Fable独有的漏洞,而是所有大模型共有的问题,因为安全训练语料主要集中在英语和其他大语种,导致小语种的防护天然较弱。学术界对此已有共识,多篇论文均指出小语种防护的不足是AI安全领域普遍存在的问题。

此次越狱所获取的内容包括一些错误信息、零星的有害内容、负面言论、片段化的化学知识以及轻度的漏洞信息,均未触及“核心机密”。Vitto Rivabella本人也承认,他尚未能将这套越狱方法稳定地应用于实际的长任务中。

这与Anthropic的官方表态一致。Anthropic将目前已知的越狱方法定性为“minor”,认为它们仅能触及模型故意放宽的安全边际,而无法威胁到其真正想要阻止的生物武器或复杂网络攻击等。

两次越狱事件揭示了Anthropic在安全策略上的不同。第一次,Anthropic被指责因“傲慢”而输,试图通过限制信息垄断技术,结果其“行为宪法”——系统提示词被公开发布。第二次,Anthropic则在“盲点”上栽跟头,过度依赖算力和数据,却忽视了语言本身的流动性和欺骗性。

这反映了AI安全领域一个令人担忧的现状:人类创造了能够翻译所有语言的机器,却依然无法完全理解和预测人类内心的恶意。

留下您的精彩評論

江南体育