绝了，Claude Fable5惨遭二次越狱，黑客20小时撬开神话防线

Anthropic已确认，Fable模型将于7月7日后暂停提供订阅服务，待容量允许时将尽快恢复。

尽管如此，Fable 5已第二次被成功越狱。黑客Vitto Rivabella公开表示，他花了约20小时攻破了Fable 5的安全防护。

在此之前，Claude Fable 5恢复访问时，Anthropic曾强调，上次的禁令源于亚马逊研究人员发现了一种绕过其安全机制的方法，因此此次加强了安全分类器。然而，这种加强的防御仅维持了两天，Fable 5在发布后不久便再次被成功越狱。Fable 5能否重回订阅套餐，目前看来存在疑问。

Fable 5的“神话”在发布后72小时内便宣告破灭。6月9日，Anthropic曾宣称Fable 5在1000小时的外部压力测试中未出现通用越狱方法。但黑客“解放者普林尼”（Pliny the Liberator）仅用三天时间便获取了违禁化学品制造步骤和堆栈溢出漏洞代码。普林尼利用了人类视觉与机器逻辑的“时差”，通过替换敏感词中的英文字母为西里尔字母或Unicode异形字符，以及将恶意意图隐藏在大量温和讨论中，成功绕过了安全检测。

7月1日，Anthropic宣布Fable 5回归，并推出了“Cyber Jailbreak”公开HackerOne项目，邀请用户报告新的越狱方法。该项目为漏洞披露计划，不支付报酬，旨在通过全球黑客的测试来提升安全性。此举被视为Anthropic主动“众筹”红队，以低成本实现高效率的对抗性测试。然而，如普林尼等黑客的行为，其目的在于被看见，因此越狱信息并非总能被悄无声息地提交。

Fable 5再次被攻破，这是其第二次被越狱。此次的越狱者Vitto Rivabella在完成破解后，反而称谷歌搜索更为快捷和经济。他指出，Fable 5拥有多层安全防护，包括入场检查、实时生成的“断路器”以及内置于思维链（CoT）的防火墙，普通攻击难以奏效。其分类器不仅识别意图，还支持跨语言。Vitto Rivabella通过字符混淆、学术化包装、超长铺垫、拆解重组及随机性等组合策略，勉强绕过了防御。他提到，一个持续存在的薄弱环节是桑塔利语、阿姆哈拉语等小语种，但这并非Fable 5独有的漏洞，而是所有大型模型在安全训练语料库主要为英语和其他大语种的情况下，普遍存在的问题。

Vitto Rivabella最终获取的内容包括错误信息、零星有害内容、负面言论、片段化的化学知识和轻度漏洞信息，他认为这些内容通过谷歌搜索即可获得，且更为全面深入。他本人也承认，尚未能将此越狱方法稳定地应用于实际的长任务中。Anthropic将目前已知的越狱方法归类为“minor”，认为它们仅触及模型故意放宽的安全边界，未能威胁到如生物武器或复杂网络攻击等核心安全红线。

两次越狱事件揭示了AI安全领域的挑战。第一次越狱，Anthropic被指因“傲慢”导致系统提示词泄露。第二次越狱，则暴露了其在语言的流动性和复杂性方面的“盲点”。这表明，尽管人类创造了能翻译所有语言的机器，但要完全理解并防范人类内心的恶意，仍是一个巨大的挑战。

玩家评论

发表您的看法

最新动态

绝了，Claude Fable5惨遭二次越狱，黑客20小时撬开神话防线

玩家评论

发表您的看法