Claude Fable 5 守护屏障疑似48小时内被绕过
AI研究员“Pliny the Liberator”声称:在Claude Fable 5(Anthropic最新模型)上线后48小时内,他就绕过了 Claude Fable 5 guardrails(安全防护屏障)。
Pliny表示,Fable 5 是在更强大的“Mythos”基础上进行安全调校的版本。他认为,即便增加了限制,仍可通过多种手段规避,包括Unicode/同形字技巧、长上下文设定、叙事/虚构框架,以及学术风格的“分解-重组”(decomposition–recomposition)流程。他还提到使用了被越狱的 Claude Opus 4.8。
对加密交易者而言,关键在于滥用风险。此前一些用户就担忧Claude早期发布可能被用于攻击加密协议与软件。若 Claude Fable 5 guardrails 的漏洞属实,威胁能力可能比市场预期更快到来。
Pliny的思路是:把原本敏感请求拆成“看起来无害”的片段,让每一步都能通过单次安全过滤;但当这些片段被拼接后,整体就可能变得可操作。
Fable 5 上线后也遭遇明显反弹,原因是限制较为严苛。用户若请求生物武器或网络安全等敏感主题,模型会先提示并将对话重定向到较弱版本。
Anthropic称其在发布阶段进行了外部漏洞赏金计划,且在超过1000小时测试中未发现“通用型”越狱。Cointelegraph联系Anthropic,但未收到即时回应。
核心关键词:Claude Fable 5 guardrails 据称可被绕过,这将提高短期内对加密生态安全风险的关注度与监测必要性。
看跌
该报道称有人在 48 小时内快速绕过 Claude Fable 5 guardrails。即便 Anthropic 强调未发现“通用型越狱”,这种标题仍会在短期内抬升加密基础设施的网络与自动化风险预期(例如钱包工具、协议监控、安全脚本以及社工流程)。在以往行情中,类似的“模型/安全绕过”消息往往会让市场对带有安全叙事的板块更谨慎(尤其是DeFi与基础设施相关标的),因为攻击者可能比修复速度更快地放大能力。
短期:交易者可能会对 DeFi、交易所等与安全事件相关的尾部风险定价,情绪偏风险回避。
长期:如果该声称被证实影响范围有限(并非通用越狱),市场可能在缓解措施到位后回归常态。但该事件也提示AI安全层并非一成不变,项目方的加固与合规成本可能持续存在,从而对情绪形成一定压制,但不一定直接摧毁基本面。