OpenAI 与 Paradigm 推出 EVMbench,评估 AI 对 EVM 智能合约安全性的表现

OpenAI 与加密投资机构 Paradigm 发布了开源基准套件 EVMbench,用于评估 AI 代理和自动化工具在以太坊虚拟机(EVM)智能合约安全方面的表现。在此前公告基础上,本次完整发布包含来自 40 次审计的 120 个高严重性漏洞(包括公开审计竞赛和 Tempo 的安全工作),并提供带标签的测试用例、漏洞类型分类(如重入、访问控制、整数错误、逻辑错误等)以及可复现的评估工具链。EVMbench 以三种模式运行代理:检测(识别已知漏洞)、修补(在不破坏功能的前提下提出补丁)和利用(在隔离沙箱中尝试受控抽资),以便衡量检测率、误报、漏报和覆盖缺口,并与传统静态分析工具比较。早期结果显示模型在各任务上的表现差异显著:较新的模型(在初步测试中以 OpenAI 的 GPT-5.3-Codex 表现突出)在利用任务上优于早期模型,但检测和修补仍不完善。OpenAI 与 Paradigm 强调透明性:数据集、评估脚本和文档均公开,方便可复现比较与社区贡献。该项目既是衡量工具也是警示——随着 AI 能力提升,同样的工具既能辅助防御也可能被用于攻击,强调需加强防御与更严格的审计。对加密交易者而言,EVMbench 长期可能通过改进自动化检测和修补来降低 DeFi 漏洞利用频率与协议风险,从而间接影响市场风险,但短期价格影响尚不确定。
中性
EVMbench 主要是一个面向 EVM 智能合约的研究与测量工具,旨在改进检测、修补和利用模拟。对于文中提及或暗示的交易资产(以太坊及 DeFi 代币),该消息在短期内属于中性:基准发布和初步模型结果本身不会立刻改变漏洞利用率或代币基本面。中长期看,更广泛采用更佳的自动化审计可能降低协议级风险与利用频率,因而对以太坊生态系的 DeFi 代币具有温和的利好,提升市场对协议安全的信心。但该基准同时表明 AI 也能被用来生成攻击手法,在防御跟进之前可能会加剧攻击的复杂性。交易者应将其视为一种渐进性的结构性变化:短期价格反应有限,长期或对经过良好审计的协议风险溢价构成小幅正面影响,但在 AI 辅助攻击能力演进期间仍需保持谨慎。