哈佛数学家在未发表研究题上评测AI表现

哈佛“First Proof, Second Batch”项目在严格条件下评测AI performance(AI表现)在研究级数学任务中的能力。30名专家对4个领先AI系统(包含OpenAI与Google的模型)提交的解答进行盲评,题目来自10个原创、未发表的研究级数学问题,均取自正在进行的科研工作(这些题目不出现在教材或arXiv等公开数据中)。 关键结果:专家组在所有四个系统的测试中,给10题中的7题打出了“通过”评分。此前的试运行据称仅解出2题,表明模型可能通过多次尝试或不同提示策略而有所提升;同时评分流程仍保持盲法与不偏不倚,依据解答质量本身打分。 组织者强调未发表题目为何重要:常见基准测试往往存在已知解法路线;但研究级数学可能处在“连解是否存在都不确定”的阶段。 该次评测是2026年2月初始轮次的延续,项目设计为持续框架,以观察AI performance(AI表现)是否在研究数学前沿持续进步,还是在初期“基准提升”后出现平台期。 总体来看,这一评测对AI performance给出了更为细致的结论:AI能够完成部分研究级任务,但在不同问题上的稳定性仍不足以让人期待“全面可靠”。
中性
这条新闻并非直接涉及加密协议、代币或监管措施,而是对AI performance(AI表现)在未发表数学研究题上的技术评估。对加密交易者而言,短期内对市场的直接影响可能很有限,因为它不会立刻关联到BTC/ETH流动性、稳定币资金流、交易所资金动向或明确的Web3催化事件。 不过,它可能在“AI叙事”层面产生间接情绪影响,从而对AI相关资产形成轻微支撑。但研究结果呈现的是“细致而非极端”的结论(通过7/10,且早期试运行约2/10),因此相较于“确定突破”的消息,它更不可能引发单一、强烈的投机推动。 短期:大概率中性——缺少直接交易触发点。 长期:情绪层面可能略偏正面(体现AI能力进展),但任何影响也更可能是缓慢、偏行业而非币种的。类似历史中AI基准提升往往会带来短期热度,但要形成持续价格效应,通常还需要与可落地产品或明确的代币需求形成后续连接;而这则报道并未提供这样的直接链路。