哈佛数学家在未发表研究题上评测AI表现

发布于: 2026-06-14 23:09:44 |

哈佛“First Proof, Second Batch”项目在严格条件下评测AI performance（AI表现）在研究级数学任务中的能力。30名专家对4个领先AI系统（包含OpenAI与Google的模型）提交的解答进行盲评，题目来自10个原创、未发表的研究级数学问题，均取自正在进行的科研工作（这些题目不出现在教材或arXiv等公开数据中）。关键结果：专家组在所有四个系统的测试中，给10题中的7题打出了“通过”评分。此前的试运行据称仅解出2题，表明模型可能通过多次尝试或不同提示策略而有所提升；同时评分流程仍保持盲法与不偏不倚，依据解答质量本身打分。组织者强调未发表题目为何重要：常见基准测试往往存在已知解法路线；但研究级数学可能处在“连解是否存在都不确定”的阶段。该次评测是2026年2月初始轮次的延续，项目设计为持续框架，以观察AI performance（AI表现）是否在研究数学前沿持续进步，还是在初期“基准提升”后出现平台期。总体来看，这一评测对AI performance给出了更为细致的结论：AI能够完成部分研究级任务，但在不同问题上的稳定性仍不足以让人期待“全面可靠”。

中性

这条新闻并非直接涉及加密协议、代币或监管措施，而是对AI performance（AI表现）在未发表数学研究题上的技术评估。对加密交易者而言，短期内对市场的直接影响可能很有限，因为它不会立刻关联到BTC/ETH流动性、稳定币资金流、交易所资金动向或明确的Web3催化事件。不过，它可能在“AI叙事”层面产生间接情绪影响，从而对AI相关资产形成轻微支撑。但研究结果呈现的是“细致而非极端”的结论（通过7/10，且早期试运行约2/10），因此相较于“确定突破”的消息，它更不可能引发单一、强烈的投机推动。短期：大概率中性——缺少直接交易触发点。长期：情绪层面可能略偏正面（体现AI能力进展），但任何影响也更可能是缓慢、偏行业而非币种的。类似历史中AI基准提升往往会带来短期热度，但要形成持续价格效应，通常还需要与可落地产品或明确的代币需求形成后续连接；而这则报道并未提供这样的直接链路。