GPT-5.2：又一次飞跃的迹象

最近，Sam Altman 发布了关于 GPT-5.2 “思考” 版本的内部基准测试泄露数据，坦率地说，这些数字让人难以置信。我们谈论的可不是一些微小的提升。

以下是一些参考数据：

AIME 2025: 100.0%。它成功解决了这一问题。这是一个重大的数学测试，这意味着竞争类数学问题在该模型上理论上已经 “完成”。
ARC-AGI-2: 这是 AGI 纯粹主义者关注的重点。从 17.6%（GPT-5.1）跃升至 52.9%。这在抽象推理和泛化方面是一个巨大的飞跃——历史上一直是 LLM 的致命弱点。
GDPval（知识工作）：这是衡量经济的重要指标。从 38.8% 飙升至 70.9%。

值得注意的是，这突出表明了规模和推理能力的双双提升，因为这个模型采用了最大限度的推理努力。最近，看起来 OpenAI 似乎在 Gemini 的扩展中失去了优势，但这一结果表明，推理正完成一些以往被认为不可能的任务。

对于用户而言，思维模型因其在日常任务中速度较慢而不太受欢迎，无法替代 Google，但在创新领域，这具有重大意义。双重发布显示了两条路线仍在有效运作。最终，将有一个 “集大成者 “，开启超越现状的全新可能。

这对于经济来说也是一大进步。GDPval 测试涵盖了 44 种职业的明确定义的知识工作任务。

目前，该版本正在逐步推出，我们将观察实际应用是否能与这些数字相匹配。然而，我们尚未看到较低模型的表现。

Follow Us: