出海凯特 │ UK/EU 出海一站式服务 │ 产业出海|科技出海|HEPAI中国 │

GPT-5.2:又一次飞跃的迹象

GPT-5.2:又一次飞跃的迹象

最近,Sam Altman 发布了关于 GPT-5.2 “思考” 版本的内部基准测试泄露数据,坦率地说,这些数字让人难以置信。我们谈论的可不是一些微小的提升。

以下是一些参考数据:

  • AIME 2025: 100.0%。它成功解决了这一问题。这是一个重大的数学测试,这意味着竞争类数学问题在该模型上理论上已经 “完成”。
  • ARC-AGI-2: 这是 AGI 纯粹主义者关注的重点。从 17.6%(GPT-5.1)跃升至 52.9%。这在抽象推理和泛化方面是一个巨大的飞跃——历史上一直是 LLM 的致命弱点。
  • GDPval(知识工作):这是衡量经济的重要指标。从 38.8% 飙升至 70.9%。

值得注意的是,这突出表明了规模和推理能力的双双提升,因为这个模型采用了最大限度的推理努力。最近,看起来 OpenAI 似乎在 Gemini 的扩展中失去了优势,但这一结果表明,推理正完成一些以往被认为不可能的任务。

对于用户而言,思维模型因其在日常任务中速度较慢而不太受欢迎,无法替代 Google,但在创新领域,这具有重大意义。双重发布显示了两条路线仍在有效运作。最终,将有一个 “集大成者 “,开启超越现状的全新可能。

这对于经济来说也是一大进步。GDPval 测试涵盖了 44 种职业的明确定义的知识工作任务。

目前,该版本正在逐步推出,我们将观察实际应用是否能与这些数字相匹配。然而,我们尚未看到较低模型的表现。

这篇文章由 GPT-5.2 似乎又是一个飞跃 首次发布于 HUBFX | 全球账户 | 外汇风险管理