GPT-5.2居然反超谷歌Gemini 3 Pro！北大数院学友中枢孝顺

梦晨发自凹非寺

量子位 | 公众号 QbitAI

红色警报拉响，OpenAI是真急了：

30天，GPT-5.2系列紧接着GPT-5.1而来，此次还特意强化了打工智商。

这是GPT-5.1 Thinking和GPT-5.2 Thinking作念东说念主力资源表格的对比：

天然版块号只加了0.1，然而在多个实用限制都更强了：作念表格、作念PPT、写代码、默契长文档、调用用具、处理复杂多挨次技俩……

视觉默契智商也大幅升迁，GPT-5.2能准确象征出更多主板上的元件。

这是GPT-5.2作念的网页版海潮模拟器：

若是你遭受航班延误、又错过出动、需要当地过夜以及需要罕见医疗座位，听起来就很头疼。

但GPT-5.2安排好了一切：再行订机票、安排罕见座位和抵偿。

ARC-AGI也在第一技能发布了测试放手。

一年前的o3 (High) 在ARC-AGI-1测试中得分88%，平均每项任务资本为4500好意思元。

今天的GPT-5.2 Pro (X-High) ，最新SOTA得分为90.5%，平均任务资本仅为11.64好意思元，在一年内效能提高了约390倍。

同期向上了谷歌Gemini 3 Pro的对应版块（绿色点），也算扳回一局。

拆解GPT-5.2各项智商高经济价值任务

在GDPval测试中，涵盖好意思国GDP前九大产业中的44个处事限制，完成东说念主类需要4-8小时才略完成的任务。

在东说念主类评委打分下，GPT-5.2 Thinking与东说念主类众人比较有71%的胜率，GPT-5.2 Pro还能更高一些。

况兼速率是东说念主类众人的11倍以上，资本不到东说念主类众人的1%。

在投行分析师的电子表格建模任务上，GPT-5.2 Thinking平均每项任务得分比较GPT-5.1升迁了9.3%，从59.1%高潮到68.4%。这些任务包括为钞票500强公司搭建三表联动模子、构建杠杆收购模子等。

领导：您是别称投资银行分析师，刚刚接到一项任务，需要完成一份瀑布式分析，以了解首创东说念主及现存投资者的总共权和报酬情况。您的客户是一家正在酌量 C 轮融资的初创公司。

请查收附件中的模板，您需要对其进行修改。我在 G 列中添加了必要的假定。C 列的称呼在粗糙股部分重叠出现，以便于索引。假定包括退出时的股权、系列投资金额、基金总共权、认股权证、清理优先权、调整价钱、粗糙股稀释后股份数和行权价钱。假定种子轮、A 轮和 B 轮均为同等权柄的非参与性优先股（即，这些轮次的投资者享有同恭候遇；对借款东说念主的资产领有同等的索偿权）

在审查一份非常优秀的后果时，一位GDPval评委暗示：

在输出质地上令东说念主欢乐且显耀的飞跃……[它]看起来像是由一家专科公司的职工完成的，两份请托后果的布局联想和建议都出东说念办法想地出色，尽管其中一份仍存在一些小造作需要修订。

要在ChatGPT中使用新的作念表格和PPT智商，需要充值Plus、Pro、Business或 Enterprise套餐，遴荐GPT-5.2 Thinking或Pro版块。生成复杂的内容可能需要几分钟技能。

代码智商

GPT-5.2代码智商一样刷新记载，在SWE-bench Verified上，得分达到80%。

在SWE-Bench Pro这个更难的软件工程评测上，GPT-5.2 Thinking拿下55.6%的新高。

这个评测不啻测Python，还包括JavaScript、TypeScript和Go，更面对信得过工业场景。

早期测试者非常提到，GPT-5.2在前端修复和复杂UI责任上明显更强，尤其是触及3D元素的场景。

长凹凸文

长文档处理是此次升级的重头戏。

在OpenAI平正的大海捞针MRCRv2评测中，GPT-5.2 Thinking成为首个在256k 凹凸文长的4针版（4-needle variant）上达到接近100%准确率的模子。

不外8针版性能依然会随凹凸文长度明显下跌。

关于需要卓绝最大凹凸文窗口进行想考的任务，GPT-5.2 Thinking兼容破坏回答格局，粗略处理更多用具密集型、长技能初始的责任流。

视觉默契

视觉智商的升迁一样显耀。

在科学论文图表默契上，GPT-5.2 Thinking的造作率大致镌汰了一半。

更要津的是，它对图像中元素的空间位置有了更强的把捏。

在高离别率图形面屏幕截图推理测试中，阿谀Python用具得分达到86.3%。

若是禁用Python用具得分会低好多，OpenAI建议在这么的视觉任务中通通启用用具。

用具调用

用具调用智商一样达到新高度，在Tau2-bench Telecom多轮交互电话客服场景评测上，GPT-5.2 Thinking得到98.7%的获利。

Tau2-bench Retail零卖场景也达到82%。

这些获利意味着更强大的端到端责任经由，举例处分客户维持案例、从多个系统中提真金不怕火数据、初始分析以及生成最终输出，且各挨次之间的故障更少。

科学智商

OpenAI一直但愿AI能加快科学接洽，此次他们肯定GPT-5.2 Pro和GPT-5.2 Thinking是当今寰宇上最相宜扶持科学家的模子。

在GPQA Diamond接洽生水平的问答评测上，GPT-5.2 Pro拿下93.2%，GPT-5.2 Thinking紧随后来达到92.4%。

在众人级数学评测FrontierMath（Tier 1-3）上，GPT-5.2 Thinking以40.3%的解题率创下新记载。

官方还透露了一个实践案例：

接洽东说念主员使用GPT-5.2 Pro探索了统计学习表面中的一个绽放问题，在一个窄小、明确的设定下，模子提议了一个阐扬，随后被作家考据并经过同业评审。

事实准确性方面，GPT-5.2 Thinking的幻觉问题比较GPT-5.1从8.8%减少到6.2%。

不外OpenAI也领导模子仍不完好，要津内容依然需要东说念主工复核。

One More Thing

自从Meta荒诞挖东说念主以来，OpenAI都很少在接洽推崇著述后头附上孝顺者列表了，获胜和谐签字OpenAI了事。

不外从修复者相互道贺的推文中，依然不错挖出GPT-5.2的几位中枢团队成员：多为2024年之后加入OpenAI的新边幅，况兼多是数学专科树立。

Yu Bai：北大数院学友、斯坦福统计学博士，2024年5月加入OpenAI。

Yaodong Yu：UC伯克利博士毕业，2024年9月加入OpenAI。

Yufeng Zhang：本科中科大数学系、西北大学博士、字节前接洽员，2024年底加入OpenAI

梅松：北大数院学友、斯坦福忖度打算与数学工程博士、UC伯克利助理教育，2025年5月暂离学校加入OpenAI。

Ofir Nachum：MIT CS硕士毕业，前谷歌大脑接洽员，2023年加入OpenAI。

每当外界以为OpenAI推崇不足预期的时候，总有新的东说念主才带来新的惊喜。

参考王人集：

[1]https://openai.com/zh-Hans-CN/index/introducing-gpt-5-2/

91国在线啪精品一区

GPT-5.2居然反超谷歌Gemini 3 Pro！北大数院学友中枢孝顺