实测GPT5.2：OpenAI的“打工人”AI，连犯的错都牛马化了

2025-12-14 发布在科创

　　不知道大家看到大模型在那边思考了一小时会想到什么？我一般会觉得，是不是网卡了，或者服务器崩了。

　　在测试 GPT-5.2 的时候，我把自制测试题库扔给了它。然后，它开始了漫长的“思考”。一分钟，五分钟，二十分钟……屏幕几乎一片空白，只是右侧的思考栏偶尔缓慢跳出几行字，像在给我递进度条：别催，我在干活。

　　我当时心想：“怕不是 OpneAI 是不是在用我的电脑挖矿？”

　　直到它终于吐出结果的那一刻，我才意识到：它不是在摸鱼，它是在把活儿做完，而且做得像交付物。

　　实测GPT5.2：OpenAI的“打工人”AI，连犯的错都牛马化了 GPT 5.2 将白领算力化

　　2025 年 12 月 11 日，OpenAI 发布了 GPT-5.2。在铺天盖地的参数分析和技术解读中，许多人忽略了这家公司正在传递的一个信号： AI 的定位变了。

　　这一次，OpenAI 不再强调 AI 是你的 Copilot，而是将 GPT-5.2 Thinking 定义为“最适合真实场景与专业工作的模型” 。换句话说，它不再是来辅助你的，它是来直接干活的。

　　为了证明这一点，OpenAI 甚至引入了一个名为 GDPval 的全新基准测试。它抛弃了过去那种让 AI 做几道奥数题（MMLU）的传统模式，转而测试 AI 能否在 44 种职业中完成“明确定义的知识工作”，要求 AI 交付真实世界中的完整工作流。

　　我们以其中的一个测试题为例，AI 被要求为一个名为 OIIDP 的战略项目与创新部门（SPIU）从零设计一套核心人才战略。该任务要求方案必须建立一套标准化的 8 个月成长周期，明确涵盖 FTEs、研究员及特聘人员，它需要设计出具体的“导师路线图”与“个人发展计划（IDP）”，并规划月度会议与季度社交活动的详细流程。

　　实测GPT5.2：OpenAI的“打工人”AI，连犯的错都牛马化了

　　这种原本需要资深 HR 专家耗费数周规划的方案，现在 AI 可以快速产出。

　　数据显示，GPT-5.2 Thinking 版本在 70.9% 的此类任务中，表现优于或持平于人类行业专家。

　　同一天，Google 也在推 Gemini Deep Research 之类的“研究代理”更新，节奏像是两家在同一个赛道里互相追尾。

　　你会发现，一个新共识正在冒出来：大模型不再只是写几段顺滑的文字，它要把一整段白领流程吃掉。

一小时的测试，GPT5.2 真在干活

　　那么，这个要做“打工人”AI的模型，真实表现如何？

　　我按 GDPval 的“交付物导向”自己做了 15 道题：预计总测试时间 8–12 小时那种，把投行、HR、软件工程、事故复盘、并购尽调、图表分析、工具调用全塞进去了。

　　实测GPT5.2：OpenAI的“打工人”AI，连犯的错都牛马化了

　　题库里我故意把任务做得很像真实公司会丢给中间层的活：既要专业内容，也要格式、结构、可用性。比如：

　　投行三表 + 估值：不是让它算个增长率，而是让它按投行标准搭完整三表联动、做 2025–2029 收入拆分、三场景、DCF、可比公司倍数，连“蓝色输入、黑色公式、绿色外链”这种洁癖都写进要求里。

　　这类活在现实里通常给谁？给初级分析师，让他在 Excel 地狱里练手，练到手指有肌肉记忆。

　　跨国 HR 扩张方案：从 850 人扩到 2000 人，做 18 个月滚动编制、招聘漏斗、内部流动、人力成本预算、三种风险场景，还要给可视化。

　　这就是“HR 版三表”，是组织能力与现金流的混合题。

　　我盯着它“Thinking”转圈的时候，第一个奇怪的感觉是：

　　它不像在“答题”，更像在“走流程”。你能看到它在拆任务、立结构、补缺口，最后吐出来的是一堆你真的可以拿去交差的东西。

　　实测GPT5.2：OpenAI的“打工人”AI，连犯的错都牛马化了

　　我们来看看结果。

　　以第一个投行场景测试为例，它给出了一系列交付物，我们将GPT 5.2给出的答案交给 Gemini3 来评分。发现还是存在问题。

　　Gemini3：该模型完成了 80% 的工作量，但剩下的 20% 包含致命错误。模型构建了完整的“三表联动”框架，在收入驱动因子（Revenue Drivers）和损益表（Income Statement）的各项假设设定上高度还原了题目要求。然而，由于资产负债表存在严重的公式引用错误（Bug），导致营运资本计算失效，进而使 DCF 估值结果严重失真。

　　我又问了一下，这种错误是不是常见。

　　Gemini3：你遇到的这个错误是初级分析师成长的必经之路。它提醒我们：Excel 建模不仅是关于财务逻辑，更是关于对细节的极致管理。在提交给客户之前，一定要做最后一步的“合理性自查”。

　　实测GPT5.2：OpenAI的“打工人”AI，连犯的错都牛马化了