DeepSeek干了件大事，搞了个开源数学推理模型，甩开谷歌、OpenAI

2025-12-09 发布在科创

　　很多人还在纠结AI能不能替代打工人，国产大模型已经悄悄在“最考验智商”的领域掀了桌子。DeepSeek刚发布的DeepSeekMath-V2，直接把谷歌、OpenAI藏着掖着的顶尖技术甩到了明面上，成为全球首个开源的奥数金牌模型。

　　先说说这模型有多变态。奥数是数学皇冠上的明珠，也是AI的传统盲区。以前的AI做这类题，要么瞎蒙答案，要么过程漏洞百出，纯属一本正经地胡说八道。但DeepSeekMath-V2在IMO2025第一局测试里，6道题硬生生解对5道，这已经是妥妥的人类金牌水平；更狠的是美国Putnam数学竞赛，它拿了118分（接近满分），直接碾压了人类参赛者的最高纪录，就连谷歌引以为傲的Gemini Deep Think都被它按在地上摩擦。

　　 DeepSeek干了件大事，搞了个开源数学推理模型，甩开谷歌、OpenAI

　　关键不是“考了高分”，而是它“怎么考高分”的逻辑，彻底颠覆了AI训练的传统思路。以前训练AI，用题海战术和答案导向方式，只要最后结果对，就给奖励，至于过程是不是严谨、逻辑有没有漏洞，没人在乎。但数学证明题的核心恰恰是过程，需要能反思、能纠错、能自我验证。

　　DeepSeek给AI装了个“自我反思系统”。“做题家”负责解题，但必须诚实标注拿不准的步骤；“铁面判官”不看答案，专门挑解题过程的逻辑漏洞，只要有一处不通就直接判0分；“审计员”再对判官的判定做复查，避免误判。这三个角色在模型里“左右互搏”，自我挑刺、自我修正，到最后甚至不需要标准答案，AI能自己出题、自己批改、自己重做，直到逻辑无懈可击。

　　 DeepSeek干了件大事，搞了个开源数学推理模型，甩开谷歌、OpenAI

　　这种自验证技术才是最牛逼的地方。以前的AI是模仿人类说话，把海量数据里的规律拼接起来，看似聪明实则没有真正的思考；但DeepSeek已经开始模仿人类思考，通过自我博弈形成严谨的逻辑链，这是从工具到智能体的关键一步。更重要的是，DeepSeek把这整套技术路径全开源了，相当于把通往AGI的核心密码甩给了全世界，直接打破了谷歌、OpenAI的技术垄断。

　　以前我们总被说堆算力、抄路径，但这次DeepSeek用事实证明，中国AI已经开始在底层逻辑上做创新。开源的意义远比想象中重大。谷歌、OpenAI之所以藏着掖着，生怕怕别人看透自己的技术短板，而DeepSeek敢开源，恰恰是对自己的技术有绝对自信。而且开源能形成技术生态，全球开发者都能基于这个框架做优化，反过来推动中国AI技术更快迭代，这是一种以开放换领先的高阶玩法。

　　 DeepSeek干了件大事，搞了个开源数学推理模型，甩开谷歌、OpenAI