作者LoveSports (我要当一个渣攻)
看板Stock
标题Re: [新闻] OpenAI危险了!DeepSeek正式发布V3.2 性
时间Fri Dec 5 13:00:32 2025
※ 引述《xross (xross)》之铭言:
: 才没几天
: Deepmind 就又突然出个 Deep Think 版 也是强调 IMO ICPC 数学 AI
: "gold medal winning IMO and ICPC technologies"
: https://x.com/demishassabis/status/1996683917991334300
: 时间点上 不是巧合吧
: 怎麽看都像是逼对方出招啊
: 说好的垃圾时间呢???
关於这个赢得IMO金牌的Gemini pro Deep Think功能,
7/21 Google的DeepMind官网,就已经公开说明,
之後会制作一个版本,交给专家小组(包括数学家)测试後,於Google AI Ultra平台推出。
We will be making a version of this Deep Think model available to a set of
trusted testers, including mathematicians, before rolling it out to Google AI
Ultra subscribers.
https://i.imgur.com/4uwgTa3.png
也就是说,这本来就是计画好要推出的东西,
只是七月到现在需要先给专家测试过用户版本。
官网公告
https://deepmind.google/blog/advanced-version-of-gemini-with-deep-think-
officially-achieves-gold-medal-standard-at-the-international-mathematical-
olympiad/
缩网址
https://reurl.cc/KOe5Wm
顺带一提,GPT那边也是一样,
以下是科学人访问OPEN AI的IMO竞赛用模型的研发工程师,文章日期是今年8/21,
他们说期待在未来的模型中整合竞赛用模型的推理能力。
Those contributed alot to the success here, and now we and others at OpenAI
are applying thembeyond math. It’s not in GPT-5, but in future models, we’
re excited tointegrate these capabilities.
https://i.imgur.com/wXHkN0t.png
有提到八月初推出的GPT5,并没有包含IMO竞赛模型的推论能力在内。
所以之後应该是还有精彩对决可以看。
科学人访谈网址
https://www.scientificamerican.com/article/openai-model-earns-gold-medal-score
-at-international-math-olympiad-and/
缩网址
https://reurl.cc/bNVo2E
从两篇文章看来,IMO竞赛模型最主要擅长的似乎是花时间思考,处理复杂的任务。
此外最特别的是,两家公司的模型都分别在竞赛过程中,六题中只回答了五题,
有一题是在模型判断自己不会之後,选择不回答。
这代表这类深度思考模型可能具备不知道就承认不知道的能力。
这种能力是靠「後训练」锻链出来的,大家常说的scaling是「预训练」。
「後训练」强化推理能力主要有以下这些方法:
1. RLHF(以人类偏好训练)
2. PPO / DPO
3. CoT 强化训练(chain-of-thought fine-tuning)
4. 推理微调(reasoning fine-tuning)
5. RAI(Reinforced Active Instruction)
6. Q* 类 self-consistency 或自我反思训练(self-training)
7. 用大量人工标注或模型自产的推理轨迹做强化学习
8. 蒐集更高品质的推理数据做微调
(以上是GPT5.1列的,拿给Gemini 3.0 pro检查过)
根据Gemini 3.0 pro解说的内容,
比喻来说,预训练锻链的是,类似人类全智商的潜力,本质是晶体智力的极致,
例如看过的所有书跟网路资讯。这部分目前已经很难再拉出差距。
後训练锻链的则是模拟临机应变的能力,利用思维链模拟推理,找出最佳解答路径,
比喻来说类似人类的流体智力,ARC-AGI-2的测试成绩就是在测这个,
简言之,模型会模拟人类活用潜能的能力。
现在各家在比的是看谁做後训练的技巧更高段,或许会拉出明显差距?
======
晶体智力是透过家庭学校跟自学得到的知识、技能与常识,这是靠後天获得的。
流体智力则是天生的能力,像马盖仙那样临机应变,或是像科学家那样突发奇想,
人类的这种能力很难靠後天培养,而且据说会随着年龄衰退QQ
ARC-AGI-2的成绩 (这个测验的测试方法看起来很像WAIS智力测验的知觉推理)
https://arcprize.org/arc-agi/2/ 测验简介
https://arcprize.org/leaderboard 排行榜图表
https://i.imgur.com/s3E6SRB.png 排行榜截图
Gemini 3.0 pro Deep Think高达45%
Claude Opus 4.5 Thinking 64k: 37.6%
Gemini 3.0 pro: 31.1%
GPT 5 pro: 18.3%
GPT 5.1 Thinking (High): 17.6%
Grok 4 Thinking: 16.0%
这个测验有找人类来测试 人类中聪明的专家小组施测结果是98-100%
人类一般人平均是60几~70几 据说人类小学生大概30几
--
在下没有鼓吹买AI相关股的意思 请慎防AI相关股泡沫崩坏
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 45.250.255.20 (日本)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1764910836.A.5F1.html
1F:推 BBKOX : 会计师准备失业了? 12/05 13:05
※ 编辑: LoveSports (45.250.255.20 日本), 12/05/2025 13:10:23
2F:推 dogalan : 感觉好扯 最近用Opus4.5就已经惊讶到不要不要的了 12/05 13:11
3F:推 atpx : 怎麽看结论只有小学程度?现在就能拿IMO金牌应该没 12/05 13:50
4F:→ atpx : 这麽差。感觉有机会训练出自己能导公式的ai了,各 12/05 13:50
5F:→ atpx : 大猜想要证明了吗 12/05 13:50
6F:推 sdbb : 谢谢 12/05 13:55
7F:→ JoeyChen : 最近好像真的有AI独自证明猜想 12/05 14:24