作者LoveSports (我要当一个渣攻)
看板Stock
标题Re: [新闻] GPT-5.2正式亮相!长文件推理逼近满分、
时间Fri Dec 12 09:58:54 2025
※ 引述《jeff0025 (无法显示人物名称)》之铭言:
: OpenAI 指出,GPT-5.2 的设计目标是协助专业人士提升效率,从制作试算表、简报、撰
: 写程式码,到解析影像、理解长文件、运用工具与执行多步骤任务。根据官方数据,一般
: 企业户平均每天可节省 40~60 分钟,重度用户甚至可省下每周10 小时以上。
官网有贴出将近二十家企业端用户早期测试组的评测
可见这次更新主要是为了专业用途
https://openai.com/zh-Hant/index/introducing-gpt-5-2/
Windsurf Warp JetBrains Augment Code Cline Charlie Labs Kilo Azad
Triple Whale Notion Zoom Box Hex Databriks Harvey Parloa
MoveWorks Shopify
上述评测企业分为三大群:
软体开发与 AI 程式设计工具、企业协作与数据平台、AI 与自动化服务
企业用户不会轻易跳槽
即使Gemini 3.0 pro或Claude Opus 4.5上市之後表现胜出
根据Ramp AI Index的统计 美国企业的AI模型采用普及率为45
https://i.imgur.com/8rAigBA.png
OPEN AI的企业采用率是34.8 Anthropic(Claude)的企业采用率是15.1
其他主要AI公司的采用率都是低於5 包括Google的Gemini在内
不过这是今年十月的统计 是在Gemini 3.0 pro上市之前
GPT5.2官网第一句话写:为专业工作与长时间运行的代理而打造
如果那些企业善用这个长任务代理的功能 将会更难跳槽
另外值得关注的是 GPT5.2的ARC-AGI-2成绩高达50几
这个测验是在测解决未知任务的推理能力(当然是模拟的)
https://i.imgur.com/N6V3Kkv.png
不过也可以看到Gemini 3.0 pro优化後的成绩从30几跳跃到50几
人类一般受试者平均是66喔
我前阵子有上测验官网做了大概六题 因为粗心错一半 所以我大概只有50左右
这些模型的流体智力已经超过我啦QQ
提供参考 我的WAIS知觉推理成绩是118 中等偏高
听说非母语环境所以有受影响(因为脑袋要同时理解外语资讯)
好恐怖 今年四月OPEN AI的o3的成绩才5~6左右耶 才过半年多 新模型就50几了
等到100的时候不知道会变怎样
: 已反应? 这次发布後好像没啥人在意 AI真的要泡沫化了吗?
: 感觉OpenAI一直强调多强好像对一般使用者来说根本无感
: Gemini有完整生态系 还送2TB云端空间 又能一个人购买多人共享
: 然後生成图片又强
一般使用者无感很正常 因为这次推出的GPT5.2是针对专业用途的
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 64.31.11.7 (日本)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1765504737.A.BBA.html
1F:推 BBKOX : 後面就智能机器啊,AI女友 12/12 10:01
2F:推 tsubasawolfy: 除了成绩你还要看他的每次对话成本,那个才是商业 12/12 10:04
3F:→ tsubasawolfy: 核心。Gemini3普通版”目前”还是在甜蜜点上。但极 12/12 10:04
4F:→ tsubasawolfy: 限版输惨了,77美vs15美。 12/12 10:04
大大说得真好 ultra会员太贵了
不过企业跟研究用户应该愿意付钱吧?
不知道之後统计出来美国企业的采用率会不会改变
※ 编辑: LoveSports (64.31.11.7 日本), 12/12/2025 10:08:26
5F:推 doubi : 企业采用 Workspace 其实也算买了半套 Gemini 12/12 10:10
6F:→ doubi : 确实 API 层面 OpenAI 先手优势依旧相当明显 12/12 10:10
7F:→ doubi : 但是 OpenAI 其实会去关心公司的使用量太低问题, 12/12 10:11
8F:→ doubi : 他们很有压力 12/12 10:11
根据纽约时报十一月底的报导
OPEN AI十月的时候公司内部就发布橙色代码警报了
(我没写错 不是前阵子那个红色代码)
================
10月份,负责ChatGPT的特利先生向全体员工发布了一项紧急通知,宣布进入「橙色警报
」状态。据四位能够访问OpenAI Slack的员工透露,特利先生在通知中写道,OpenAI正面
临「前所未有的巨大竞争压力」。他表示,这款更安全的聊天机器人新版本无法与用户建
立联系。
该通知附带一份备忘录,其中列出了各项目标。其中一项目标是在年底前将每日活跃用户
数提高5%。
================
看来他们是真的有在注意用户动态 而且很敏感
※ 编辑: LoveSports (64.31.11.7 日本), 12/12/2025 10:15:25
9F:推 chigo520 : 比较好奇这些ai的客群是要往高端专业还是普罗大众? 12/12 10:11
10F:→ chigo520 : 普罗大众比较好赚钱吧? 12/12 10:11
两者都很重要 但是应该会把重点放在企业用户?
11/11华尔街日报报导评估 Claude的公司Anthropic会比OPEN AI较早开获利
分析的原因之一是因为Anthropic重视企业用户 而且API高额收费
11F:→ doubi : Google 一旦接入公司生态,简直就变成基础建设一样 12/12 10:11
所以OPEN AI才会发布红色代码警戒?不知道市场会怎麽看GPT5.2的表现
※ 编辑: LoveSports (64.31.11.7 日本), 12/12/2025 10:21:12
12F:推 shadow0326 : M365已经把copilot变成基础建设了,但是不太好用 12/12 10:17
13F:→ shadow0326 : Google不知道能不能做得更好 12/12 10:17
14F:→ ppit : 跳来跳去也是要成本的,如果差异没拉开不会马上跳 12/12 10:18
15F:推 as6633208 : m365 copilot 就是一个例子,生态系很广啊,但是不 12/12 10:19
16F:→ as6633208 : 好用,没屌用,模型答案好用答案准确才是重点 12/12 10:19
17F:推 deathoflove : M软就是compliance强 在规范比较严格的产业会用 12/12 10:21
18F:推 kakar0to : 模型在测验ARC-AGI-2 会不会是用背答案的方式在答题 12/12 10:21
19F:→ kakar0to : 毕竟考题是有限的 总不可能无限的生出没有看过的考 12/12 10:22
20F:→ kakar0to : 题吧? 12/12 10:22
你这问题赞 ARC-AGI-1就是因为有公开题库可以背答案
所以他们才要开发ARC-AGI-2 每一个正式测验的题目都是新出的
我记得官网好像有在徵求愿意帮忙设计题目的人
※ 编辑: LoveSports (64.31.11.7 日本), 12/12/2025 10:24:17
21F:推 as6633208 : 那就厉害了,用过去训练的资料,涌现算出来接近的答 12/12 10:23
22F:→ as6633208 : 案,人工智慧 12/12 10:23
听说现在是用强AI或教师AI设计ARC-AGI-2的题目给模型锻链
没有考古题 所以高阶模型自己教自家模型怎麽模拟临机应变的推理方式
※ 编辑: LoveSports (64.31.11.7 日本), 12/12/2025 10:27:34
23F:→ bnn : 你人类也是考试背多分 然後才开始训练思考 12/12 10:26
24F:→ bnn : AI的好处甚至是背多分他还不像你人类不常用又忘记了 12/12 10:27
模型知识常识(晶体智力)很强大
常看到一些网友嘲笑LLM是笨蛋 那些人是拿一些人类靠计算机或笔算的方式去考AI
但忽略了AI没有眼睛 ARC-AGI-2就是在锻链模拟的视觉推理能力
这项如果超过大多数人可能那些笑LLM是笨蛋的再也笑不出来
比喻来说这就好像一个人流体智力到达普通程度 晶体智力却破表耶 超可怕
※ 编辑: LoveSports (64.31.11.7 日本), 12/12/2025 10:30:27
25F:推 seemoon2000 : LLM解题超越人类只是时间问题 会笑的人只是不愿面对 12/12 10:33
26F:推 fanntasy : 图里面gem3pro没有50几分的点呀? 12/12 10:55
27F:→ fanntasy : 只有30跟45(45还要耗100元@@? 12/12 10:56
感谢提醒
我没贴错但贴成没展开的
那张GPT5.2 Pro (High)右边的白色三角型是Gemini 3.0 Pro(Refine)
https://i.imgur.com/N6V3Kkv.png
右下方绿色三角形是Gemini 3.0 Pro Deep Think
※ 编辑: LoveSports (64.31.11.7 日本), 12/12/2025 10:59:23
28F:推 sdbb : 谢谢 12/12 10:59
※ 编辑: LoveSports (64.31.11.7 日本), 12/12/2025 11:00:21
29F:推 bettybuy : Ger丢判决书给他整理,大部分都是正确的,GPT不知道 12/12 11:03
30F:→ bettybuy : 准确率如何,之前法律文件类整理跟使一样 12/12 11:03
31F:→ bettybuy : /Gemini 12/12 11:04
32F:推 pippenjr : 准备喷出 12/12 11:05
33F:推 ltflame : 後面你就不用工作了,提前达到马斯克的愿景 12/12 11:06
34F:→ pippenjr : gpt应该会比gemini好 12/12 11:06
※ 编辑: LoveSports (64.31.11.7 日本), 12/12/2025 11:18:44
35F:→ ur260 : 要去哪里玩测验? 12/12 11:35
https://arcprize.org/arc-agi/2/
页面下方有三种测验 分别点TRY THIS TASK可以玩
模型没有眼睛 所以他们是这样推的
例如:
(1,1) black (1,2) red (1,3) blue....
把20X20的范例题三题读取分别的前後变化 找出规则
然後看施测考题 模拟推理出变化後是怎样的
这全程没有眼睛可以看 只能靠文字推 很容易出错 错一格就是全错
※ 编辑: LoveSports (64.31.11.7 日本), 12/12/2025 11:45:04
36F:推 as6633208 : 妈耶,我玩下来感觉我好像不如AI欸 12/12 11:43
拍拍 我觉得这些题目需要非~~~常细心又认真又花时间
问题就是很容易因为粗心出错 错一格就就是错 没有商量余地
※ 编辑: LoveSports (64.31.11.7 日本), 12/12/2025 11:47:41
37F:推 junior020486: Google这麽快就下神坛了 12/12 11:48
38F:推 ezorttc : 我都退订了 12/12 11:56
40F:→ h0103661 : pro要价128美金/M结果连字母都不会数 12/12 12:06
41F:推 h0103661 : reddit现在up最高的文章就是笑他不会数大蒜xD 12/12 12:09
我用不登入页面问有答对耶
https://i.imgur.com/PX4oZ1F.png
※ 编辑: LoveSports (64.31.11.7 日本), 12/12/2025 12:16:02
42F:推 h0103661 : 不登入是5.1,网页版5.2左上会显示而且目前只有付 12/12 12:16
43F:→ h0103661 : 费用户能用,可以去singularity板看一堆人都是 12/12 12:16
感谢分享 原来是5.2才有的现象
GPT5.1的说明:
https://i.imgur.com/WhAIS77.png
意思好像是说因为太聪明所以分类器容易疏忽而误判 分配给错误的模型导致答错
如果是故意选Pro回答那个问题 我觉得可能是故意要看高阶推理模型出糗
Gemini 3.0 pro对GPT5.2 Pro出错的说明:
网友特地选 Pro,就是因为知道 Pro 是经过**「特化训练(Specialized)」的。而在机
器学习中,越是特化的模型,通常在非专长领域的表现就越容易出现「灾难性遗忘」**。
====
Pro 本身的权重,是为了「专业语义工作」优化的(根据 PDF 第 1 页的定位)。为了在
专业任务上表现稳定(低变异),它牺牲了对字面细节的敏感度(高偏差)。
所以当 Pro 接到任务时,受限於它自身的权重设定(Weights),它看不见字母,只能
用猜的,结果猜错。
====
如果一开始就选Auto让分类器自动选派 那还转给Pro回答就真的很尴尬
如果是故意不用Auto 选用Pro回答这个问题 这算是在找碴
因为权重不一样 不能说Pro答不出来就代表"新模型GPT5.2连这题都不会"
※ 编辑: LoveSports (64.31.11.7 日本), 12/12/2025 12:17:21
44F:推 losage : 老板:剩下来的时间是为了加重各位的工作量 12/12 12:27
45F:→ strlen : 人早就不如AI了 赛道不同不用比了 12/12 13:11
※ 编辑: LoveSports (64.31.11.7 日本), 12/12/2025 13:40:31
46F:推 a3456777 : 觉得是树大招风,现在好像是批评gpt才有流量,同样 12/12 15:13
47F:→ a3456777 : 的问题我问gpt是对的,gemini是错的,但我也不会因 12/12 15:13
48F:→ a3456777 : 为这一件事去说谁好谁坏 12/12 15:13
49F:→ fitenessboyz: GPU一定还是比较香的啦 12/12 15:31
50F:推 mp5k6 : 没有色色用途 我可是不买的喔 12/12 16:11