作者LoveSports (我要当一个渣攻)

看板Stock

标题

Re: [新闻] GPT-5.2正式亮相！长文件推理逼近满分、

时间Fri Dec 12 09:58:54 2025

※ 引述《jeff0025 (无法显示人物名称)》之铭言： : OpenAI 指出，GPT-5.2 的设计目标是协助专业人士提升效率，从制作试算表、简报、撰 : 写程式码，到解析影像、理解长文件、运用工具与执行多步骤任务。根据官方数据，一般 : 企业户平均每天可节省 40～60 分钟，重度用户甚至可省下每周10 小时以上。官网有贴出将近二十家企业端用户早期测试组的评测可见这次更新主要是为了专业用途 https://openai.com/zh-Hant/index/introducing-gpt-5-2/ Windsurf Warp JetBrains Augment Code Cline Charlie Labs Kilo Azad Triple Whale Notion Zoom Box Hex Databriks Harvey Parloa MoveWorks Shopify 上述评测企业分为三大群：软体开发与 AI 程式设计工具、企业协作与数据平台、AI 与自动化服务企业用户不会轻易跳槽即使Gemini 3.0 pro或Claude Opus 4.5上市之後表现胜出根据Ramp AI Index的统计美国企业的AI模型采用普及率为45 https://i.imgur.com/8rAigBA.png OPEN AI的企业采用率是34.8 Anthropic(Claude)的企业采用率是15.1 其他主要AI公司的采用率都是低於5 包括Google的Gemini在内不过这是今年十月的统计是在Gemini 3.0 pro上市之前 GPT5.2官网第一句话写：为专业工作与长时间运行的代理而打造如果那些企业善用这个长任务代理的功能将会更难跳槽另外值得关注的是 GPT5.2的ARC-AGI-2成绩高达50几这个测验是在测解决未知任务的推理能力(当然是模拟的) https://i.imgur.com/N6V3Kkv.png 不过也可以看到Gemini 3.0 pro优化後的成绩从30几跳跃到50几人类一般受试者平均是66喔我前阵子有上测验官网做了大概六题因为粗心错一半所以我大概只有50左右这些模型的流体智力已经超过我啦QQ 提供参考我的WAIS知觉推理成绩是118 中等偏高听说非母语环境所以有受影响(因为脑袋要同时理解外语资讯) 好恐怖今年四月OPEN AI的o3的成绩才5~6左右耶才过半年多新模型就50几了等到100的时候不知道会变怎样 : 已反应? 这次发布後好像没啥人在意 AI真的要泡沫化了吗? : 感觉OpenAI一直强调多强好像对一般使用者来说根本无感 : Gemini有完整生态系还送2TB云端空间又能一个人购买多人共享 : 然後生成图片又强一般使用者无感很正常因为这次推出的GPT5.2是针对专业用途的 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 64.31.11.7 (日本) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1765504737.A.BBA.html

1^F：推 BBKOX : 後面就智能机器啊，AI女友 12/12 10:01

2^F：推 tsubasawolfy: 除了成绩你还要看他的每次对话成本，那个才是商业 12/12 10:04

3^F：→ tsubasawolfy: 核心。Gemini3普通版”目前”还是在甜蜜点上。但极 12/12 10:04

4^F：→ tsubasawolfy: 限版输惨了，77美vs15美。 12/12 10:04

大大说得真好 ultra会员太贵了不过企业跟研究用户应该愿意付钱吧？不知道之後统计出来美国企业的采用率会不会改变 ※ 编辑: LoveSports (64.31.11.7 日本), 12/12/2025 10:08:26

5^F：推 doubi : 企业采用 Workspace 其实也算买了半套 Gemini 12/12 10:10

6^F：→ doubi : 确实 API 层面 OpenAI 先手优势依旧相当明显 12/12 10:10

7^F：→ doubi : 但是 OpenAI 其实会去关心公司的使用量太低问题， 12/12 10:11

8^F：→ doubi : 他们很有压力 12/12 10:11

根据纽约时报十一月底的报导 OPEN AI十月的时候公司内部就发布橙色代码警报了 (我没写错不是前阵子那个红色代码) ================ 10月份，负责ChatGPT的特利先生向全体员工发布了一项紧急通知，宣布进入「橙色警报」状态。据四位能够访问OpenAI Slack的员工透露，特利先生在通知中写道，OpenAI正面临「前所未有的巨大竞争压力」。他表示，这款更安全的聊天机器人新版本无法与用户建立联系。该通知附带一份备忘录，其中列出了各项目标。其中一项目标是在年底前将每日活跃用户数提高5%。 ================ 看来他们是真的有在注意用户动态而且很敏感 ※ 编辑: LoveSports (64.31.11.7 日本), 12/12/2025 10:15:25

9^F：推 chigo520 : 比较好奇这些ai的客群是要往高端专业还是普罗大众？ 12/12 10:11

10^F：→ chigo520 : 普罗大众比较好赚钱吧？ 12/12 10:11

两者都很重要但是应该会把重点放在企业用户？ 11/11华尔街日报报导评估 Claude的公司Anthropic会比OPEN AI较早开获利分析的原因之一是因为Anthropic重视企业用户而且API高额收费

11^F：→ doubi : Google 一旦接入公司生态，简直就变成基础建设一样 12/12 10:11

所以OPEN AI才会发布红色代码警戒？不知道市场会怎麽看GPT5.2的表现 ※ 编辑: LoveSports (64.31.11.7 日本), 12/12/2025 10:21:12

12^F：推 shadow0326 : M365已经把copilot变成基础建设了，但是不太好用 12/12 10:17

13^F：→ shadow0326 : Google不知道能不能做得更好 12/12 10:17

14^F：→ ppit : 跳来跳去也是要成本的,如果差异没拉开不会马上跳 12/12 10:18

15^F：推 as6633208 : m365 copilot 就是一个例子，生态系很广啊，但是不 12/12 10:19

16^F：→ as6633208 : 好用，没屌用，模型答案好用答案准确才是重点 12/12 10:19

17^F：推 deathoflove : M软就是compliance强在规范比较严格的产业会用 12/12 10:21

18^F：推 kakar0to : 模型在测验ARC-AGI-2 会不会是用背答案的方式在答题 12/12 10:21

19^F：→ kakar0to : 毕竟考题是有限的总不可能无限的生出没有看过的考 12/12 10:22

20^F：→ kakar0to : 题吧? 12/12 10:22

你这问题赞 ARC-AGI-1就是因为有公开题库可以背答案所以他们才要开发ARC-AGI-2 每一个正式测验的题目都是新出的我记得官网好像有在徵求愿意帮忙设计题目的人 ※ 编辑: LoveSports (64.31.11.7 日本), 12/12/2025 10:24:17

21^F：推 as6633208 : 那就厉害了，用过去训练的资料，涌现算出来接近的答 12/12 10:23

22^F：→ as6633208 : 案，人工智慧 12/12 10:23

听说现在是用强AI或教师AI设计ARC-AGI-2的题目给模型锻链没有考古题所以高阶模型自己教自家模型怎麽模拟临机应变的推理方式 ※ 编辑: LoveSports (64.31.11.7 日本), 12/12/2025 10:27:34

23^F：→ bnn : 你人类也是考试背多分然後才开始训练思考 12/12 10:26

24^F：→ bnn : AI的好处甚至是背多分他还不像你人类不常用又忘记了 12/12 10:27

模型知识常识(晶体智力)很强大常看到一些网友嘲笑LLM是笨蛋那些人是拿一些人类靠计算机或笔算的方式去考AI 但忽略了AI没有眼睛 ARC-AGI-2就是在锻链模拟的视觉推理能力这项如果超过大多数人可能那些笑LLM是笨蛋的再也笑不出来比喻来说这就好像一个人流体智力到达普通程度晶体智力却破表耶超可怕 ※ 编辑: LoveSports (64.31.11.7 日本), 12/12/2025 10:30:27

25^F：推 seemoon2000 : LLM解题超越人类只是时间问题会笑的人只是不愿面对 12/12 10:33

26^F：推 fanntasy : 图里面gem3pro没有50几分的点呀？ 12/12 10:55

27^F：→ fanntasy : 只有30跟45（45还要耗100元@@? 12/12 10:56

感谢提醒我没贴错但贴成没展开的那张GPT5.2 Pro (High)右边的白色三角型是Gemini 3.0 Pro(Refine) https://i.imgur.com/N6V3Kkv.png 右下方绿色三角形是Gemini 3.0 Pro Deep Think ※ 编辑: LoveSports (64.31.11.7 日本), 12/12/2025 10:59:23

28^F：推 sdbb : 谢谢 12/12 10:59

※ 编辑: LoveSports (64.31.11.7 日本), 12/12/2025 11:00:21

29^F：推 bettybuy : Ger丢判决书给他整理，大部分都是正确的，GPT不知道 12/12 11:03

30^F：→ bettybuy : 准确率如何，之前法律文件类整理跟使一样 12/12 11:03

31^F：→ bettybuy : /Gemini 12/12 11:04

32^F：推 pippenjr : 准备喷出 12/12 11:05

33^F：推 ltflame : 後面你就不用工作了，提前达到马斯克的愿景 12/12 11:06

34^F：→ pippenjr : gpt应该会比gemini好 12/12 11:06

※ 编辑: LoveSports (64.31.11.7 日本), 12/12/2025 11:18:44

35^F：→ ur260 : 要去哪里玩测验？ 12/12 11:35

https://arcprize.org/arc-agi/2/ 页面下方有三种测验分别点TRY THIS TASK可以玩模型没有眼睛所以他们是这样推的例如: (1,1) black (1,2) red (1,3) blue.... 把20X20的范例题三题读取分别的前後变化找出规则然後看施测考题模拟推理出变化後是怎样的这全程没有眼睛可以看只能靠文字推很容易出错错一格就是全错 ※ 编辑: LoveSports (64.31.11.7 日本), 12/12/2025 11:45:04

36^F：推 as6633208 : 妈耶，我玩下来感觉我好像不如AI欸 12/12 11:43

拍拍我觉得这些题目需要非~~~常细心又认真又花时间问题就是很容易因为粗心出错错一格就就是错没有商量余地 ※ 编辑: LoveSports (64.31.11.7 日本), 12/12/2025 11:47:41

37^F：推 junior020486: Google这麽快就下神坛了 12/12 11:48

38^F：推 ezorttc : 我都退订了 12/12 11:56

39^F：推 h0103661 : https://i.meee.com.tw/IRfL1MG.png 12/12 12:06

40^F：→ h0103661 : pro要价128美金/M结果连字母都不会数 12/12 12:06

41^F：推 h0103661 : reddit现在up最高的文章就是笑他不会数大蒜xD 12/12 12:09

我用不登入页面问有答对耶 https://i.imgur.com/PX4oZ1F.png ※ 编辑: LoveSports (64.31.11.7 日本), 12/12/2025 12:16:02

42^F：推 h0103661 : 不登入是5.1，网页版5.2左上会显示而且目前只有付 12/12 12:16

43^F：→ h0103661 : 费用户能用，可以去singularity板看一堆人都是 12/12 12:16

感谢分享原来是5.2才有的现象 GPT5.1的说明: https://i.imgur.com/WhAIS77.png 意思好像是说因为太聪明所以分类器容易疏忽而误判分配给错误的模型导致答错如果是故意选Pro回答那个问题我觉得可能是故意要看高阶推理模型出糗 Gemini 3.0 pro对GPT5.2 Pro出错的说明: 网友特地选 Pro，就是因为知道 Pro 是经过**「特化训练（Specialized）」的。而在机器学习中，越是特化的模型，通常在非专长领域的表现就越容易出现「灾难性遗忘」**。 ==== Pro 本身的权重，是为了「专业语义工作」优化的（根据 PDF 第 1 页的定位）。为了在专业任务上表现稳定（低变异），它牺牲了对字面细节的敏感度（高偏差）。所以当 Pro 接到任务时，受限於它自身的权重设定（Weights），它看不见字母，只能用猜的，结果猜错。 ==== 如果一开始就选Auto让分类器自动选派那还转给Pro回答就真的很尴尬如果是故意不用Auto 选用Pro回答这个问题这算是在找碴因为权重不一样不能说Pro答不出来就代表"新模型GPT5.2连这题都不会" ※ 编辑: LoveSports (64.31.11.7 日本), 12/12/2025 12:17:21

44^F：推 losage : 老板：剩下来的时间是为了加重各位的工作量 12/12 12:27

45^F：→ strlen : 人早就不如AI了赛道不同不用比了 12/12 13:11

※ 编辑: LoveSports (64.31.11.7 日本), 12/12/2025 13:40:31

46^F：推 a3456777 : 觉得是树大招风，现在好像是批评gpt才有流量，同样 12/12 15:13

47^F：→ a3456777 : 的问题我问gpt是对的，gemini是错的，但我也不会因 12/12 15:13

48^F：→ a3456777 : 为这一件事去说谁好谁坏 12/12 15:13

49^F：→ fitenessboyz: GPU一定还是比较香的啦 12/12 15:31

50^F：推 mp5k6 : 没有色色用途我可是不买的喔 12/12 16:11

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Stock 板

Re: [新闻] GPT-5.2正式亮相！长文件推理逼近满分、

热门看板

赞助商连结