作者qazxc1156892 (QQ)
看板Stock
标题[新闻] 紧咬Anthropic!OpenAI同日推GPT-5.3-Cod
时间Fri Feb 6 22:25:52 2026
原文标题: 紧咬Anthropic!OpenAI同日推GPT-5.3-Codex 跑分碾压Opus 4.6
原文连结:
https://ai.ettoday.net/news/3114219
发布时间: 2026年02月6日 08:48
记者署名: 吴立言
原文内容:
两大 AI 巨头 Anthropic 与 OpenAI 於今日接连发布重大更新。
Anthropic 首先发表 Cl
aude Opus 4.6,主打极长文本处理能力;
OpenAI 一小时後随即宣布推出 GPT-5.3-Codex
,并公布数据显示其在编码实战测试中展现出显着的领先优势。
Claude Opus 4.6:导入深度思考机制与多代理协作
Anthropic 此次更新重点聚焦於大规模资讯处理与逻辑稳定性。
Claude Opus 4.6 将上下
文视窗(Context Window)扩展至 100 万 Token,相较於前代版本提升 5 倍之多。技术
层面上,该模型导入了「思考决策点」功能,使模型能辨识问题复杂度,自主决定是否启
动深度推理流程。
此外,
Opus 4.6 强化了多代理(Multi-agent)协作能力,并在长文本记忆留存率上提升
近 4 倍,旨在解决长对话中常见的指令遗忘与逻辑断层问题,针对大型专案的架构分析
提供了更稳定的基础。
GPT-5.3-Codex:优化生成效率与 OS 层级操控
面对 Anthropic 的挑战,
OpenAI 推出的 GPT-5.3-Codex 则在编码基准测试中交出了亮
眼成绩。数据显示,该模型在 SWE-bench Pro(57%)、TerminalBench 2.0(76%) 及 O
SWorld(64%) 等测试中,皆取得目前业界最高水准。
除了跑分优势,GPT-5.3-Codex 在开发体验上有两项核心突破:
中途干预能力(Mid-task Steerability): 支持任务执行过程中的即时引导与动态更新
,大幅降低复杂开发任务的错误成本。
效能密度提升: 生成相同内容所需 Token 数降至 5.2-Codex 的一半以下,且每 Token
生成速率提升超过 25%,显着优化了推理成本与延迟。
这两款模型的发布显示出两家公司发展策略的差异化:Claude 倾向於成为具备超长记忆
与深度逻辑的「数位大脑」;而 GPT-5.3-Codex 则朝向具备系统操作能力、高效率且可
高度受控的「执行工具」进化。
随着 GPT-5.3-Codex 正式上线,开发者将有机会直接对比这两款顶尖模型在实际工作流
中的表现差异。
心得/评论:
Google Gemini表示:.......
现在AI变成跟智慧型手机一样比跑分了
这两款token都一下子就用完了
Open酱看起来真的急了
以前是领头羊 现在被追赶着不挤牙膏了
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 223.137.178.34 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1770387954.A.56C.html
1F:推 devidevi : 跑分是啥鬼东西 02/06 22:27
2F:推 iwcuforever : 每个月轮流测不同工具,目前来说还真的各有各优点 02/06 22:27
3F:推 gladopo : 最近open酱的更新看来不错,急了 02/06 22:27
4F:推 b2060027830 : google 下去 02/06 22:28
5F:→ iwcuforever : Gemini强在多模态和notebooklm生简报,Claude生出 02/06 22:30
6F:→ iwcuforever : 的文本就是比较严谨和有逻辑性,Chatgpt感觉就中庸 02/06 22:30
7F:→ iwcuforever : 版本 02/06 22:30
8F:推 kanehhh : 哪个模型能降低记忆体的需求就是利多 02/06 22:37
9F:推 yousking : 欧喷酱最近中文很强,给股票分析模型还会有(喷爆) 02/06 22:38
10F:→ yousking : 等字眼.... 02/06 22:38
11F:推 jackychen122: Gemini写程式跟老顽固博士生一样,不停不做就是不做 02/06 22:40
12F:推 offstage : 搞不好被喂进了PTT股板当学习资料 02/06 22:41
13F:推 George72 : 紧咬 是落後者的动词 02/06 22:45
14F:→ csgowen : 写程式还是喜欢claude 02/06 22:47
15F:→ LimYoHwan : 手机用户通常主力一只,写程式很多人是claude, code 02/06 22:48
16F:→ LimYoHwan : x, gemini三个都打开来用好吗 02/06 22:48
17F:→ LimYoHwan : Claude, codex左右互搏,gemini负责ui设计 02/06 22:49
18F:推 Toge : 其实我觉得codex写code略强一点,但Claude很适合当 02/06 22:50
19F:→ Toge : 老师 02/06 22:50
20F:→ LimYoHwan : 看新闻说claude比较强的人一看就知道没用真的用过, 02/06 22:52
21F:→ LimYoHwan : 就算5.2都不输 02/06 22:52
22F:推 pt993526 : Gpt目前速度有感提升 02/06 22:53
23F:推 tarcowang : openAI是不是有派卧底啊? 02/06 22:53
24F:推 sova0809 : 这两个打架 受伤的是其他软体公司 02/06 22:53
25F:→ jjjj222 : 看我跑分, 好像之前安卓机出来会说的话 02/06 22:55
26F:推 Toge : codex一口气写出想要的功能机率比较高 02/06 22:55
27F:推 Faker0613 : 说codex比较屌是没用过claude code+skills喔 干根 02/06 23:05
28F:→ Faker0613 : 本屌打codex 02/06 23:05
29F:→ redbeanbread: 挤牙膏喔 人家出你才出 02/06 23:06
30F:推 tsubasawolfy: Codex 5.3抓bug能力有吓到。讲了一下某步骤的数字 02/06 23:09
31F:→ tsubasawolfy: 跟原始资料有落差而已,他就开始顺着开着文档内的 02/06 23:09
32F:→ tsubasawolfy: 位址一个script爬过一个检查。然後要求系统权限开 02/06 23:09
33F:→ tsubasawolfy: 始对每个步骤模拟进行跟除错。最後跟你说是哪个地 02/06 23:09
34F:→ tsubasawolfy: 方有问题,问你要不要修正。修完後还说我顺便帮你 02/06 23:09
35F:→ tsubasawolfy: 其他关联的script都修改好了。 02/06 23:09
36F:推 strlen : 这次发表的都是专门写程式的 跑分不用看了都垃圾 02/06 23:10
37F:→ strlen : codex之前就蛮强的只是速度真的太慢了 02/06 23:11
38F:→ strlen : 这次明显把短板改进 速度提升许多 就还不错了 02/06 23:11
39F:→ strlen : 现在codex基本能与opus并驾其驱甚至部份超越 02/06 23:12
40F:→ strlen : opus价格太贵了也是劣势就是了 02/06 23:12
41F:→ strlen : 然後前两天codex也出了写程式专用的App 那个赞 02/06 23:13
42F:→ strlen : CLI就留给那些臭酸老肥宅跟装逼仔用 02/06 23:14
43F:→ strlen : 电脑发明都几年了还在回去弄CLI 低能到有剩 02/06 23:14
44F:→ strlen : 另外skills基本就是脱裤子放屁 跟MCP一样迟早过气 02/06 23:16
45F:→ strlen : skills底层就是提示词工程 最後全都会整合进LLM里 02/06 23:17
46F:→ strlen : 还在那边玩skills 都是过渡期在用的废物功能 02/06 23:17
50F:→ LimYoHwan : Openclaw作者都这样说了 推文的你真的有用过? 02/06 23:19
52F:→ strlen : 现在模型进步太快 有人不是每天刷推特 不晓得不是他 02/06 23:22
53F:→ LimYoHwan : 现在就华尔街带风向说openai不行 跟去年讲goog一样 02/06 23:22
54F:→ LimYoHwan : 的套路 故意打压股价 02/06 23:22
55F:→ strlen : 的错 他的印象还留在写程式=claude 02/06 23:22
56F:→ strlen : Openclaw作者一开始也是只用claude 後来交叉使用才 02/06 23:22
57F:→ strlen : 自己比较出优劣 02/06 23:23
58F:→ jjjj222 : 让我想起了vim还是emacs还是vscode比较好的讨论.. 02/06 23:24
59F:→ jjjj222 : 在此预言, 不会有结论.... 02/06 23:24
60F:→ strlen : 我以前碰过几个vim死忠仔 共同特徵就是又老又肥脾气 02/06 23:25
61F:→ strlen : 阴阳怪气 甚至其中一个连git都不会用只用小乌龟 02/06 23:25
62F:→ strlen : 装逼仔+老肥宅 无一例外 02/06 23:26
63F:→ strlen : 不会进步的工程师 在传产一待就是20年 20年如一日 02/06 23:26
64F:→ strlen : 这就是CLI爱好者的形象 02/06 23:26
65F:→ LimYoHwan : Coding用很凶的人,全部都会用啦,各有优缺点,但 02/06 23:27
66F:→ LimYoHwan : 体感,codex最强,只是速度慢。并不像车子一样,大 02/06 23:27
67F:→ LimYoHwan : 部分人选一种品牌 02/06 23:27
68F:→ strlen : 不过就无聊抬杠 在软缸板讲这个就是大爆炸然後被桶 02/06 23:27
69F:推 Serisu : 现在写程式就在比拼工具练了,谁还在拿模型互比 02/06 23:28
70F:→ strlen : 本来就是交叉使用 但我最近有点懒的 主力就codex就 02/06 23:28
71F:→ strlen : 好 claude太贵了啦 用没几次额度就没了三洨 02/06 23:28
72F:→ strlen : 当然要互比 像Gemini就是垃圾 我说写程式 02/06 23:29
73F:→ Serisu : 规格丢上去就等收割了,到底有啥额度问题 02/06 23:29
74F:→ strlen : 写程式SOTA就是codex claude 没了 02/06 23:29
75F:→ strlen : 其它都是浪费时间 时间就是金钱 02/06 23:30
76F:→ LimYoHwan : 华尔街现在吹gemini 一狗票人也认为goog很强,开始 02/06 23:30
77F:→ LimYoHwan : 要被套了 02/06 23:30
78F:→ strlen : 当然gemini强项本来就在生图之类的 可理解啦 02/06 23:31
79F:→ strlen : 狗家也有投资Antropic 大概是一个打消费一个打企业 02/06 23:31
80F:→ strlen : 说好要联合把欧喷酱干死 二打一 02/06 23:32
81F:→ strlen : 巨头血战连续剧 让窝们继续看下去 02/06 23:32
82F:→ m30127813 : 离线ai值得期待吗? 02/06 23:33
83F:推 messi5566 : Codex一直都屌打G 02/06 23:37
84F:→ messi5566 : 网页版Gemini最近在一些实时跑分排名上还偷偷变笨 02/06 23:37
85F:嘘 mini178 : 把dickshit放哪里? 02/06 23:39
86F:推 GX90160SS : 用AI写是很爽 但感觉人类背的责任反而又更多了 02/06 23:43
87F:→ GX90160SS : 以前维护一个专案 -> 用AI写後变成要维护三专案以上 02/06 23:43
88F:推 joy2105feh : 但GOOG强的点不只GEMINI阿XD 02/06 23:54
89F:推 chachabo : 99估狗 02/06 23:55
90F:→ yunf : 一人150万美金不要太羡慕啊 02/06 23:57
91F:→ strlen : 我没说狗家不强啊 搜我的文去年低点开始买的 02/07 00:11
92F:推 stocktonty : 没有成人模式都不用谈 02/07 00:14
93F:推 bhmagic : 偷偷变笨欧喷也有过 但现在好像不敢了 02/07 00:16
94F:→ bhmagic : 每个AI都有时候会故意用省资源的方式回答你 02/07 00:17
95F:推 L1ON : gemini: gpt还在呼吸啊 02/07 00:23
96F:推 s213092921 : 美国还在闭源模型的赛道死路内卷啊 02/07 00:29
97F:推 omanorboyo : google一样是最後赢家啦 因为他才有转换成$$的能力 02/07 00:40
98F:→ b9513227 : 井蛙又在丢脸了 codex本来就不差 02/07 00:55
99F:→ b9513227 : 至於gemini 这垃圾连竞争资格都没有 02/07 00:55
100F:推 quanhwe : Chatgpt要活着比较好 不然Gemini会摆烂 02/07 03:00
101F:推 myth356 : GPT现在很卡顿欸 02/07 03:17
102F:→ e123456ddd : 现在会讲什麽最後赢家的也很蠢 根本还太早期 02/07 04:36
103F:推 andy79323 : 用过vibe coding不会说出不同模型 02/07 07:21
104F:→ andy79323 : 程式码分工这种事 02/07 07:21
105F:→ andy79323 : 用一款调架构就可以搞鼠自己了 02/07 07:21
106F:→ KingTsia : 超明显没料了 你更新我才更新 02/07 07:53
107F:推 GinginDenSha: 软体圈每天就是一堆优越仔,鄙视链 02/07 08:22
108F:→ shiyangfoo : 没人觉得祖家的方式才是最聪明的吗 02/07 09:02
109F:→ D600dust : 5F Gemini生出来的不叫简报 请你去用过Kimi再说强 02/07 09:42
110F:→ jjjj222 : win和mac吵, iphone和android也吵, 老吵了 02/07 15:42