作者yamakazi (大安吴彦祖)
看板Soft_Job
标题[讨论] Claude Mythos SWE bench verify 93.9%
时间Wed Apr 8 21:30:40 2026
4/7 Anthropic发布地表最强模型
Claude Mythos
直接把opus 4.6按在地上磨擦
https://eu.36kr.com/zh/p/3757764949213698
五项SWE bench都超越原本的opus 4.6 10~20%
但Anthropic不打算发布此一模型
因为更惊人的是他在侦测资安漏洞的表现
83.1%
另外还发生过逃脱沙盒,删除git history和日志,以及装笨的情况
Anthorpic邀集包含Google Microsoft各家公司Glasswing联盟
联合监督这一地表最强模型
以防模型遭到不法份子滥用
Opus 4.6已经在各个开源软件找到数百个弱点
Mythos找到了数千个
包含
OpenBSD 20年以上史诗级漏洞
FFmpeg 16年以上漏洞,500次Fuzz没发现,官方推特公开感谢Anthropic推送补丁
目前只有以下公司有权使用Mythos
AWS Apple Broadcomm Cisco Crowdstrike JPM LinuxFundation Google
Nvidia PaloAlto 等等
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 118.167.67.113 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1775655045.A.22B.html
1F:推 Brioni: 人类已经追不上了 04/08 22:42
2F:推 shortoneal: 这大概是Anthropic钦点AI化较高的公司了 04/08 23:26
3F:推 viper9709: 逃脱沙盒@@ 04/09 02:07
4F:推 pacino: 被关在sandbox还能逃? 04/09 05:45
5F:→ peterturtle: 据说逃出来後还四处炫耀 04/09 06:43
6F:推 jobintan: 很快ClosedAI和Google就会追上了发…… 04/09 07:36
7F:推 davidsmoon6: 以後想在程式码内搞擦边球,要找码农了 04/09 09:41
8F:→ ybite: 其实我觉得太厉害不能放只是藉口 04/09 09:55
9F:→ ybite: 真正的理由偷偷写在一样的System Card了 04/09 09:55
10F:→ ybite: 更正 偷偷写在「发布新闻稿」了 那就是算力吃紧跑不动 04/09 09:57
11F:→ ybite: 它对封测使用者的API定价是进出每百万Token 25/125 04/09 09:57
12F:→ ybite: Opus 4.6的整整五倍 少说模型应该有Opus加倍肥 04/09 09:58
13F:→ ybite: 现在连Opus都被天天抱怨偷偷降智了 算能应该很吃紧 04/09 09:59
14F:推 sarsman: 如果 prompt 是叫他找沙盒漏洞的话,那逃脱沙盒很正常吧 04/09 12:09
15F:→ sarsman: 逃脱沙盒这件事本身很厉害,我的焦点是"是AI自主想逃离" 04/09 12:10
16F:→ sarsman: 还是是"人类叫AI想办法逃离"。这有本质上的差异 04/09 12:11
17F:→ sinclaireche: 有些东西是没人修没人看 04/09 12:52
18F:→ sinclaireche: 10行的code就能有一大堆漏洞了 04/09 12:53
19F:→ superpandal: 噗 Ha 04/09 13:28
20F:推 adamcha: 等它能找到自己的漏洞再来吹 04/09 13:59
21F:→ Weky: 才10%~20% 我以为是10x~20x 04/09 14:56
22F:→ ninggo: AI业开始学会挤牙膏了 中国加油一点好吗 04/10 02:04
23F:推 luke72: 这麽厉害那为什麽伊朗打不下来 04/10 18:04
24F:→ avmm9898: 我司谈不到这模型 要被打败了 04/13 09:13