作者yamakazi (大安吳彥祖)
看板Soft_Job
標題[討論] Claude Mythos SWE bench verify 93.9%
時間Wed Apr 8 21:30:40 2026
4/7 Anthropic發布地表最強模型
Claude Mythos
直接把opus 4.6按在地上磨擦
https://eu.36kr.com/zh/p/3757764949213698
五項SWE bench都超越原本的opus 4.6 10~20%
但Anthropic不打算發布此一模型
因為更驚人的是他在偵測資安漏洞的表現
83.1%
另外還發生過逃脫沙盒,刪除git history和日誌,以及裝笨的情況
Anthorpic邀集包含Google Microsoft各家公司Glasswing聯盟
聯合監督這一地表最強模型
以防模型遭到不法份子濫用
Opus 4.6已經在各個開源軟件找到數百個弱點
Mythos找到了數千個
包含
OpenBSD 20年以上史詩級漏洞
FFmpeg 16年以上漏洞,500次Fuzz沒發現,官方推特公開感謝Anthropic推送補丁
目前只有以下公司有權使用Mythos
AWS Apple Broadcomm Cisco Crowdstrike JPM LinuxFundation Google
Nvidia PaloAlto 等等
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.167.67.113 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Soft_Job/M.1775655045.A.22B.html
1F:推 Brioni: 人類已經追不上了 04/08 22:42
2F:推 shortoneal: 這大概是Anthropic欽點AI化較高的公司了 04/08 23:26
3F:推 viper9709: 逃脫沙盒@@ 04/09 02:07
4F:推 pacino: 被關在sandbox還能逃? 04/09 05:45
5F:→ peterturtle: 據說逃出來後還四處炫耀 04/09 06:43
6F:推 jobintan: 很快ClosedAI和Google就會追上了發…… 04/09 07:36
7F:推 davidsmoon6: 以後想在程式碼內搞擦邊球,要找碼農了 04/09 09:41
8F:→ ybite: 其實我覺得太厲害不能放只是藉口 04/09 09:55
9F:→ ybite: 真正的理由偷偷寫在一樣的System Card了 04/09 09:55
10F:→ ybite: 更正 偷偷寫在「發布新聞稿」了 那就是算力吃緊跑不動 04/09 09:57
11F:→ ybite: 它對封測使用者的API定價是進出每百萬Token 25/125 04/09 09:57
12F:→ ybite: Opus 4.6的整整五倍 少說模型應該有Opus加倍肥 04/09 09:58
13F:→ ybite: 現在連Opus都被天天抱怨偷偷降智了 算能應該很吃緊 04/09 09:59
14F:推 sarsman: 如果 prompt 是叫他找沙盒漏洞的話,那逃脫沙盒很正常吧 04/09 12:09
15F:→ sarsman: 逃脫沙盒這件事本身很厲害,我的焦點是"是AI自主想逃離" 04/09 12:10
16F:→ sarsman: 還是是"人類叫AI想辦法逃離"。這有本質上的差異 04/09 12:11
17F:→ sinclaireche: 有些東西是沒人修沒人看 04/09 12:52
18F:→ sinclaireche: 10行的code就能有一大堆漏洞了 04/09 12:53
19F:→ superpandal: 噗 Ha 04/09 13:28
20F:推 adamcha: 等它能找到自己的漏洞再來吹 04/09 13:59
21F:→ Weky: 才10%~20% 我以為是10x~20x 04/09 14:56
22F:→ ninggo: AI業開始學會擠牙膏了 中國加油一點好嗎 04/10 02:04
23F:推 luke72: 這麼厲害那為什麼伊朗打不下來 04/10 18:04
24F:→ avmm9898: 我司談不到這模型 要被打敗了 04/13 09:13