作者pl132 (pl132)
看板Tech_Job
标题[新闻] Grok 答不出〈柏德之门 3〉问题,马斯克
时间Fri Feb 27 19:29:57 2026
Grok 答不出〈柏德之门 3〉问题,马斯克怒冻模型更新、抽调工程师紧急救火
https://tinyurl.com/26njc4h2
伊隆‧马斯克(Elon Musk)旗下 AI 公司 xAI 去年曾因聊天机器人 Grok 无法准确回答
〈柏德之门〉(Baldur’s Gate)游戏细节问题,延迟数天推出模型更新。xAI 更紧急抽
调多名高级工程师放下手头项目,专门协助改善 Grok 游戏知识库。
工程师临时被抽调 游戏问题触发内部混乱
Business Insider 深度调查报导披露,Elon Musk 对 Grok 回答〈柏德之门 3〉(
Baldur’s Gate 3)细节问题表现强烈不满,下令延迟推出相关模型更新。他要求高级工
程师放下手头项目,转而处理游戏知识不足问题。部分前 xAI 员工形容公司工作氛围犹
如无休止消防演习 。xAI 位於帕罗奥图(Palo Alto)总部设有多个作战室,随时应对各
种紧急情况 。Elon Musk 对游戏知识执着程度不只於此。他同时要求工程师提升 Grok
在〈英雄联盟〉(League of Legends)游戏能力,目标更是达到最高挑战者(
Challenger)段位。
Larian Studios 开发〈柏德之门 3〉,以龙与地下城(Dungeons & Dragons)为背景。
游戏剧情复杂且机制丰富,广受 RPG 玩家好评。由於网路上有大量相关攻略可供参考,
业界对 Grok 当时连这款游戏细节问题也答错感到相当意外。
Grok 成绩大翻身 准确率现达 92%
事发後 Grok 於〈柏德之门 3〉相关知识表现明显改善。TechCrunch 於 2026 年 2 月报
导,Grok 现时已能准确回答〈柏德之门〉相关问题。有测试机构以 BaldurBench 为名,
向 Grok、ChatGPT、Claude 及 Gemini 各提出 5 条〈柏德之门〉相关问题进行比较。结
果显示 Grok 整体胜任,准确率据报达 92%。
四大 AI 风格各异
测试结果显示各 AI 回答游戏问题时风格截然不同。Grok 偏好以表格形式呈现资料,并
大量使用 save-scumming 及 DPS 等玩家术语,不熟悉游戏用户较难理解。ChatGPT 倾向
以重点列表简洁作答 。Gemini 着重以粗体标示关键词。Claude 则对剧透极为谨慎,建
议玩家自行探索游戏。由於各 AI 大多从相同网上攻略资源汲取知识,回答风格差异比内
容差异更为明显。
这次事件突显 xAI 内部管理混乱。这同时反映 Elon Musk 对 Grok 能力有极高要求,最
终让 Grok 游戏知识领域能力得到大幅提升。
这难道是老马玩游戏时候,查询AI结果得到错误答案,所以不爽才叫人修吗
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 180.177.204.190 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Tech_Job/M.1772191799.A.161.html
1F:推 yamakazi: 原本也是用grok,後来Yt影片总结很烂, 49.214.9.95 02/27 20:13
2F:→ yamakazi: 跳槽到Gemini 49.214.9.95 02/27 20:13
3F:推 qk3380888: 不能色色後就没兴趣惹 219.28.247.77 02/27 20:17
4F:推 yamakazi: 影片总结Gemini真的猛,grok自己承认说 49.214.9.95 02/27 20:20
5F:→ yamakazi: 没字幕档的都是间接判断不是直接 49.214.9.95 02/27 20:20
6F:→ dslite: 他是找代玩 36.227.131.147 02/27 22:04
7F:→ yunf: 我不确定他知不知道他自己在干嘛 101.10.5.167 02/28 01:32
8F:→ yunf: ai就是把玩家的知识水平拉到同一个水位这样 101.10.5.167 02/28 01:35
9F:→ yunf: 游戏还有监别度吗? 101.10.5.167 02/28 01:35
10F:→ yunf: 他该不会以爲他的ai有办法自己玩游戏写攻略 101.10.5.167 02/28 01:38
11F:→ yunf: 吧? 101.10.5.167 02/28 01:38
12F:推 Masturbate: 所以可以生成影心的色图了吗? 科 49.216.163.198 02/28 03:52
13F:推 lifeowner: 吱吱:工人智慧 38.71.113.230 02/28 06:26
14F:推 qoo60606: 老板玩游戏还要帮他改善体验 太苦了 111.71.212.59 02/28 09:17
15F:推 walter5663: 工人智慧模型 101.10.161.157 02/28 17:09
16F:推 bwnzer: 目前游戏卡关用Gemini是还算真的 114.140.81.178 02/28 20:14
17F:→ bwnzer: 好用,只差没地图 114.140.81.178 02/28 20:14
18F:推 jack70134: 提升grok 在Lol的段位是啥意思 叫AI打 27.247.99.12 03/01 10:29
19F:→ jack70134: 游戏吗 27.247.99.12 03/01 10:29
20F:推 NexusPrime: 他是hard core玩家当然很重视游戏知 101.10.75.94 03/01 13:52
21F:→ NexusPrime: 识 101.10.75.94 03/01 13:52
22F:推 aspirev3: faker:下一冠为了人类 1.164.128.127 03/01 22:42
23F:推 hakkacandy: 游戏太细节了 要llm 能回答也太刁难 49.217.196.255 03/02 09:46
24F:→ Killercat: shadowheart的色图还需要grok去生吗=_= 57.140.96.30 03/03 13:40