作者hips (hips)
看板Tech_Job
标题Re: [新闻] Grok 答不出〈柏德之门 3〉问题,马斯克
时间Sat Feb 28 08:16:46 2026
这就说明现在的AI离AGI还很遥远。
起码要训练成能自己去理解一个游戏直到超越人类
研究出不同的打法,build等
就像围棋,完全改变了人类传统先角再边的开局
当然,整理论坛的知识不能说没用
但可能流於垃圾进垃圾出,缺乏实际理解。
※ 引述《pl132 (pl132)》之铭言
: Grok 答不出〈柏德之门 3〉问题,马斯克怒冻模型更新、抽调工程师紧急救火
: https://tinyurl.com/26njc4h2
: 伊隆‧马斯克(Elon Musk)旗下 AI 公司 xAI 去年曾因聊天机器人 Grok 无法准确回答
: 〈柏德之门〉(Baldur’s Gate)游戏细节问题,延迟数天推出模型更新。xAI 更紧急抽
: 调多名高级工程师放下手头项目,专门协助改善 Grok 游戏知识库。
: 工程师临时被抽调 游戏问题触发内部混乱
: Business Insider 深度调查报导披露,Elon Musk 对 Grok 回答〈柏德之门 3〉(
: Baldur’s Gate 3)细节问题表现强烈不满,下令延迟推出相关模型更新。他要求高级工
: 程师放下手头项目,转而处理游戏知识不足问题。部分前 xAI 员工形容公司工作氛围犹
: 如无休止消防演习 。xAI 位於帕罗奥图(Palo Alto)总部设有多个作战室,随时应对各
: 种紧急情况 。Elon Musk 对游戏知识执着程度不只於此。他同时要求工程师提升 Grok
: 在〈英雄联盟〉(League of Legends)游戏能力,目标更是达到最高挑战者(
: Challenger)段位。
: Larian Studios 开发〈柏德之门 3〉,以龙与地下城(Dungeons & Dragons)为背景。
: 游戏剧情复杂且机制丰富,广受 RPG 玩家好评。由於网路上有大量相关攻略可供参考,
: 业界对 Grok 当时连这款游戏细节问题也答错感到相当意外。
: Grok 成绩大翻身 准确率现达 92%
: 事发後 Grok 於〈柏德之门 3〉相关知识表现明显改善。TechCrunch 於 2026 年 2 月报
: 导,Grok 现时已能准确回答〈柏德之门〉相关问题。有测试机构以 BaldurBench 为名,
: 向 Grok、ChatGPT、Claude 及 Gemini 各提出 5 条〈柏德之门〉相关问题进行比较。结
: 果显示 Grok 整体胜任,准确率据报达 92%。
: 四大 AI 风格各异
: 测试结果显示各 AI 回答游戏问题时风格截然不同。Grok 偏好以表格形式呈现资料,并
: 大量使用 save-scumming 及 DPS 等玩家术语,不熟悉游戏用户较难理解。ChatGPT 倾向
: 以重点列表简洁作答 。Gemini 着重以粗体标示关键词。Claude 则对剧透极为谨慎,建
: 议玩家自行探索游戏。由於各 AI 大多从相同网上攻略资源汲取知识,回答风格差异比内
: 容差异更为明显。
: 这次事件突显 xAI 内部管理混乱。这同时反映 Elon Musk 对 Grok 能力有极高要求,最
: 终让 Grok 游戏知识领域能力得到大幅提升。
: 这难道是老马玩游戏时候,查询AI结果得到错误答案,所以不爽才叫人修吗
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 211.20.143.79 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Tech_Job/M.1772237808.A.5E8.html
1F:推 qk3380888: 游戏没开源 AI不能模拟玩家 应该永远走 103.5.140.155 02/28 08:51
2F:→ qk3380888: 不到AGI 103.5.140.155 02/28 08:51
3F:→ coffeedemon: AGI的终极型态不是应该要影像辨识吗 60.248.138.93 02/28 10:40
4F:→ coffeedemon: 不用开源跟串API 画面看到什麽做什麽 60.248.138.93 02/28 10:40
5F:推 qwe78971: 本来就没有AGI了 充其量只是手机选字 49.182.188.11 02/28 14:05
6F:→ qwe78971: 用数学 算法 去扩充 美其名LLM 底层没 49.182.188.11 02/28 14:05
7F:→ qwe78971: 变 稍微有接触技术都知道 49.182.188.11 02/28 14:05
8F:→ qwe78971: 游戏这种「有限」的都没办法做到通用 49.182.188.11 02/28 14:08
9F:→ qwe78971: 现实更别说 连工厂内人机大多都是分开 49.182.188.11 02/28 14:09
10F:→ qwe78971: 混合极少 工厂出事跟生活出事两回事 49.182.188.11 02/28 14:09
11F:→ yunf: 期末考考了一题奇怪的申论题 49.216.132.141 02/28 20:00
12F:推 mainsa: AI没游戏可以打 只能上网查玩家心得 要怎 101.12.86.23 02/28 21:42
13F:→ mainsa: 样理解游戏超越你啊???? 101.12.86.23 02/28 21:42
14F:推 NicholasTse3: 围棋还是先角啊 只是放33 180.177.28.98 03/01 08:34
15F:推 james80351: 现在这样就已经很屌了 根本不用啥AGI 123.193.199.13 03/01 14:32
16F:→ james80351: 就能取代一堆闲缺 硬体再升级个几代 123.193.199.13 03/01 14:32
17F:→ james80351: 不敢想像能训练出什麽变态玩意… 123.193.199.13 03/01 14:32
18F:推 shter: 围棋还是角,星位=>33 攻杀开始 1.169.112.211 03/02 00:14
19F:推 mangoldfish: 目前的AI能做的就是从既有经验中找223.137.116.201 03/02 16:07
20F:→ mangoldfish: 到最适合的或做简易延伸,所以不会223.137.116.201 03/02 16:07
21F:→ mangoldfish: 有突发奇想,那些看似灵感的东西只223.137.116.201 03/02 16:07
22F:→ mangoldfish: 是使用者可能没想到,不代表不存在223.137.116.201 03/02 16:07
23F:→ mangoldfish: 网路上或数据库中223.137.116.201 03/02 16:07