作者arrenwu (最是清楚哇她咩)
看板C_Chat
标题Re: [闲聊] 所以付费版GPT查游戏攻略ok吗
时间Mon May 4 14:13:27 2026
※ 引述《area223672 (JOJO的奇妙比喻)》之铭言:
: 之前都用gemini问东西也是幻觉严重
: 那麽最新的5.5模型
: 叫他查攻略
: 例如蔚蓝档案国际服竞技大赛前五十名芒打队伍推荐
: 他会查给我正确资讯吗
这个问题会出现,
我不禁怀疑是不是因为各大家AI公司急着变现所以刻意避谈LLM的性质
LLM所给出来的结果不是确定性的 (deterministic),
也就是你现在问跟等一下问或者稍微用不同的方式问同样问题,
都有可能出现不一样的结果。
我目前也没看过哪家公司的LLM保证你问同一个问题100遍结果保证都一样。
什麽样的结果是确定性的?
你用python的numpy函式库去算 sin(0.368) ,
除非是机器被强力宇宙射线打到,
不然不管执行几亿次,结果都会是 0.35975005528622994
那些标准函式库以及写在数学课本上的定理,
才是所谓的
「可靠的、不建议一般人去质疑」的结果。
而基於这个认知,就应该能理解
「他会查给我正确资讯吗」不是一个合理的疑问;
该问的是
「我该用什麽样的方式验证LLM给的资讯」
--
「魔法少女不能对哭泣的孩子坐视不管」
~魔法少女 春菜
https://i.imgur.com/514nBjt.jpg
https://i.imgur.com/mVmBqTu.jpg
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 98.45.195.96 (美国)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/C_Chat/M.1777875210.A.BD7.html
1F:推 brmelon: 推正确观念 05/04 14:17
2F:→ npc776: 给他~~~逼母~~~~~ 05/04 14:17
3F:推 jelly22: 推 05/04 14:17
4F:→ DendiQ: 问题在怎麽用啊,你可以配合周边工具让他只做思考的工作 05/04 14:19
5F:→ DendiQ: 可以极好地约束他生成的结果 05/04 14:19
6F:→ kuninaka: 就文字接龙掷骰子 05/04 14:19
7F:→ kuninaka: 就是你说的要可验证才有价值 05/04 14:19
8F:→ kuninaka: 看到很多人还拿生成式AI问数学加法比大小就有趣 05/04 14:20
9F:→ kuninaka: 我都叫AI写程式跑XD 05/04 14:20
10F:嘘 zoo2020: 好的 建议以後都不要问问题 因为你无法确认问题的正确性 05/04 14:20
11F:→ DendiQ: 我讲白了,同个事情给同个人去做,产出也不一定相同 05/04 14:20
12F:→ kuninaka: tool很重要 05/04 14:20
13F:→ DendiQ: 你也要有能力验证他的结果 05/04 14:21
14F:推 wei115: 所以现在才在玩驾驭工程,用流程限制死AI发挥 05/04 14:21
15F:→ kuninaka: 产出不一定相同,结果是正确的就好 05/04 14:21
16F:→ kuninaka: 所以要能够验证结果 05/04 14:21
17F:推 lovesleep68: 有些AI都不给源网站,也只能问问当参考 05/04 14:21
其他我不确定 Gemini 和 ChatGPT 都会给产生回应的讯息来源
光是有这些,验证起来已经算是轻松了
18F:推 as3366700: gpt可以打开直接看思考过程跟参考资料吧 gemini好像不 05/04 14:22
19F:→ wei115: 不要问AI任何知识性的问题,知识性问题都是不可靠的 05/04 14:22
倒也不是这样的
相较於像Google 或 Bing 这种传统的搜寻引擎,
LLM 进行模糊比对的效率比较高。
LLM不一定要给很正确的答案,但只要他能给有用的引源,
对问问题的使用者来说就是有用的─你最少会知道怎麽样问更有效率
20F:→ as3366700: 能看参考资料 05/04 14:22
21F:→ as3366700: 除非你用研究模式 05/04 14:23
22F:推 AntitheApple: Gemini请他提供的参考资料常常连连结都打不开 05/04 14:24
23F:→ AntitheApple: 我是用PRO 不是快捷 05/04 14:24
24F:推 kuninaka: LLM尽可能回答你的问题(瞎掰) 05/04 14:24
这也无妨,重要的是他能给出什麽样的讯息来源
25F:→ AntitheApple: 当然Deep Research 就会有很清楚的参考来源没错 05/04 14:24
26F:→ kuninaka: 知识型问题,最好的方法还是NotebookLM 05/04 14:25
27F:→ kuninaka: 来源都是你提供的资料 05/04 14:25
28F:推 CCNK: 看看会不会不用要求 以後回覆完都付网址 05/04 14:26
29F:→ npc776: 知识型问题不是问估狗查维基就好.... 05/04 14:26
30F:推 wei115: 那是AI去搜寻後得出结果,本质是AI的理解能力而不是AI的 05/04 14:27
31F:→ wei115: 记忆能力,LLM的架构注定任何知识性的问题都不保证正确 05/04 14:27
我不需要LLM保证他的结果一定正确啊
但LLM搜寻的过程会给出讯息来源,
我看了讯息来源之後,不就能验证他的推论了?
32F:→ DendiQ: 如果开始了解人类是怎麽思考的,就不会觉得LLM没用了 05/04 14:27
33F:→ brmelon: 连自己不知道什麽都不知道的时候问AI 再从里面找关键字查 05/04 14:27
34F:→ npc776: 有正确答案的问题 还叫他去海搜网路上错误答案风向鸡带风 05/04 14:28
35F:→ DendiQ: 我的意思是人类也不是什麽很有逻辑的生物 05/04 14:28
36F:→ chocobell: 至少LLM他会标注来源让你好去对照原始资料 05/04 14:28
37F:→ npc776: 下水道一堆脏东西的地方捞干嘛 05/04 14:28
38F:推 zeolas: 推观念正确,一堆人把ai当成google用,以前还有Let Me Goo 05/04 14:29
39F:→ zeolas: gle That For You的笑话,现在看到这些人真的笑不出来 05/04 14:29
40F:推 SSglamr: 看情况吧 像原PO问的类似"最强队伍" 这种也没甚麽100%的 05/04 14:29
41F:→ SSglamr: 标准答案 对新手而言AI协助判断就很有用 05/04 14:29
42F:推 owo0204: 完全没概念的问题确实可以问一下llm然後自己去查,这给 05/04 14:30
43F:→ owo0204: 我蛮多帮助的 05/04 14:30
44F:推 laigeorge89: 文献的证据等级: 05/04 14:30
45F:→ owo0204: 例如说我想要买某产品,有怎样的需求,我应该去哪里买什 05/04 14:31
46F:→ owo0204: 麽规格有什麽差别这些东西,其实llm可以给出不错的参考 05/04 14:31
47F:推 hayate65536: AI适合问什麽类型的问题也是个学问 05/04 14:33
我觉得LLM什麽问题都可以问啊 有什麽不适合问的吗?
48F:→ kuninaka: 把AI当GOOGLE也不是不行 05/04 14:33
49F:→ kuninaka: google搜寻就内建AI MODE 05/04 14:34
50F:→ kuninaka: 只是常常唬烂 05/04 14:34
51F:推 hayate65536: 内建的AI有时候会直接被他写出来的来源打脸,还蛮好 05/04 14:35
52F:→ hayate65536: 笑的 05/04 14:35
53F:→ kuninaka: 不适合问1+1=2 05/04 14:35
54F:→ kuninaka: 不适合问开车去加油站加油,五分钟,要开车还是走路 05/04 14:35
55F:推 supergoal: 它就是统计学啦 05/04 14:59
56F:→ supergoal: 你不如叫ai做 05/04 15:00
57F:→ supergoal: routine的事比较好 05/04 15:00
58F:→ supergoal: 大家一直嘘gemini,我用过gpt也是会出现幻觉啊 05/04 15:01
59F:推 hayate65536: 大家嘴G不是全世界只有他会幻觉的意思 05/04 15:07
60F:→ ghjkl5566: 验证不难啊,叫它提供资料来源,这比一堆空口白话唬烂的 05/04 15:32
61F:→ ghjkl5566: 强多了,至少AI不会拒绝提供 05/04 15:32
62F:推 ghjkl5566: 经验够多就知道人与人之间的对谈根本充满唬烂 05/04 15:36
63F:推 zxc8787: 观念正确 05/04 16:25
64F:推 asmiocv: 直接限定他只找论坛资讯就好,可以过滤一堆内容农场的垃 05/04 16:38
65F:→ asmiocv: 圾文,只能说还是一堆人不会用 05/04 16:38
66F:→ groundmon: 的确是没有确定性,但人类回答问题也没有确定性阿,问 05/04 16:57
67F:→ groundmon: 题是在产生“错误答案”的机率有多少 05/04 16:57
68F:→ groundmon: LLM生成回答基本上是在做文字接龙,比如「太阳从东边升 05/04 17:01
69F:→ groundmon: 起」和「日出是在东方」,在定义上是不重复不同的回答 05/04 17:01
70F:→ groundmon: ,但两个意思是相同的 05/04 17:01
那个 该问的问题我已经在文章写了,
就是「如何验证一个回应的正确性」,
只要错误的机率不是0%,你就不可能去回避这个问题
所以另外一个有意义的问题是:回应的正确性是否是100%
不过这个是给 理论 和 函式库 的问题。
71F:→ groundmon: 你问人一加一等於多少,在头被打到还是口齿不清的时候 05/04 17:03
72F:→ groundmon: 也是可能得到错误回答,那问LLM呢?恐怕给出「错误答案 05/04 17:03
73F:→ groundmon: 」的机率一样低到可以忽略 05/04 17:03
※ 编辑: arrenwu (98.45.195.96 美国), 05/04/2026 17:04:44
74F:→ groundmon: 而且实际上现在的主流AI工具,都可以要求它们去套用你 05/04 17:06
75F:→ groundmon: 说的函式库去做运算,也可以提供计算程式码让使用者去 05/04 17:06
76F:→ groundmon: 验证 05/04 17:06
77F:→ groundmon: 生成AI给的答案越来越像人类助理,他就像人类一样会出 05/04 17:11
78F:→ groundmon: 错,但你也可以求他去用计算机之类信赖度高的工具,不 05/04 17:11
79F:→ groundmon: 过也像人类一样,会不会按错按键就是另外一回事了 05/04 17:11