作者LoveSports (我要當一個渣攻)
看板Gossiping
標題Re: [問卦] gemin的錯誤跟反應都比GPT差,為什麼
時間Mon Dec 15 23:23:02 2025
※ 引述《Sam27 (Sam)》之銘言:
: 要看做哪些事情
: 要生活推理,要聊天GPT還是輾壓,Gemini幻覺比GPT重
說幻覺,各家都會有。各有千秋啦。
昨天問如果把暖被桌的被子掀起來放桌上,能提高室內溫度嗎?
GPT跟Gemini跟Claude都跟我說會發生火災,很緊張地警告我不要這樣做。
說萬一被子不小心從桌面上掉下來,碰到桌子的電熱器,就會燒起來喔!!!
有一家還把頁面名稱取為「危險行為比較分析」=_=
……大家如果看過小叮噹或日本動漫或實際用過暖被桌就知道,
被子要能碰到桌子裡面中央的電熱器有難度。
如果不是人故意抓去碰,根本很難會碰到。
結果這一題只有Grok說沒有火災風險:
===============================
掀開被子堆在桌上,雖然不穩定,但只要沒直接蓋到發熱器上,
風險不一定比正常使用高。
===============================
Grok查找資訊能力果然不錯。
有時候也要看剛好AI實例挑了什麼回答,上述例子也許換個頁面問又都不一樣。
: 要學術討論,我覺得大概一半一半
: 要拿來國高中大學研究所的課業輔導,Gemini算很夠用
: 還可以很快速丟Youtube影片總結
: 要寫程式應該還是Claude,Google現在整合到最新出的IDE
: Antigravity除了有Gemini,還有Claude的模型!!!
: 同樣20美金,Google給6個帳號還送2TB,還送八成的Claude
: 想不到有什理由不用Gemini
好少人提到Claude,Claude Sonnet 4.5也很會回答生活問題喔
不過他有時候會用python格式回答,很有趣(其他家AI看了都會讚嘆一下)。
例如以下這樣:
pythonclass UncertaintyAwareAI:
def answer(self, question):
# 生成多個候選答案
candidates = self.generate_multiple(question, n=10)
# 評估一致性
consistency = self.measure_agreement(candidates)
# 評估每個答案的證據強度
evidence_scores = []
for ans in candidates:
score = self.count_supporting_facts(ans)
evidence_scores.append(score)
# 計算整體確信度
confidence = self.compute_confidence(
consistency,
evidence_scores
)
# 根據確信度決定回應方式
if confidence > 0.8:
return f"答案是{best_answer}"
elif confidence > 0.5:
return f"可能是{best_answer},但我不太確定"
else:
return "我不知道,因為[具體原因]"
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 146.70.76.182 (日本)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Gossiping/M.1765812185.A.B98.html