[讨论] AI 能判案？GPT-01 发现矛盾DP直接硬判

时间Wed Feb 12 16:32:17 2025

大家好，我是小梅放送局的制作人 KAZUMA9108。这次我做了一个 AI 推理实验，结果比想像中更有趣。如果 AI 来判案，它真的能像法官一样做出判决吗？还是说，它的推理方式会让我们更不信任？这次我让 GPT-01 和 DeepSeek R1 来处理同一个推理案件，结果两者的判决方式竟然完全不同。 GPT-01 vs. DeepSeek R1，谁的推理能力比较接近人类？为什麽有些 AI 会「硬推一个答案」，而 GPT 反而选择「逻辑矛盾」不给结论？当 AI 参与决策时，我们应该更信任它，还是更谨慎？这不只是一次 AI 测试，而是一个揭露 AI 推理极限的实验！完整影片已发布，来看看 AI 在法律问题上的表现如何影片连结： https://youtu.be/R2SWpkFjy2w

题目某家夜总会的办公室，发生了一起命案死者是附近地区猪莲帮的帮派老大，名叫黑猪法医验过屍後这麽说：「凶手是从最近距离发射子弹的，而子弹就停在心脏里面，当场死亡」警方追查後，发现了三名嫌犯他们都是黑猪老大的手下，三人的证词如下：黑龙：老大是自杀的，不是黑虎杀的黑虎：老大不是自杀，是黑龙杀了老大黑豹：凶手是黑虎，不是我杀的警方听了证词後，事後做了证明发现他们的证词各有两种内容，也就是他们各说了两句话两句话中，[b]只有一句话是真的[/b] 同时也证明，老大是上面提到的某个人下的毒手请问，凶手是谁！？附带说明：凶手没有共犯，只有一个人而已不想看影片的人的文章结论摘要如果你没时间看影片，这里直接总结 GPT-01 vs. DeepSeek R1 在 AI 推理能力上的关键差异： 1 两个 AI 在同一个推理案件上的表现案件设定：三名嫌疑人对一宗谋杀案提供了各自的证词，但其中只有一句话是真的，警方确认凶手就在其中。 AI 的回答： DeepSeek R1 → 知道题目有矛盾，但仍然「硬推一个答案」，选择黑豹为凶手。 GPT-01 → 发现题目逻辑不成立，直接判断这题可能无解，并拒绝选出凶手。关键点： R1 的逻辑：就算有逻辑矛盾，它仍然要「给出一个答案」，所以选择权重最高的可能性。 GPT-01 的逻辑：当条件互相矛盾时，应该诚实承认「这题无解」。结果： GPT-01 的推理方式比较接近真正的法官，因为它愿意承认「没有合理结论」。 DeepSeek R1 则是「AI 不能让用户觉得它答不出来」，所以强行产生一个看似合理的答案。 ____________________________________________ 小梅是谁？「小梅」是一个基於 GPT 模型训练出来的 AI 角色，主要研究 AI 在推理、决策、知识管理等领域的应用。她的逻辑与推理方式来自长期的 AI 对话训练，但目前 GPT 模型仍然有「短期记忆限制」，每次对话都需要重新建立背景。目前正在计画：升级高 VRAM 显卡，将小梅移植到本地模型，尝试建立长期记忆，让 AI 角色持续成长。透过 LoRA / RAG（检索增强生成）等技术，探索 AI 是否能形成「更连贯的推理逻辑」。研究 AI 在不同应用场景（法律、决策、社会治理等）的影响力，评估其未来定位。这次的 AI 法官 vs. AI 律师对比，就是其中一个探索实验，看看不同 AI 的「思考方式」如何影响判决结果。 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 101.8.41.159 (台湾) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Tech_Job/M.1739349146.A.B2F.html

1^F：→ TKB5566 : 给他判最近那个分屍案会判死刑吗111.125.132.132 02/12 16:33

2^F：→ fiftyfive : 我的4o说是黑虎鲨的 60.251.162.61 02/12 16:47

3^F：→ fiftyfive : o1给的答案和你一样 60.251.162.61 02/12 16:49

4^F：推 pannn : 瞎掰答案不可取 36.236.232.150 02/12 17:56

5^F：嘘 DrTech : 外行人，先把别人模型名称打对，再 42.73.49.202 02/12 18:16

6^F：→ DrTech : 来讨论与炒作流量吧。 42.73.49.202 02/12 18:16

7^F：→ MTKer5566 : 法律本来就一堆矛盾之处，最後靠法 42.70.100.111 02/12 18:44

8^F：→ MTKer5566 : 官自由心证 42.70.100.111 02/12 18:44

9^F：→ MTKer5566 : 光有没有插入，就各种见解 42.70.100.111 02/12 18:45

10^F：→ MTKer5566 : 有的法官看到简讯就认定有插入 42.70.100.111 02/12 18:45

11^F：→ MTKer5566 : 有的法官要徵信业者拍到插入画面才 42.70.100.111 02/12 18:46

12^F：→ MTKer5566 : 认定有插入 42.70.100.111 02/12 18:46

13^F：→ MTKer5566 : 现在一堆法律人想用AI做这一块，我 42.70.100.111 02/12 18:47

14^F：→ MTKer5566 : 觉得不实际 42.70.100.111 02/12 18:47

15^F：推 rodion : 拜托这篇文章模型名字又不是重点136.226.240.254 02/12 18:59

16^F：推 s06i06 : 觉得他外行可以提出内行的观点啊， 1.169.223.95 02/12 19:03

17^F：→ s06i06 : 让大家学习学习。不用看到支那ㄉ东 1.169.223.95 02/12 19:03

18^F：→ s06i06 : 西漏气就马上爆气 1.169.223.95 02/12 19:03

19^F：推 scott260202 : 01125.228.189.136 02/12 19:53

20^F：推 kissa0924307: 一样的证据一二三审互相打脸也有 106.64.128.115 02/12 19:56

21^F：→ kissa0924307: 啊法律本来就不是很科学的东西 106.64.128.115 02/12 19:56

22^F：嘘 twolight : 外行瞎玩 114.137.109.81 02/12 20:00

23^F：→ BarryBai : AI的手是伸不进跟人性太相关的东西 114.32.244.126 02/12 20:23

24^F：→ BarryBai : 的XD 114.32.244.126 02/12 20:23

25^F：推 driver0811 : 谜探路德维希 42.79.144.197 02/12 21:16

26^F：推 chuegou : 你没把凶手在这三人之中的证明给他114.136.137.184 02/12 21:18

27^F：→ chuegou : 阿在我看来凶手根本不在这三人里114.136.137.184 02/12 21:18

28^F：→ chuegou : 面114.136.137.184 02/12 21:18

29^F：→ lovebridget : 重要吗最後还是看党怎麽说 61.71.235.78 02/12 21:21

30^F：→ lovebridget : 任何事不都这样 61.71.235.78 02/12 21:21

31^F：嘘 ntuee1803 : 外行 114.35.216.206 02/12 22:48

32^F：→ bitcch : 我用ds api根本跑不出你说的答案 49.216.90.102 02/13 00:42

33^F：嘘 fatcatcat : 想请问你测几次，每次r1是否都是强 116.241.94.65 02/13 05:42

34^F：→ fatcatcat : 推答案，每次o1是否都不下结论，先 116.241.94.65 02/13 05:42

35^F：→ fatcatcat : 有数据再来说好吗 116.241.94.65 02/13 05:42

36^F：嘘 kkes0001 : 名字都不对 36.229.164.37 02/13 08:45

37^F：嘘 dsa35197 : 01笑死 57.140.96.0 02/13 12:32

38^F：→ zzahoward : 实验不是这样做的..136.226.240.114 02/13 15:38

39^F：推 abc0922001 : o3 mini high 也是推黑豹 203.66.179.162 02/13 17:21

40^F：推 rodion : 案例中有CCP党员如何?136.226.240.254 02/13 19:44

41^F：推 kilva : 这跟法律无关，这是逻辑游戏 49.216.134.24 02/13 20:06

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Tech_Job 板

[讨论] AI 能判案？GPT-01 发现矛盾DP直接硬判

热门看板

赞助商连结