作者xiaoa (不事生产)
看板ask-why
标题Re: [请益] 目前最像人类表现的电脑领域
时间Mon Jul 21 17:35:53 2014
※ 引述《dharma (达)》之铭言:
: 图灵原来写的那篇文章说:如果一个人(测试者)和看不见的另外一个人以及计算机对话
: ,持续5分钟,人不被计算机蒙骗的机会不超过70%,也就是说,计算机能够骗人的概率不
: 低於30%,则可以认为计算机是能思维的。这种测试被後人称为图灵测试。
Turing test的假设, 机械有30%机率被误认为是人类, 即可认为该机械具有思维
这假设是否合理都是个疑问
30%怎麽来的? 为什麽不是50%?
我不会算
但估计是考虑到真人也会被误判为机械的情况(类似统计的a, b error)
然而, 门槛的高低并不是这个假设里存在的最大问题
而是通过测试则可认为机械具有思维
思维是什麽?
Turing test是个文字对话测试
在这里, 测试的结果表示的是 机械能够对文字的意义做连结
意思是 能够用相同语言的文字解释文字, 其中还包括词性、语言的用法等
这种能力是否代表思维?
而且由於是纯文字, 文字的意义不会牵涉到真实的事物
我质疑Turing test这样的假设的合理性
但我不否认Turing test有一定的指标性(机械"使用"文字的能力)
因为Turing test所测试的不是低层级的模仿
不是像dharma说的那样
这不是测试copy & paste的能力
文句必须经过重新组织, 才可能做到欺骗人的地步(例如人类可以创造并理解新辞汇)
否则类似的话题, 只要多重复几次, 就会出现破绽
不过时代确实进步了
当初Turing想出这个测试时, 或许没有料到电脑可以模仿人类到如此地步 却不涉及思维
: 图灵原文中提到的“机会,是指从大量的测试样本事例中得到的统计平均值,所以,绝
: 不可能只通过一次或者几十次实验,就说超过了图灵测试中提到的概率。
: 这次英国人做的测试中,有30个裁判同时对计算机进行测试。对於统计出一个事件的概率
: 来说,30个事例还是远远不够的。一般来讲,当有趋近於无穷多个事件的时候,才会出现
: 一个可靠的概率值。除了评委数量很有限以外,他们所能提的问题也是很有限的。
这只是个统计问题
统计里不存在 100% 确定的事
因为你无法做无限多次实验, 连趋近都不可能
所以退而求其次, CI 99.95% 99.5% 、95%、90%
多少才算满意?
看应用的领域, 主要就是看你能承受多少%的失误判断
30个人测试的结果估计是CI 95%
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.9.101.53
※ 文章网址: http://webptt.com/cn.aspx?n=bbs/ask-why/M.1405935357.A.1BC.html
1F:→ xiaoa:btw, 我认为目前最先进的是Honda的Asimov的外插主机 :P 07/21 17:52
2F:推 dharma:好奇现在的统计检定,在图灵那个年代已经有了嘛? 07/22 14:47
3F:→ dharma:知道统计检定的大师是谁?我来查查他的年代 07/22 14:48
4F:→ xiaoa:听统计学老师讲, 统计学和微积分一样, 份量和年岁 07/22 21:45
5F:→ ghjkl1478:统计检定至少在200年前高斯时代就有学生t test了 07/23 00:12
6F:推 dharma:以图灵这种当代的超级数理天才 07/23 12:40
7F:→ dharma:应该是研究过统计检定,所以他当时设的门槛八成精心考虑过 07/23 12:42