作者ddavid (星舞弦独角兽神话忆)
看板Inference
标题Re: [问题] 我妈问我的两个问题
时间Tue Apr 3 02:41:57 2007
※ 引述《eieio (好多目标)》之铭言:
: 这个已经 overfit 了吧
: 在统计上,你有一堆 x 与 f(x) 的实验数据,还带有误差,要去找出这个 f()
: 。正常的做法,是尽量用「越少文字越好」的方法去描述 f()。当你有新的数据
: 时,通常仍然会符合你求出来的 f()。当然你可以用你的方法去做 f(),你的公
: 式用了相当多的文字,可以完美地通过数据中每一个点,但是当有新的数据进来
: 後,几乎是一定不可能符合你的 f() 的,你还必须修正,等於你的 f() 没有意
: 义,这个称为 overfitting。
: 这种题目,就是要用尽量少的文字去表示它的规律。
是的,统计是如此,但是这并不是统计,这些数据并不含有其原始意义告诉我们
该用哪一种解释更为可能接近需要的答案。
举一个小例子,1 2 3请问下一个数?你也许直觉以自然数列回答4,但是在某些
领域的特定问题上(比如,递回演算法时间复杂度评估),我们会更偏向於回答5,
因为它同样是大家熟知的费式数列中连续三项。
回到我的上一篇,那个f(x)很有可能是某种评估函数或距离函数,其中当x落在
点1、2、3及5的时候存在一个意义,同时我们还希望数线上以这四个点分成的五个区
间之评估值正负相间。而此时那个数列代表的意义就是由自然数列转换为它们的距离
值数列,而不是一个二的次方数列。
也许你会说这有点强词夺理,但事实是当一些数字不存在其物理或统计意义时,
你就无法判断哪一个贯穿它们的函数更为合理。
再举一个例子,1 2 1 2 3 2 1 2 ?,问你?是多少?
你也许直觉想的是1 2 1 2 3 2 1 2
3 4 3 2 1。你说这是个数列会先递增到n後
递减到1,然後递增到n + 1再递减到1,以此类推。
可是当我回答你答案是
1,这就只是九个数字形成的有限项数列,以第五个数做
对称。这一样是个合理而极度具有规律并且简单明确的答案,现在你能告诉我光看题
目,哪一个答案是比较合理的吗?
又比如一个手上有八位数计算机的人,他输入2然後一直按开根号,并且将显示
出来的最低位数列为一个数列。对於同样有八位计算机且知道这个数列产生法的人来
说这数列简直浅显易懂,而且还能轻易举一反三造出一个以任何数字开始连按根号的
最小位数数列。但是如果你不知道背後它是怎麽产生出来的,你完全不晓得它的意义
,那你可能想尽办法去串出一个很复杂的规则来,然而你永远不会晓得对於了解者来
讲,这个数列是被计算机的运算机制及八位数的显示限制大幅简化过的一个明确数列
。
--
「如果你没法给我个解释的话,死一万次也不能弥补你的过错!」
「我没办法死一万次赔你啊。」
「可是你有办法半死两万次,知道吗,嗯?」
--莲.席斯塔
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.112.31.182
※ 编辑: ddavid 来自: 140.112.31.182 (04/03 02:47)
※ 编辑: ddavid 来自: 140.112.31.182 (04/03 03:00)