作者TheDream (美梦)
看板NBA
标题Re: [讨论] 超级赛尔提克人
时间Wed Jan 2 23:38:18 2008
juby 27板友我想先问你个问题,你如果棒球跟篮球都有在看的话,那你
认为
目前棒球统计学发展的比较成熟还是篮球统计学呢?是棒球统计学在
解释棒球场上的问题时解释的比较清楚还是篮球统计学在解释篮球场上的
问题比较清楚呢?
篮球统计学应用在球场上的效力会比棒球统计学应用在球场上的效力来的
大吗?
如果你认为篮球统计学的发展还不够成熟到
单独拿来解释球场上的问题,
为什麽你如此执着在於
单单以篮球统计学来解读比赛呢?
我从来不会反对拿篮球统计学来解释球场上的事件,问题是我不会只拿篮
球统计学就来解释篮球场上的事件,因为我知道篮球统计学这块领域的成
熟度跟棒球统计学比起来还差的很远,很多事件并没有在篮球统计学中得
到满意的解答,所以你觉得光用篮球统计学能解释出多有用的资讯呢?特
别是你整篇文章就只秀出篮球统计学的资料时,你认为有多大的说服力呢
?
如果你是提出看Celtics 比赛时的防守站位与战术,再搭配篮球统计学的
观点来论证的话,那起码有一定的说服力,可是你却只从篮球统计学的角
度就直接断定Celtics 的防守失分一定要再上修,这会让我感觉你觉得篮
球统计学无所不行,甚至可以
完美预测未来的离群值走向(Celtics 目前
的防守失分),可是篮球统计学真的可以吗?
重申那句话,你要使用这个统计学方法前,要先知道这个统计学方法的效
力与限制,你给我的感觉就是篮球统计学无敌,可以完美解释出篮球场上
的事件,问题是篮球统计学的发展真的有你想像的这麽成熟吗?
我写文章也会引用数据来佐证,但是我不会把篮球统计学的数据就当成真
理去相信,因为我知道篮球统计学还有许多不完美之处,篮球统计学要让
我全盘相信前,必须先发展到一个成熟的阶段。
还有很重要很重要的一点,如果你也熟悉棒球统计学的话,你会发现棒球
统计学应用在
解释过去的发生事件有很大的发展,但是应用在
预测未来的
事件时却遇到不少瓶颈,尤其尤其是应用在预测那些
right tail outliers
时更是屡次出现预测不准的状况发生。就像你很爱举的A-Rod 来说好了,
他 06 年低潮後,你要不要重新去看看棒球统计学预测他 07 年成绩预测
成怎样呢?而 A-Rod 在 07 年的表现又是怎样呢?
除了 A-Rod 之外, 棒球统计学在预测铃木一朗与王建民时又出现什麽样
的问题呢?
只要是统计学的 model,在
预测离群值时,都会出现很大的落差与不准,
所以你认为篮球统计学可以拿来预测目前Celtics 失分这个离群值吗?
最近Yankees 板也有讨论到统计学这方面的问题,我下面就引述某
版友的文章让你看看。
研究最常见的问题就是用通则去套一个单一例子,
研究人员常犯一个错误
,就是把一个已经存在的model 去套用在一个新的例子上,说一定会打回
原形,或是一定不是常态。但一个好的研究人员知道,以前的准则只是以
当初的例子去推论,很久以前有研究指出人类100公尺的极限是9.8秒,就
是犯了这个错误。
以上摘录自 Yankees 板,某版友的文章。
所以你知道你犯了什麽错误吗?
在 Jordan 还没出来以前,没有人会认为一个得分後卫能主宰比赛成这麽
夸张的境界;在 Shaq 没有出来以前,没有人会认为以後会再出现一个能
够比拟 Chamberlain 宰制禁区能力的中锋;在 Kobe 没有出来以前, 人
们甚至不认为现代的球员能够单场拿下八十分以上;在 Kobe 没有出来以
前,人们也认为单季当场平均 35 分以上的球员应该不会再出现了。
可是上面这些例子不就都活生生在我们眼前发生吗?看了这麽多的例子,
为什麽你还执着去用以前的例子所堆积出来的统计学model 来预测未来的
离群值呢?
我前面一直在提的就是不要举特例,因为统计学的效力常常无法涵盖到右
边与左边的 outliers, 在这种情况下,你要拿统计学来预测一个离群值
会有多大的问题发生啊?
Celtics 本季的防守能力是不是统计学里的离群值啊?而你现在要拿以前
的资料所堆积出来的统计模型来预测未来的离群值?恕我说的坦白一点,
请你不要滥用统计学,统计学不是这样用的。
虽然我很不喜欢在 NBA 板提到棒球的例子, 这一点我在前面几篇就已经
讲过了,真正了解棒球的人不会轻易地把篮球与棒球这两门运动拿来类比
,因为光是本质上就有很大的不同。不过你既然又举了那麽多棒球的例子
,那我就来聊聊对於你这些例子的看法。
棒球统计学发明出许多数据来衡量一位球员的贡献与能力,并且把数据经
过年代、联盟、球队强度的调整,如:Win Shares、 VORP、 WPA、EqA、
BRAA、FRAA、WARP 等数据。
而现在的篮球统计学呢?
就问你一个问题就好,如果光看数据统计的话,你要怎麽去解释 Ray Allen
、Paul Pierce、Kevin Garnett等三人的数据在Celtics 为什麽都下滑下
来呢?
难道是他们三个人都开始退化了?
这里的变化能够从数据本身解读出什麽东西吗?
而棒球统计学行不行呢?
在这里举一个粗浅到不行的棒球统计学例子。
今年明星赛前 Dan Haren 的成绩是 2.30 ERA,基本上以过去的例子告诉
我们美联要出现低於 2.50 ERA 的投手是相当相当少见的,但是这只是以
过去的例子来解释而已,如果棒球统计学只能做到这样的话,那就犯了跟
juby27 你前面一样的错误,以过去的统计 model 来预测未来的离群值。
很遗憾地,棒球统计学能做到的不仅仅是以过去来预测未来而已,Haren
前半季的好成绩有一个很重要的原因是他的 BABIP 低到只有 .234 而已
,FB 玩家看到这里就会知道 Haren 的好成绩是基於他异常的 BABIP,而
不是他本身的实力表现。在明星赛後,等到 Haren 的 BABIP 升到 .357
之後,他的成绩就慢慢又调回来了。
而现在的篮球统计学光是看数据统计要如何去解读 Allen、Pierce、Garnett
三人的数据下滑呢?
你不看比赛只看数据看的出来为什麽数据下滑吗?
要先搞清楚篮球统计学的限制,然後再去使用它,而不是动不动就想要用
篮球统计学来解释球场上的任何事件,如果你正在做这种事情,那很抱歉
,我觉得你滥用篮球统计学的精神。
还有你一直在举 A-Rod 在 07 年四月的高潮演出来证明他的全垒打数会下
修。你是不是搞错了什麽?A-Rod 今年四月的打数是多少?是 93 个AB ,
而他整季是几个打数啊?583 个AB。
才 16 % 的打数而已,这完全就是小
样本的数据啊! 任谁都知道这种小样本的数据拿来预测任何东西都会有很
大的偏差。
你这个例子就像是拿篮球的例子来举也是一样,上个球季 Kobe 曾经连续
四场比赛拿到 50 分以上,这四场比赛 Kobe 的总合 FGA 是 140 个(四
场平均是一场 35 个 FGA),而他整季下来的 FGA 是 1757 个( 一场平
均是 22.8 个 FGA),这很显然也是小样本数据下的结果,拿这个来预测
2006-07 球季的 Kobe 在未来几场会得到平均50分以上也是会有相当相当
大的误差,这不是很显然易见的道理吗?
(我当然知道得分不是光看 FGA 而已,只是这边我着眼在於提出 Kobe
在那四场球夸张的 FGA 数与整个球季的常态有很大的落差。)
所以你反覆提A-Rod的例子是想证明什麽呢?不就是小样本下的结果吗?
而现在整个赛季的比赛里,Celtics 已经打超过三分之一的赛季了,这跟
你前面举的小样本数据有一样吗?可以拿来一起比较吗?
我上面的论点简单总结就是:
1、篮球统计学还有许多发展空间,也还不够成熟,它还不能够让你来完美
的诠释球场上发生的事件,所以千万不要以为拿出篮球统计学就是真理
。
2、统计学是拿以前的资料来做分析并建立模形,在解释以前发生的事件时
会有很不错的效力,但是拿来预测未来的事件会有相当大的误差,尤其
是你拿来预测未来事件的离群值时会出现更大的偏差。
如果你认为今年球季Celtics 的防守失分能力是个离群值,那你还执意要用
过去资料所组成的model 来预测今年Celtics 的失分能力,那很抱歉,这个
系列我就只回文到这边,因为我想讲的话都在上面说了。
ps:在这边讲太多棒球的例子不太应该,我本身也反对在篮球讨论群组谈棒
球的例子,回文只是针对 juby27 的一些盲点做出回应,对不喜欢在篮
球讨论群组看到棒球文的板友说声抱歉。
--
http://blog.pixnet.net/IZXNHSO
个人 Blog,欢迎参观指教。
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 118.168.15.85
1F:推 iori35i:我早就准备好鸡排了 科科 01/02 23:38
2F:→ kkjjkkjj:推 01/02 23:41
3F:推 oicecnir:我叫好小姐了.. 01/02 23:41
4F:→ tim1112:因此打篮球还不是算数 但打棒球已经是了 01/02 23:41
5F:推 andy80209:半夜不要发宵夜文拉 01/02 23:42
6F:推 Maxslack:看这种文章真爽 科科 真正的顶尖对决... 01/02 23:44
7F:推 cccssszzz:顶尖统计学家都研究医学领域的 真希望来个研究运动领域 01/02 23:43
8F:推 Kirihara:先推再看 比较赞同你的>< 01/02 23:44
9F:→ Maxslack:放心 数据派已经开始介入NBA了 火箭总管就是 01/02 23:44
10F:→ Maxslack:只是如同我前篇的推文 数据派还没在NBA取的成功 还有待 01/02 23:45
11F:→ Maxslack:考验 如果火箭GM能成功带起火箭 能预见的是更多数据派进 01/02 23:46
12F:→ Maxslack:入NBA做GM... 01/02 23:46
13F:→ TheDream:篮球统计学正在起步,我也希望它能发展的很健全与成熟。 01/02 23:48
14F:→ TheDream:但是现在就认为篮球统计学是真理恐怕就走错方向了。 01/02 23:49
15F:推 White1stMan:推 打从拿数理来做例子就已经注定他先入为主的观念 01/02 23:49
16F:推 AnimalFarm:有道理 受教了 01/02 23:51
17F:推 gohit:推推 棒球统计学真的是历史悠久成熟...篮球还真是一百人有 01/02 23:51
18F:→ gohit:一百种看法 XD 01/02 23:52
19F:→ gohit:juby版友请赶快来看这篇 真理越辩越明...也许就靠你们两人 01/02 23:54
20F:推 uichen:推 逻辑清楚 01/02 23:54
21F:→ gohit:把篮球统计学给搞起来哩 !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! 01/02 23:55
22F:推 DonNelson:目前篮球数据的确太过贫乏,不过我觉得篮球还是要往数据 01/02 23:56
23F:→ DonNelson:的方向发展,将世界数字化虽然不保证一定能够触及所有真 01/02 23:58
24F:→ DonNelson:理,但某程度上经常是通往真理的捷径。当然这必须有高度 01/02 23:59
25F:→ DonNelson:成熟的计量与分析方法论来辅佐才行,应该是努力的方向。 01/03 00:00
26F:→ TheDream:不要忘了就算是成熟的棒球统计学也无法成功的预测离群值 01/03 00:01
27F:推 jajacat:谦和的态度 严谨的推论 丰富的资讯 只能说高下立判 01/03 00:01
28F:推 gohit:所以还是那句老话吗? 打篮球 不是在做算术 XDDDDDDDDDDDDDD 01/03 00:02
29F:推 luisfan:推逻辑清楚的这篇~ 01/03 00:02
30F:推 ARODisGod:统计又不是算命 还想预测未来哩 01/03 00:03
31F:推 DonNelson:是啊,我并未忽略这点,但我想如何继续发展统计方法,以 01/03 00:03
32F:推 blesstw:推 不过以"队"的观点和以"人"为观点 哪个比较不容易失真? 01/03 00:04
33F:→ DonNelson:其将来能更准确预测,应该是比较好的努力方向吧。 01/03 00:04
34F:→ jajacat:不过统计在篮球上势必会遭遇困难,在蒐集数据上,如何在流 01/03 00:04
35F:→ DonNelson:只是篮球数据目前连分析过去资料的能力都还不够好就是了 01/03 00:05
36F:推 SuWeiLin:讲真的,两位都言之有物,极具研讨的价值~ 01/03 00:05
37F:推 Maxslack:我觉得juby版友的想法并不是要预测离群值 而是以统计的角 01/03 00:05
38F:→ jajacat:动的篮球比赛中纪录,本身就很有难度! 01/03 00:05
39F:→ Maxslack:度去推断超赛未来的表现 01/03 00:06
40F:→ TheDream:同我前面所说,篮球统计学还不完美,不要任意当成真理。 01/03 00:06
41F:→ TheDream:还有统计学对於如何处理离群值还很头痛。 01/03 00:07
42F:→ TheDream:而juby27认为Celtics是离群值,那怎麽还用统计学来预测? 01/03 00:07
43F:→ gohit:有没有人可以介绍一下篮球统计的历史啊? 为啥棒球会那麽早 01/03 00:08
44F:→ TheDream:棒球统计学有个关键字:Bill James,有兴趣就去google。 01/03 00:09
45F:推 Maxslack:职业棒球上上世纪就有了 职业篮球是上世纪中才开始的 01/03 00:09
46F:推 ck910164:推 01/03 00:10
47F:推 DonNelson:我不知道两种球类的统计史,但棒球联盟早在 1871 年就开 01/03 00:10
48F:推 ericlov:推,球员创造数据,球员突破数据,球员因此而伟大..... 01/03 00:10
49F:→ DonNelson:打,职篮则是 1946 年才开打,六十余年的差距,够发生很 01/03 00:11
50F:→ DonNelson:多事情了 01/03 00:12
51F:→ DonNelson:是 75 年...我算错了对不起 01/03 00:13
52F:→ ted0217:所以赛队防守好在哪里? 有不用数据的说明吗? 01/03 00:16
53F:→ TheDream:如果ted0217想要好好讨论的话,那回篇文来,我会好好回应 01/03 00:18
54F:→ TheDream:你,但是你如果只等着我丢出什麽结论的话,那就省了吧。 01/03 00:18
55F:→ TheDream:讨论不是等着别人丢出结论才吸收。 01/03 00:18
56F:推 hardaway:ted0217 可能一开始就没看懂吧...orz 01/03 00:19
57F:→ ted0217:对不起 我很弱 写不出什麽好文 01/03 00:18
58F:→ ted0217:可是如果可以的话我想看分析防守的好文! 因为我也看不太懂 01/03 00:19
59F:→ ted0217:防守的精随。我有详细看两位的文章! 结论不就是篮球统计 01/03 00:20
60F:推 gohit:其实同楼上的我也想看 .__./ 01/03 00:21
61F:→ ted0217:不成熟 太武断拿来用很容易出问题。但除此之外要怎麽看呢 01/03 00:21
62F:→ gohit:我也想看有人分析球场上的防守好文 XD 01/03 00:21
63F:→ ted0217:美梦大说看赛队防守可以学到很多! 所以我也很期待看到更棒 01/03 00:22
64F:→ ted0217:的分析阿! 01/03 00:22
65F:→ TheDream:更棒的分析等我做足功课再发文吧!或是等非人大的文章。 01/03 00:23
66F:推 blesstw:judy兄认为以"队"来说很难有离群值 只是目前到底以"队" 01/03 00:21
67F:→ ted0217:期待期待 (拜) 01/03 00:23
68F:→ TheDream:我现在对於塞队的防守认知还很片面,正在研究中。 01/03 00:23
69F:→ blesstw:为主体的统计 到底可信度多少 很难判断 01/03 00:24
70F:推 hotdog301:KO!! 01/03 00:25
71F:推 gohit:期待期待 (拜) 01/03 00:25
72F:→ TheDream:基本上用统计学来"武断地"预测离群值这个方向就错了。 01/03 00:24
73F:→ blesstw:不过以"球员"的统计来说 篮球的确还很难找到好的统计方法 01/03 00:25
74F:推 BeanBryant:好文..大推.篮球统计学的发展确实还有待加强.. 01/03 00:34
75F:→ BeanBryant:跟棒球比的话..感觉还有点落差 01/03 00:35
76F:推 tonychou:推一个~分析的有条理~思路清晰~十分有逻辑~令人拜服 01/03 00:35
77F:→ BeanBryant:说不定这系列到最後可以研发出新的一个统计数据!? 01/03 00:36
78F:推 Price:推 TheDream 精彩文章。个人建议啦,多看数据之余,别忘了 01/03 00:38
79F:→ Price:多观察球员们在场上的每个动作,其实会更有收获 01/03 00:38
80F:→ Price: tyreal 兄的文章就是很精辟的「球场观察」 01/03 00:40
82F:推 gohit:楼上威力踢是专业七六人迷 XD 01/03 00:42
83F:推 jasonkeen:棒球是一个PLAY一个PLAY在玩的,篮球纪录切割太困难了, 01/03 00:42
84F:推 willyt:我不专业 ._. 专业的是以前的前辈们 orz 01/03 00:43
85F:→ jasonkeen:个人觉得要跳脱棒球的统计方式思维才有可能建立篮球自己 01/03 00:43
86F:→ jasonkeen:完整的统计模型,统计还有很多新奇的工具还在法展当中~ 01/03 00:43
87F:推 willyt:楼上中肯。 01/03 00:47
88F:推 jasonkeen:现在大部分人学过或接触过的统计都只是很浅很浅的统计… 01/03 00:47
89F:推 ericlov:另外美式足球似乎也是很适合导入统计的运动,情形较类似棒 01/03 00:47
90F:→ ericlov:球,是一个Play 一个Play进行的....... 01/03 00:48
91F:推 nwohippo:不过如果什麽都可以统计出来~那球赛也不好看了XD 01/03 00:54
92F:推 jasonkeen:个人想法是,只是数据和时间有高度相关性,就很难用棒球 01/03 00:54
93F:推 McCain:这篇要不要M起来呢 01/03 00:56
94F:→ jasonkeen:那一套来玩,棒球的数据跟时间几乎无关,所以容易纪录。 01/03 00:56
95F:推 monmo:其实我觉得两位都没错 只是彼此抱持的信仰中心不同罢了 01/03 01:05
96F:推 babylon2:老实说.....有史腾和他的手下在,篮球要发展统计很难 01/03 01:05
97F:→ monmo:另外我也认为judy以队为核心的探讨跟美梦以人探讨 似乎不该 01/03 01:05
98F:→ monmo:一概而论 这样似乎有点把个体经济跟总体经济混在一起谈.... 01/03 01:06
99F:→ monmo:还有 是否应该讨论加入"零容忍"政策的影响呢? 也难怪上面的 01/03 01:07
100F:→ TheDream:我讲的是统计学里离群值的预测本来就是很难。 01/03 01:07
101F:→ monmo:板友会说有Stern在似乎难以发展统计学XD(还是要推这串讨论) 01/03 01:08
102F:→ TheDream:统计学想预测就有难度了,何况是预测离群值呢? 01/03 01:08
103F:推 guesswho:BIG的数据为什麽下滑,不是看数字就能知道原因的..推~ 01/03 01:08
104F:推 Drexler:推 TheDream的文章看起来就是舒服 不亢不卑 01/03 01:09
105F:→ monmo:所以我说或许根本是你们2位对统计学信仰的不同呀 这真的是 01/03 01:09
106F:→ monmo:不到最後结果出来 谁也说服不了谁 但所以我说2位都有理 01/03 01:09
107F:推 mminlyrics:连不亢不卑都出来了 01/03 01:11
108F:→ TheDream:如果只看结果的话,大家都不用分析了啊!XDDD 01/03 01:11
109F:→ TheDream:monmo 我文章是指出juby27用统计学的方式错误了,一开始 01/03 01:11
110F:→ monmo:不是这样说的啦 分析本来就不见得确定谁有理 重要的收获是 01/03 01:12
111F:推 guesswho:BIG3 01/03 01:12
112F:→ monmo:彼此激发对於思考过程中的各种角度 我个人是觉得2位都让我有 01/03 01:12
113F:→ TheDream:他的分析方法就无法站住脚,结论当然也就不用看了啊! 01/03 01:12
114F:→ monmo:收获...美梦你说的我了解 不过我想judy兄想法跟你应该不同 01/03 01:13
115F:→ TheDream:除非他真的认为篮球统计学能预测很准,且能预测离群值。 01/03 01:14
116F:→ monmo:而那不同可能就牵涉到彼此对统计学能做到的事情的不同观感了 01/03 01:14
117F:→ TheDream:不然的话,他的其他内容都是基於这两点下去建立的。 01/03 01:14
118F:→ monmo:对 就像你说的...不过我认为他信服的是"团队"的统计数字 01/03 01:15
119F:→ monmo:这也是我认为美梦你比较多举"个人"来谈篮球统计 其实大概也 01/03 01:15
120F:→ TheDream:篮球统计学如何从人的数据转换成队的数据又是另外一项功 01/03 01:15
121F:→ monmo:说服不了他的原因 这也是我提到个体经济VS总体经济原因 01/03 01:16
122F:→ TheDream:课了,队的数据是由人的数据堆积出来的,要让人信服队的 01/03 01:16
123F:推 jasonkeen:我认为还是可以引入 Time series的去预测趋势,不过目前 01/03 01:17
124F:→ TheDream:数据以前,篮球统计学必须先做到人的数据完整性。 01/03 01:16
125F:→ monmo:这门功课我不行XD 只能提出我看到的讨论差异 如果可以 能否 01/03 01:16
126F:→ jasonkeen:还没有看过有人用这个工具。 ^想法 01/03 01:17
127F:→ monmo:请你从这角度切入呢? 拿"队"数据之於篮球统计学的发展来探讨 01/03 01:17
128F:→ TheDream:其实我也跟各位一样还在摸索篮球统计学。 01/03 01:18
129F:→ monmo:我被你对离群值的不可预测性说服 但judy来长期"队"於全联盟 01/03 01:19
130F:→ TheDream:而且统计学老实说不是我的强项。XD 01/03 01:19
※ 编辑: TheDream 来自: 118.168.15.85 (01/03 01:21)
131F:→ monmo:的数据有参考价值我也认同 不过我也认为judy太高估统计数据 01/03 01:19
132F:→ monmo:所能达到的预测或评估效果... 01/03 01:21
133F:推 rangertsao:我是觉得篮球的统计学比之棒球可能难发展太多啦 01/03 01:24
134F:→ rangertsao:篮球的团队影响比棒球的大太多 01/03 01:25
135F:→ rangertsao:而且篮球场上的对抗因子更多,所以心理层面的影响也大 01/03 01:26
136F:→ rangertsao:用统计学是难以解读关键play所造成的影响的 01/03 01:27
137F:推 cvgoter:juby27大 认为目前样本不足 也认为超赛不是特例 01/03 04:14
138F:→ cvgoter:所以用统计学论述 应该可以接受吧 01/03 04:15
139F:→ cvgoter:就算统计学不成熟也还是能参考看看 01/03 04:16
140F:推 justlink:好文 真正抓到point 01/03 08:17
141F:推 loat5oo:真的很厉害…我佩服u 01/03 12:12