作者expiate (夜露死苦)
看板Statistics
标题[问题] 卡方检定的资料处理
时间Mon Oct 12 20:25:04 2015
我目前在使用Apache的common math3的套件来作卡方检定的程式实作。
我要检定的是一群二维的点是否符合某bivariate normal distribution。
由於这个套件并没有提共api算某个范围的机率,
所以我把就每个点当作一个分类的格子,其对应的期望机率就用pdf来查。
也就是o = 1, e = pdf所给的机率值*1
此外,二维的点都是浮点表示,所以我假设不会有重复。
这样做的卡方检定是OK的吗?
谢谢了。
--
与怪物战斗的人,应当小心自己不要成为怪物。
当你远远凝视深渊时,深渊也在凝视你。
弗里德里希·威廉·尼采
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.109.23.156
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1444652710.A.490.html
1F:→ andrew43: 卡方的o和e都是次数, 不是机率。 10/12 22:01
2F:→ andrew43: 次数的观测值和次数在H0下的期望值,说明确一点的话。 10/12 22:04
3F:→ andrew43: 所以你是把一个点都当「1次」这样算下去吗? 10/12 22:05
4F:→ andrew43: 在单变量常态的例子中也是要分个几群来做。 10/12 22:07
5F:→ andrew43: 次数太少就不适卡方分配了,何况你都只有1次。 10/12 22:08
6F:→ expiate: 我是把e的次数用机率乘上一来代表次数。 10/12 22:12
7F:→ expiate: 我的确是把每次点都当一次来看待。看来还是得老老实实 10/12 22:13
8F:→ expiate: 分类。更正,我是把机率乘上总共的观测点数 10/12 22:14
9F:→ expiate: 谢谢你的提点,感谢感谢 10/12 22:15
10F:→ yhliu: (1) 卡方检定是大样本近似, 每个 cell 的期望次数不能太小. 10/13 18:53
11F:→ yhliu: 你的设定完全违背这个要求. 10/13 18:53
12F:→ yhliu: (2) 连续型分布要用卡方检定, 必然要分组. 因为, 单点的理 10/13 18:55
13F:→ yhliu: 论机率都是 0. 双变量分布则不只单点机率是 0, 任一简 10/13 18:56
14F:→ yhliu: 单曲线机率也是 0. 因此定要双向分组才可能做卡方检定. 10/13 18:57
15F:→ yhliu: (3) p.d.f. 不是机率. 当然可以利用 p.d.f. 去计算近似机率 10/13 18:58
16F:→ yhliu: 但绝不是直接拿 p.d.f. 当机率用. 10/13 18:59
17F:→ expiate: 再次感谢上面大德的指导。谢谢! 10/14 15:14