作者milk0925 (牛奶刺蝟)
看板Statistics
标题[问题] 大样本但常态检定达显着,T检定适用吗?
时间Thu Dec 10 12:09:26 2015
这位版上的统计先进大家好,
由於我最近帮老板执行研究时对某一部份的统计分析方式产生疑惑,
因此想来版上寻求各位的帮忙。
是这样的,
我目前帮我老板执行统计分析的这项研究总共回收到约1100份左右的有效问卷,
但是由於老板在他的科技部研究计画中写到会用T检定,
但T检定的前提假设之一是「资料结构」必须要符合常态分配,
於是我就遇到了以下的问题:
1.当我先对所收集来的样本进行常态检定时,发现样本非常态,
也就是我的样本在次数分配上是有显着偏态的,
但是通常母数统计法有假定当样本很大的时候,
通常所抽取到的样本在分配上会接近常态(依据中央极限定理),
但就目前的样本数应该算是大的了,
但资料结构依旧非常态,
所以我在想所谓的常态分配假定是基於抽取到的样本检定後发现样本为常态,
然後可以依此推到其母群的资料结构应该也是呈常态分配,
因而允许使用母数统计法吗?
还是只要样本数大不管是否呈常态分配都可以假定母群为常态?
2.而当发现样本非常态,
照理说这时我换成无母数统计中的Mann-Whitney可能会比较适切,
但是如果目前的样本状况都符合所有使用母数统计法的前提假定,
那麽就我综合了在书本上以及网路上的资料资後,
我得到的结论是,大样本的时候相较於T检定,Z检定更为适切,
但由於样本数大於30时,T分配与Z分配十分接近,
因此使用T检定其实已经涵盖了Z检定的应用,
请为我这样的观念是正确的吗?
先谢谢大家帮我解惑!
如果有任何在解答上尚缺乏的资讯经反映後我会尽快再补上来。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 118.171.60.233
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1449720570.A.BE8.html
1F:→ sean50301: n大於30不一定大样本, t分配自由度趋近无穷其实会收敛 12/10 13:08
2F:→ sean50301: 到z分配 12/10 13:08
3F:→ sean50301: 母体分配不一定是常态,任意分配都可以,会渐近常态是 12/10 13:14
4F:→ sean50301: 根据中央极限定理 12/10 13:14
5F:推 Pieteacher: 要考量 收敛速度吧 12/10 14:31
6F:→ milk0925: 所以意思是实际上我们在采用母数统计的方法时,我们都只 12/10 16:45
7F:→ milk0925: 是「假定」母群体为常态吗? 12/10 16:46
8F:→ milk0925: 所以我的样本目前检定出来非常态是因为样本还不够大吗? 12/10 16:47
9F:→ milk0925: 还是表示我的母群体可能实际上并不是常态分配?(←我个 12/10 16:48
10F:→ milk0925: 人就考量老板这项研究计画的性质和研究设计等等的因素, 12/10 16:49
11F:→ milk0925: 我觉得母群体可能真的并非常态分配,那如果真是这样的话 12/10 16:50
12F:→ milk0925: 请问我应该怎麽做会比较适切?) 12/10 16:51
13F:推 sean50301: 检定出来不是常态硬是假设常态感觉不太好… 某些统计软 12/10 17:21
14F:→ sean50301: 体好像有distribution fitting的功能XD 12/10 17:21
15F:→ celestialgod: 常态检定的Power........ 12/10 17:33
16F:推 Chsieh: CLT有一些假设存在的,不然你去观察死亡率样本再大都不会 12/10 19:10
17F:→ Chsieh: 是常态分配..。 12/10 19:10
18F:→ milk0925: 所以这样的情况还是会建议使用无母数法比较好吗? 12/10 21:13
19F:→ milk0925: 因为当初我虽然知道T-test在无母数的替代方式,但是老板 12/10 21:15
20F:→ milk0925: 会在计画上写使用T-test我想也有他的期待... 12/10 21:16
21F:→ milk0925: 我现在改用无母数感觉就是推翻了他... 12/10 21:17
22F:→ allen1985: 也许可以先对资料做一些转换 让资料像常态一点 12/11 11:15
23F:→ allen1985: 另外去了解一下 资料会偏的原因在哪 例如 很多0 12/11 11:16
24F:→ allen1985: 这时候就可以思考 这些0怎麽产生的 12/11 11:16
25F:→ andrew43: 因为计画书写A方法但最後改用较合理的B方法怎麽会想成 12/11 19:15
26F:→ andrew43: 打老板脸呢?你多虑了。 12/11 19:15
27F:→ andrew43: 另外,母体常态和大样本的样本平均是不是常态是二回事。 12/11 19:17
28F:→ yhliu: 关於非常态群体时 t 检定的适用性, 与 t 自由度 30 以上时 12/11 19:49
29F:→ yhliu: 接近 z 并无关系. 究竟是否适用 t 检定, 关键是能否引用中 12/11 19:50
30F:→ yhliu: 央极限定理. 对於一般随机抽样调查, 样本数不是很小, 除非 12/11 19:51
31F:→ yhliu: 群体很特殊, 例如非常偏斜, 否则 t 检定通常是可用的. 12/11 19:52
32F:→ yhliu: 可参考 telnet://bs2.to:443 之 Statistics 版 12/11 19:54
33F:→ yhliu: 4 --> 10 --> 18 关於 t 推论的 "rule of thumb" 12/11 19:55
34F:推 excimo: 反过来说我是不是可以不管常态检定 全部都用Mann Whitney? 12/11 20:51
35F:推 goshfju: 推yhliu 12/12 00:50
36F:→ milk0925: 谢谢版上的大家这麽热心替我解惑,不过为了确认我的理解 12/12 16:39
37F:→ milk0925: 是否是正确的,请容许我用我的话说出我的理解 12/12 16:40
38F:→ milk0925: 所以中央极限定理指的常态分布其实是「样本」(母群子集 12/12 16:42
39F:→ milk0925: 合)在达到30的时候,从这30个样本所求得的整体平均数会 12/12 16:43
40F:→ milk0925: 呈常态分配,而不是只我们随机取样30的受试者或30笔资料 12/12 16:44
41F:→ milk0925: 其数值分配通常就会呈常态。不晓得我这样的理解是否是对 12/12 16:45
42F:→ milk0925: 的? 12/12 16:45
43F:→ milk0925: 不好意思,因为我对图形的理解会比抽样概念好,所以刚刚 12/12 16:47
44F:→ milk0925: 我在网路上google到一张图时瞬间理解中央极限定理的概念 12/12 16:49
45F:→ milk0925: 虽然我觉得那张图真的呈现的很好,很想放上来跟大家分享 12/12 16:50
46F:→ milk0925: 但是要送出讯息时,网址被判定为可能违反规定,所以作罢 12/12 16:51
47F:→ milk0925: 另外还想请问yhliu大,所以您的意思是因为我的样本数已 12/12 17:25
48F:→ milk0925: 达到roughly n≧40,所以即便我现在用SPSS的 analyze→ 12/12 17:27
49F:→ milk0925: descriptive statistics → explore → Normality plots 12/12 17:28
50F:→ milk0925: with tests结果达显着,我依旧可以使用t-test吗? 12/12 17:28
51F:→ milk0925: 补充:老板的研究确实算是一般抽样调查,只是我有点担心 12/12 18:22
52F:→ milk0925: 在台湾文化脉络底下接受研究中所设定的议题调查,可能 12/12 18:22
53F:→ milk0925: 原本就存在分布偏态。 12/12 18:22
54F:→ andrew43: 样本数30的平均就可引用CLT,从来就没这回事。 12/13 03:19
55F:→ andrew43: 如果资料很偏,那n=500可能都不够。 12/13 03:20
56F:→ andrew43: 如果样本真的很大,t-test可以用,无论原本资料是否常态 12/13 03:23
57F:→ andrew43: 这是基於CLT没错,但不是n=30就成立。 12/13 03:24
58F:→ milk0925: 原来从以前我就一直误会这样的概念,现在才学会... 12/13 11:38
59F:→ milk0925: 所以看来依照我目前有的样本数和样本资料结构的常态检定 12/13 11:38
60F:→ milk0925: 结果,我还是援用无母数统计方法比较保险罗? 12/13 11:40