作者jklkj (诚实可靠小郎君)
看板Statistics
标题[问题] 成对样本T检定的问题
时间Mon Dec 7 12:28:53 2015
我目前手边有某个网站脸书文章按赞数的资料
一个是11月当天的累计,意思就是11/1号只记录当天,依此类推
另一个是12/1号纪录整月累计的
我现在想要分析是否第一天的按赞数就能代表该文章
目前只有想到用配对样本的T分配
可是这样是否会出现11/1号的文章因为有一个月(到12/1号)的酝酿期
而11/30却只有一天,这样会有问题吗
如果後续我要继续分析要多少天的累计才能代表一篇文章的按赞数
有哪些分析方法可以使用
谢谢
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 27.105.104.4
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1449462535.A.605.html
1F:→ allen1985: 可以把问题或资料在描述清楚点吗 不是很懂问题是什麽 12/07 12:43
2F:→ celestialgod: 你现在只有一个粉丝网站的话 12/07 12:51
3F:→ celestialgod: 你应该会有多篇的按赞次数 12/07 12:52
4F:→ celestialgod: 所以你现在要检定 第一天按赞次数跟一个月後的 12/07 12:52
5F:→ celestialgod: 按赞次数是否一样? 12/07 12:52
6F:→ celestialgod: 这样的话,多篇文章的按赞次数当成你的样本应该可行 12/07 12:53
7F:→ celestialgod: 要多少累计的话,可以考虑sequential test 12/07 12:53
8F:→ celestialgod: 不过你每一篇按赞次数会是同分配吗...我觉得不见得 12/07 12:55
9F:推 circlelee: 你先统计 每天按赞的人数 做个分配图 12/07 13:28
10F:→ circlelee: 先别急着套检定,你基本的描述统计要先做好 12/07 13:29
11F:→ jklkj: 如果不是常态,我是否可以用Wilcoxon作检定 12/07 14:26
12F:推 circlelee: 先别急着检定呀 你要检定什麽?? 12/07 15:14
13F:→ circlelee: 我们统计教育真的很.... 12/07 15:14
14F:→ circlelee: 先做 描述 统计 看一看分配的形态 再想要用几天 12/07 15:15
15F:→ circlelee: 不是检定的问题 而是搞不懂你真要的是什麽 12/07 15:16
16F:→ circlelee: 这种真西 我看根本不需要检定 不是检定的问题 12/07 15:16
17F:→ circlelee: 而是你的设定问题 12/07 15:17
18F:→ jklkj: 数我驽钝,不太懂你在讲什麽,如果我用一周去看,再转换成 12/07 15:26
19F:→ jklkj: 常态那我是否可以检定了 12/07 15:26
20F:推 circlelee: 我可以直接跟你讲 第一天的按赞数 代表所有按赞数 12/07 15:28
21F:→ circlelee: 这是完全没有义意的 12/07 15:28
22F:→ circlelee: 很多文章後劲强 每天都有不少人按赞 12/07 15:29
23F:→ circlelee: 为何一定要用第一天来代表所有按赞数? 12/07 15:29
24F:→ circlelee: 要代表 至少也要累积一周或两周的时间 12/07 15:29
25F:→ circlelee: 这种东西 根本不需要检定 你只要做统计资料 12/07 15:30
26F:→ circlelee: 然後看几天之後的累积量 就没什麽再增加 12/07 15:31
27F:→ circlelee: 累积量 可以设定为总累积次数的90% 12/07 15:32
28F:→ circlelee: 也就是说 在累积某天後 就达到总按赞的90% 12/07 15:32
29F:→ circlelee: 累积的天数 就是你要的天数 累积满这几天就可代表所有 12/07 15:33
30F:→ circlelee: 请记清楚 不是检定的问题 而是你道底要的是什麽! 12/07 15:34
31F:→ jklkj: 那请问一下双样本平均数差异t检定及Wilcoxon的使用时机? 12/07 15:34
32F:→ circlelee: 可怜的统计教育 只会死背一些检定的东西 12/07 15:35
33F:→ jklkj: 可以请先不要下定论吗,说不定错的是阁下 12/07 15:36
34F:推 circlelee: 好吧 也许吧 呵呵 12/07 15:58
35F:→ circlelee: 我不是怪你 我是怪教育... 12/07 15:59
36F:→ circlelee: 总之 你要清楚自己要的是什麽 这比什麽检定都重要 12/07 16:00
37F:→ celestialgod: 这不是常态的问题,是你资料来源就有问题了 12/07 16:07
38F:→ celestialgod: 你现在检定的对象,定义清楚,再来讨论比较好 12/07 16:07
39F:→ celestialgod: 如果是数篇文章的按赞数,每一篇的分配必然不同, 12/07 16:08
40F:→ celestialgod: 那这时候检定就没有用了,也不用讨论常态 12/07 16:08
41F:→ celestialgod: 你如果只是要想每一篇看的话,两个样本点是比不出来 12/07 16:08
42F:→ celestialgod: 你先思考清楚你要怎麽做,再来讨论比较好 12/07 16:08
43F:→ celestialgod: 另外,请circle大大自重,不要流於非理性讨论 12/07 16:10
44F:→ jklkj: 不好意思,我不太了解单篇文章按赞数的分配是什麽意思? 12/07 16:19
45F:→ jklkj: 我的直觉想法是每一篇的按赞数就当作是分数 12/07 16:20
46F:→ jklkj: 看一个月过後是否有显着增加,如果是所有文章是否服从常态 12/07 16:21
47F:→ jklkj: 用对数转换将其常态,再用单尾检定(以按赞数不减少为前提) 12/07 16:23
48F:→ jklkj: 至於要用累计多久的时间代表所有按赞数 12/07 16:24
49F:→ jklkj: 说不定单日的就可以完全表示,也就不用再做了 12/07 16:25
50F:→ celestialgod: 你知道T检定的对象是母体平均数 = mu_0吧? 12/07 16:35
51F:→ celestialgod: 在这检定下,X_1, ..., X_n ~ N(mu_unkown, sd_uk) 12/07 16:36
52F:→ celestialgod: 你每一篇的按赞数就是X_1, ..., X_n 12/07 16:37
53F:→ celestialgod: 可是你认为每一篇mu_unkown是相同的吗? 12/07 16:37
54F:→ celestialgod: 如果不同就不适用T检定 12/07 16:37
55F:→ jklkj: 不好意思,可能我上面没讲清楚,我是用"配对" 12/07 16:48
56F:→ jklkj: 所以是d_i这样应该是没问题的吧 12/07 16:49
57F:→ celestialgod: 没注意到 12/07 16:54
58F:→ celestialgod: 不好意思 12/07 16:55
59F:→ celestialgod: 不过这样还是有点问题,每一篇的差量range应该很大 12/07 16:56
60F:→ celestialgod: 更正,d_i的range应该会很大,应该是左偏XD 12/07 16:57
61F:→ celestialgod: 我觉得还是怪怪的,你可以尝试看看~"~ 12/07 16:58
62F:→ jklkj: 如你所言的差距确实很大,所以我用了对数转换 12/07 17:04
63F:→ jklkj: 不知道这样是否可以接受? 12/07 17:10
64F:→ celestialgod: 左偏用对数应该无法~"~ 12/07 17:36
65F:推 excimo: 你要先看 「不同文章其点阅量随时间成长的模式是否相同」 12/07 21:26
66F:→ allen1985: j大 你愿意重新po一篇 把你整个问题在讲清楚点吗 12/09 10:30
67F:→ allen1985: 以及你打算做什麽检定 针对什麽资料 12/09 10:30
68F:推 circlelee: 这个人连自己要干嘛都讲不清楚,是能问出什麽东西 12/12 14:18