Statistics 板


LINE

不好意思,我叙述不是很好,我尽可能地再详尽叙述一次 我手边有某个网站的脸书文章按赞、留言及分享数资料 分别是 一、11/1~11/30每天的po文抓取该贴文发文後24小时的资料 二、12/1当天抓取11/1~11/30贴文资料 首先我想要分析的是"是否贴文24小时之後与24小时内资料无差异" 这个检定我想用T分配看是否有差异 如果没有就结束,如果有才要做第二阶段 看是何种文章类型会造成显着差异,而天数又是多少 以下是摘要统计 变数名称 Variable Dlikes logDlikes 样本数 Count 81 81 总和 Sum 387962 288.3697 平均数 Mean 4789.6543 3.5601 中位数 Median 3712 3.5696 众数 Mode 494 2.6937 标准差 Std. Dev. 3568.2636 0.3387 变异数 Variance 12732505.104 0.1147 变异系数 C.V. 0.745 0.0951 全距 Range 17573 1.5632 最小值 Minimum 494 2.6937 最大值 Maximum 18067 4.2569 第一四分位数 Q1 2173 3.3371 第三四分位数 Q3 6546 3.816 峰态系数 Kurtosis 1.553 -0.5186 偏态系数 Skewness 1.2882 -0.2257 我也好奇,如果资料不是常态(确实不是),是用log取常态(如果可以)还是用无母数比较好 而至於第二阶段也可以给我些方向吗 谢谢 ※ 引述《jklkj (诚实可靠小郎君)》之铭言: : 标题: [问题] 成对样本T检定的问题 : 时间: Mon Dec 7 12:28:53 2015 : : 我目前手边有某个网站脸书文章按赞数的资料 : 一个是11月当天的累计,意思就是11/1号只记录当天,依此类推 : 另一个是12/1号纪录整月累计的 : 我现在想要分析是否第一天的按赞数就能代表该文章 : 目前只有想到用配对样本的T分配 : 可是这样是否会出现11/1号的文章因为有一个月(到12/1号)的酝酿期 : 而11/30却只有一天,这样会有问题吗 : 如果後续我要继续分析要多少天的累计才能代表一篇文章的按赞数 : 有哪些分析方法可以使用 : 谢谢 : : -- :



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 27.105.104.4
: ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1449462535.A.605.html : → allen1985: 可以把问题或资料在描述清楚点吗 不是很懂问题是什麽 12/07 12:43 : → celestialgod: 你现在只有一个粉丝网站的话 12/07 12:51 : → celestialgod: 你应该会有多篇的按赞次数 12/07 12:52 : → celestialgod: 所以你现在要检定 第一天按赞次数跟一个月後的 12/07 12:52 : → celestialgod: 按赞次数是否一样? 12/07 12:52 : → celestialgod: 这样的话,多篇文章的按赞次数当成你的样本应该可行 12/07 12:53 : → celestialgod: 要多少累计的话,可以考虑sequential test 12/07 12:53 : → celestialgod: 不过你每一篇按赞次数会是同分配吗...我觉得不见得 12/07 12:55 : 推 circlelee: 你先统计 每天按赞的人数 做个分配图 12/07 13:28 : → circlelee: 先别急着套检定,你基本的描述统计要先做好 12/07 13:29 : → jklkj: 如果不是常态,我是否可以用Wilcoxon作检定 12/07 14:26 : 推 circlelee: 先别急着检定呀 你要检定什麽?? 12/07 15:14 : → circlelee: 我们统计教育真的很.... 12/07 15:14 : → circlelee: 先做 描述 统计 看一看分配的形态 再想要用几天 12/07 15:15 : → circlelee: 不是检定的问题 而是搞不懂你真要的是什麽 12/07 15:16 : → circlelee: 这种真西 我看根本不需要检定 不是检定的问题 12/07 15:16 : → circlelee: 而是你的设定问题 12/07 15:17 : → jklkj: 数我驽钝,不太懂你在讲什麽,如果我用一周去看,再转换成 12/07 15:26 : → jklkj: 常态那我是否可以检定了 12/07 15:26 : 推 circlelee: 我可以直接跟你讲 第一天的按赞数 代表所有按赞数 12/07 15:28 : → circlelee: 这是完全没有义意的 12/07 15:28 : → circlelee: 很多文章後劲强 每天都有不少人按赞 12/07 15:29 : → circlelee: 为何一定要用第一天来代表所有按赞数? 12/07 15:29 : → circlelee: 要代表 至少也要累积一周或两周的时间 12/07 15:29 : → circlelee: 这种东西 根本不需要检定 你只要做统计资料 12/07 15:30 : → circlelee: 然後看几天之後的累积量 就没什麽再增加 12/07 15:31 : → circlelee: 累积量 可以设定为总累积次数的90% 12/07 15:32 : → circlelee: 也就是说 在累积某天後 就达到总按赞的90% 12/07 15:32 : → circlelee: 累积的天数 就是你要的天数 累积满这几天就可代表所有 12/07 15:33 : → circlelee: 请记清楚 不是检定的问题 而是你道底要的是什麽! 12/07 15:34 : → jklkj: 那请问一下双样本平均数差异t检定及Wilcoxon的使用时机? 12/07 15:34 : → circlelee: 可怜的统计教育 只会死背一些检定的东西 12/07 15:35 : → jklkj: 可以请先不要下定论吗,说不定错的是阁下 12/07 15:36 : 推 circlelee: 好吧 也许吧 呵呵 12/07 15:58 : → circlelee: 我不是怪你 我是怪教育... 12/07 15:59 : → circlelee: 总之 你要清楚自己要的是什麽 这比什麽检定都重要 12/07 16:00 : → celestialgod: 这不是常态的问题,是你资料来源就有问题了 12/07 16:07 : → celestialgod: 你现在检定的对象,定义清楚,再来讨论比较好 12/07 16:07 : → celestialgod: 如果是数篇文章的按赞数,每一篇的分配必然不同, 12/07 16:08 : → celestialgod: 那这时候检定就没有用了,也不用讨论常态 12/07 16:08 : → celestialgod: 你如果只是要想每一篇看的话,两个样本点是比不出来 12/07 16:08 : → celestialgod: 你先思考清楚你要怎麽做,再来讨论比较好 12/07 16:08 : → celestialgod: 另外,请circle大大自重,不要流於非理性讨论 12/07 16:10 : → jklkj: 不好意思,我不太了解单篇文章按赞数的分配是什麽意思? 12/07 16:19 : → jklkj: 我的直觉想法是每一篇的按赞数就当作是分数 12/07 16:20 : → jklkj: 看一个月过後是否有显着增加,如果是所有文章是否服从常态 12/07 16:21 : → jklkj: 用对数转换将其常态,再用单尾检定(以按赞数不减少为前提) 12/07 16:23 : → jklkj: 至於要用累计多久的时间代表所有按赞数 12/07 16:24 : → jklkj: 说不定单日的就可以完全表示,也就不用再做了 12/07 16:25 : → celestialgod: 你知道T检定的对象是母体平均数 = mu_0吧? 12/07 16:35 : → celestialgod: 在这检定下,X_1, ..., X_n ~ N(mu_unkown, sd_uk) 12/07 16:36 : → celestialgod: 你每一篇的按赞数就是X_1, ..., X_n 12/07 16:37 : → celestialgod: 可是你认为每一篇mu_unkown是相同的吗? 12/07 16:37 : → celestialgod: 如果不同就不适用T检定 12/07 16:37 : → jklkj: 不好意思,可能我上面没讲清楚,我是用"配对" 12/07 16:48 : → jklkj: 所以是d_i这样应该是没问题的吧 12/07 16:49 : → celestialgod: 没注意到 12/07 16:54 : → celestialgod: 不好意思 12/07 16:55 : → celestialgod: 不过这样还是有点问题,每一篇的差量range应该很大 12/07 16:56 : → celestialgod: 更正,d_i的range应该会很大,应该是左偏XD 12/07 16:57 : → celestialgod: 我觉得还是怪怪的,你可以尝试看看~"~ 12/07 16:58 : → jklkj: 如你所言的差距确实很大,所以我用了对数转换 12/07 17:04 : → jklkj: 不知道这样是否可以接受? 12/07 17:10 : → celestialgod: 左偏用对数应该无法~"~ 12/07 17:36 : 推 excimo: 你要先看 「不同文章其点阅量随时间成长的模式是否相同」 12/07 21:26 : → allen1985: j大 你愿意重新po一篇 把你整个问题在讲清楚点吗 12/09 10:30 : → allen1985: 以及你打算做什麽检定 针对什麽资料 12/09 10:30 --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 61.222.32.250
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1449805931.A.3C0.html
1F:→ allen1985: 24小时内 vs. 24小时後一个月的资料 如果取log之後 12/11 12:21
2F:→ allen1985: 直方图还是很不常态 可以试着做box-cox转换 12/11 12:21
3F:→ allen1985: 个人不会太担心使用paired t-test 12/11 12:23
4F:→ Chsieh: 资料你取log或者box-cox当然可以,你该想的是解释部分 12/11 12:35
5F:→ allen1985: 另一个问题是 24小时後的资料 天数是不是不一样 12/11 12:39
6F:→ allen1985: 就会有点不知道在比什麽 12/11 12:40







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:Tech_Job站内搜寻

TOP