作者JustOCD (电机肥宅)
看板DataScience
标题[问题] 新手请教normality/correlation相关问题
时间Thu Aug 4 05:04:19 2022
使用工具: Python
问题内容:s
非本科系 第一次接触 从没上过statistics 如果内容很伤眼请多包容了…
我有个dataset 是这样得到的:跑多次实验、每次实验采集出一组x & y results,
最终目的是寻找x和y的关联性。
原本想法是找出x和y的correlation coefficient、再用regression model(linear/non-linear)分析关系。
後来才发现原来使用statistics method还需要注重data是否normal。像是假设non-normal,只能用non-parametric tests, e.g. Spearman’s correlation,Pearson’s r correlation就不适用。
——
找了一些方法测试normality
(1)用histogram看x&y
x和y都不是bell shaped 这样意思是两个variable都是non-normal吧
(2)用Q-Q Plot
这部分很奇怪,我X和Y的Q-Q plot都分别得到一条x=0的垂直线,stackoverflow上有一样的问题但未被解答。
(3)用Shapiro-Wilk Test
因为N>5000… 好像也不适用
还有用以上方法得到的p value 都是0
——
只看histogram先结论我的data 的确是non-normal的话
第二个大问题是Regression analysis 不需要normal data
所以我不确定我是否有需要transform data?
——
TLDR:
1.请问上述观念有错误吗?
2. 请问为什麽我的Q-Q plot是直立的线?
3. 请问什麽时候才需要transform non-normal data? 如果都要跑regression的话, transform或不transform的差别是什麽?
如果有人愿意帮忙解答的话真的非常感谢
-----
Sent from JPTT on my iPhone
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 172.58.188.161 (美国)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1659560663.A.CAB.html
1F:→ JustOCD: 补图 X和Y histogram df.hist() 08/04 05:15
3F:→ JustOCD: Q-Q plot (X和Y长一样) 08/04 05:16
6F:→ wuyiulin: on/72984094.html 08/04 07:59
7F:→ wuyiulin: 简单来说 你塞进去的资料格式有错xD 08/04 08:00
8F:→ wuyiulin: 看人家 QQ plot Data 怎麽造,塞进去应该就行了 08/04 08:00
9F:→ andrew43: 线性回归的假设不是资料常态,是残差常态。 08/04 20:46
10F:嘘 a22735557: 看完你的问题只想叫你去好好修统计... 08/05 21:25
11F:→ JustOCD: 下学期上 只是现在刚好要用到 第一句就说过从没接触过 这 08/06 00:40
12F:推 a78998042a: 如楼上说的,reg假设残差常态,如果不服从则假设检定 08/07 16:48
13F:→ a78998042a: 没有意义,对y进行常态转换,有机会使残差服从常态 08/07 16:48
14F:→ a78998042a: 此时假设检定就有意义。 08/07 16:49
15F:推 cjtv: 好问题,推推 08/22 09:35