作者maja314 (马甲)
看板Statistics
标题Re: [问题] sample size少要如何使p-value更显着
时间Fri Jul 17 23:11:13 2015
※ 引述《sinclairJ (SunnyGymBoy)》之铭言:
: 如题 小弟目前从事有关Genome -Wide Association Studies研究
: 但目前样本数太少(约150)
: 所计算出的最显着p-value为10^-6(x与y 相关性检定)
: 但boss希望能达到10^-8
: 想请教除了增加样本外
: 还有其他的方法吗?
: 谢谢各位前辈指教
: 目前有想过用产生虚拟样本的方式来增加样本数 但我的x与y都是category 所以也卡住了
: 。。。
先说建议,乖乖申请经费增加样本吧!
(一个小助理应该是没办法说服老板去要更多的钱来增加样本的)
不过我想说个故事…
大约6年前有个国立研究机构,花了几百万做了GWAS,
使用的样本大约有1000多人,来源遍布台湾,甚至还有原住民,
使用的软体是Plink,跑遍了软体内建的各种检定,
最好的结果大约也是10^-6~10^-7
当时领导的老师A为了追求更好的结果,
反覆的改变跑检定的样本组成,
删掉某些没有通过样本品质检验的样本,
降低或提高不同样本品质检验的type I error,
为此整个资料的前处理高达一年之久,
但仍无法得到更低的p-value。
如果不追求更低的p-value,当时是有可能把paper发出去的,
可是过了一年,想发也没得发了,
後续的研究团队用的人数更多,2000-3000人是常态,
p-value更是低到吓人,-8,-9…我还看过-12的,
为了争取把名字留在期刊上面的机会,
另外一位负责领导的老师B把资料给了NCI的教授,
结合那位教授的亚洲样本资料,终於在该领域算不错的期刊发表了。
利用这笔资料陆陆续续有在不同的期刊发paper,
只是能发在像PLoS、Nature Genetic的机会就再也没有了,
故事说完了。这是从我的角度看到的种种,
当然或许老师们有他们的考量。
建议原po可以多试几种检定方法,
或许可以找到让p-value降低的model。
至於为什麽需要这麽低的p-value?
GWAS的中文叫「全基因组关联性检定」
有看到关键字了吗?没错,就是基因。
人体的基因约有20000-25000个,
姑且不论检定方法,每一次检定等於同时对20000多个基因做检定,
因此在multiple correction的原则下,
要求p-value到10^-6并非不合理的事情。
加上定序技术日新月异,基因只会越发现越多,
生物类的期刊p-value通常会要求到0.01或更低,
因此有些教授会要求到10^-8~10^-9,
如果你的监定标的是SNP,p-value可是直接从10^-9起跳,
SNP的wiki:
https://en.wikipedia.org/wiki/Single-nucleotide_polymorphism
当然做gwas的老师大多懂基因不懂统计,所以只知道p-value越低越好,
但统计有其极限,150个样本能做到p-value=10^-6已经很厉害了,
想要更低除了换model外,就是多收集样本,
希望能对原PO有点帮助。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.35.73.54
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1437145876.A.6C4.html
1F:→ expiate: 不太懂到10^-8这种等级的意义,可以解释吗? 07/17 23:17
2F:→ hugh23715: 以某家的晶片上会有450K个点,你要同时作统计检定 07/17 23:46
3F:→ hugh23715: 你0.05除以45万个点就知道有多小了 07/17 23:56
4F:→ wwfc: 内文有写,multiple correction,see? 07/18 00:00
5F:推 sinclairJ: 谢谢原po的解释 虽然我与老板也不太喜欢try and error 07/18 02:08
6F:→ sinclairJ: 的做法 但是为了可信度 能发上基本的期刊 -8似乎是门槛 07/18 02:08
7F:→ sinclairJ: 才不断的寻找各种方法来提升显着程度 07/18 02:08