作者lelojack (莉罗夹克)
看板Biotech
标题Re: [求救] microarray normalization原理
时间Thu Nov 6 03:33:16 2014
※ 引述《wouldfly (玮玮)》之铭言:
: 是这样的... 在看microarray data挑选一些显着差异的candidates
: 不免让人想到是怎样分析的,因为data分析前条件的设定,都会牵扯到可信度..
: 有一天有一位前辈跟我说
: http://ppt.cc/H9p9 这样代表会有很多不可信的杂讯进去
: 但重点是我看不多懂这张图~~~~~~
: 我有爬文或查过一些网路上的资料
: 像以下这些资料http://ppt.cc/H9p9
: http://www.slideshare.net/antiplastics/normalization-of-microarray
: 或http://genpromarkers.com/Bioinformatics/Bioinformatics.html
: 好像就是在解释这个概念
: 但我还是看不懂那个盒须图代表的概念是什麽,上下调整会影响什麽?
: 条件设高设低代表的意思?
: 不好意思~~~拜托懂得大大可以解释,感激QQ
"Normalization(正规化)是让数据之间可以比较的前处理"
以qPCR来说,针对housekeeping gene数质的处理就是一种正规化
之所以会有原始数质彼此不能比较的原因
大部分在於operation variation(每次加样的量都不同)跟platform background
过去Microarray 正规化也有人尝试以qPCR的想法,把原始数值跟house keeping相除得到
delta CT,把这个数值当作正规化的数值。
这种想法十分的生物,但是遇到两个问题,
第一个问题:housekeeping gene如何挑选?
高表现的housekeeping gene跟低表现的house keeping gene是不同的,
而正规化的比较标准又要一致,
第二个问题:真的有housekeeping gene吗?
此外每间实验室认为的housekeeping gene都有自己的一套know-how.....
由於housekeeping gene是人定义的,定义方式也不客观
我硕论也被正规化的问题问得很惨,也告诉念生资或念生物的千万不要自己开发统计方法
我们怎麽搞也无法说服统计学家........
好的! 回来目前通行的正规化方式
目前Micorarray正规化的基本假设是:"大部分的基因表现在所有样品间的差异不大"
换句话说有差异的基因占的比例很低
这个假设舍弃了house keeping gene的概念,用population的概念去让数值之间可以比较
http://genpromarkers.com/Systems_biology/img173.gif
上图是原始数据,下图是正规化的数值
我们看到每笔"原始数值"的population都不同,违反上面提到的假设
正规化後的数值就是调整每样本的数值分布是一样的<-分布!?
讲到分布~ 统计学家又高潮了~ 这就是我硕士论文又拖两个月的原因
每套正规化工具所定义的分布,不同的假设下,数值分布会不同
回来看原始数值,我们可以了解Microaray的数值为何需要正规化
1. 我们可以看到 有些样品的原始数值普遍偏高,这就是我提到operation variation
我们无法肯定每次RNA下的量都一样,因此整体数值就会不同
2. 我们可以看到 有些样品的variaion(iner-quataile range)小,而有些不是
这可能也是hybridization技术的问题(platform background)
因为hybridazation的技术一直有over-saturation及none-specific noise的问题
低表现的基因讯号会高估(因为有非专一的杂讯), 而高表现的基因讯号会低估(饱和问题)
也是有论文认为microarray是一个dynamic range相对不好的技术
(跟qPCR及RNA-seq相比, 我的工作跟NGS相关 趁机酸一下Microarray)
不过microarray的相关资源也比较多,例如GSE, bioGPS 等等db
很多分析工具也很成熟,在一般分析工具上很少人会质疑
而NGS的软体还在蓬勃发展中........
举个例子来说GSEA的分析 在官方网站方面说:
The GSEA team has yet to determine whether any of
these ranking statistics,......., are appropriate
for use with expression data derived from RNA-seq experiments.
(就说不要惹统计学家,统计学家没时间处理的软体就成败自负拉)
所以.....正规化就是这样 有问题就再说吧
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 122.146.55.199
※ 文章网址: http://webptt.com/cn.aspx?n=bbs/Biotech/M.1415216000.A.596.html
※ 编辑: lelojack (122.146.55.199), 11/06/2014 03:40:21
※ 编辑: lelojack (122.146.55.199), 11/06/2014 03:43:06
1F:推 KittyGod: 那NGS的误差跟primer效率有没有关系呢? 11/06 06:11
2F:推 liuse: NGS的normalization也还不成熟,大家各有自己的方法 11/06 07:00
3F:推 oplz: NGS 比较的前提在各 sample 的 total RNA numbers 相同..但 11/06 07:43
4F:→ oplz: 这假设通常无法验证... 11/06 07:44
我修改文章在顺便题一下NGS表达量的算法
RPKM (Reads Per Kilobase per Million mapped reads)
其实这个算法真的很单纯,就是用基因的长度和定序的通量进行正规化
由於NGS会读到很多cDNA片段,最直观的计算RNA表现的算法就是去计算cDNA片段的数量
每条cDNA片段就是代表RNA表现的证据
但是这有两个bias:
1.基因越长,片段越多
2.定序总通量越大,所定序到的片段数量也越多
因此计算上真的很单纯 Mapped reads/(基因长度[kb]*定序通量[总条数])
至於有没有缺点,哥在硕士念完就没认真念论文惹
就等版上的强者来分享拉
※ 编辑: lelojack (122.146.39.146), 11/06/2014 20:00:26
5F:→ blence: TCGA的RNAseq是RPKM,但新的RNAseqV2则是另一个RSEM算法 11/06 21:06
6F:→ blence: 不过我只会用data,没去管怎麽来的,细节就不清楚了 11/06 21:07
7F:推 oplz: 主要是平常 wet lab 用的 housing keeping gene 表现量都不 11/07 14:50
8F:→ oplz: 是最高的 1% gene.. reads 数量低..不能用来做为 NGS 的 11/07 14:51
9F:→ oplz: control.. 但现在 NGS normalization 的方式是拿 total read 11/07 14:52
10F:→ oplz: 数去较正表现量.. 所以需要假设不同情况下的 total reads 差 11/07 14:53
11F:→ oplz: 不多.. 事实上这是不太可能的事..但也没有更好的方法 11/07 14:54
12F:→ oplz: (应该是 total RNA transcripts.. not totals).. 11/07 14:56
13F:推 liuse: RPKM只算是一种表示基因表现量的方法,现在有的NGS分析 11/08 09:05
14F:→ liuse: 都还是用raw mapped read count来运算 11/08 09:06
15F:→ liuse: 加入spike-in用来normalize是目前大家觉得比较精确的 11/08 09:08