Biotech 板


LINE

※ 引述《wouldfly (玮玮)》之铭言: : 是这样的... 在看microarray data挑选一些显着差异的candidates : 不免让人想到是怎样分析的,因为data分析前条件的设定,都会牵扯到可信度.. : 有一天有一位前辈跟我说 : http://ppt.cc/H9p9 这样代表会有很多不可信的杂讯进去 : 但重点是我看不多懂这张图~~~~~~ : 我有爬文或查过一些网路上的资料 : 像以下这些资料http://ppt.cc/H9p9 : http://www.slideshare.net/antiplastics/normalization-of-microarray : 或http://genpromarkers.com/Bioinformatics/Bioinformatics.html : 好像就是在解释这个概念 : 但我还是看不懂那个盒须图代表的概念是什麽,上下调整会影响什麽? : 条件设高设低代表的意思? : 不好意思~~~拜托懂得大大可以解释,感激QQ "Normalization(正规化)是让数据之间可以比较的前处理" 以qPCR来说,针对housekeeping gene数质的处理就是一种正规化 之所以会有原始数质彼此不能比较的原因 大部分在於operation variation(每次加样的量都不同)跟platform background 过去Microarray 正规化也有人尝试以qPCR的想法,把原始数值跟house keeping相除得到 delta CT,把这个数值当作正规化的数值。 这种想法十分的生物,但是遇到两个问题, 第一个问题:housekeeping gene如何挑选? 高表现的housekeeping gene跟低表现的house keeping gene是不同的, 而正规化的比较标准又要一致, 第二个问题:真的有housekeeping gene吗? 此外每间实验室认为的housekeeping gene都有自己的一套know-how..... 由於housekeeping gene是人定义的,定义方式也不客观 我硕论也被正规化的问题问得很惨,也告诉念生资或念生物的千万不要自己开发统计方法 我们怎麽搞也无法说服统计学家........ 好的! 回来目前通行的正规化方式 目前Micorarray正规化的基本假设是:"大部分的基因表现在所有样品间的差异不大" 换句话说有差异的基因占的比例很低 这个假设舍弃了house keeping gene的概念,用population的概念去让数值之间可以比较 http://genpromarkers.com/Systems_biology/img173.gif
上图是原始数据,下图是正规化的数值 我们看到每笔"原始数值"的population都不同,违反上面提到的假设 正规化後的数值就是调整每样本的数值分布是一样的<-分布!? 讲到分布~ 统计学家又高潮了~ 这就是我硕士论文又拖两个月的原因 每套正规化工具所定义的分布,不同的假设下,数值分布会不同 回来看原始数值,我们可以了解Microaray的数值为何需要正规化 1. 我们可以看到 有些样品的原始数值普遍偏高,这就是我提到operation variation 我们无法肯定每次RNA下的量都一样,因此整体数值就会不同 2. 我们可以看到 有些样品的variaion(iner-quataile range)小,而有些不是 这可能也是hybridization技术的问题(platform background) 因为hybridazation的技术一直有over-saturation及none-specific noise的问题 低表现的基因讯号会高估(因为有非专一的杂讯), 而高表现的基因讯号会低估(饱和问题) 也是有论文认为microarray是一个dynamic range相对不好的技术 (跟qPCR及RNA-seq相比, 我的工作跟NGS相关 趁机酸一下Microarray) 不过microarray的相关资源也比较多,例如GSE, bioGPS 等等db 很多分析工具也很成熟,在一般分析工具上很少人会质疑 而NGS的软体还在蓬勃发展中........ 举个例子来说GSEA的分析 在官方网站方面说: The GSEA team has yet to determine whether any of these ranking statistics,......., are appropriate for use with expression data derived from RNA-seq experiments. (就说不要惹统计学家,统计学家没时间处理的软体就成败自负拉) 所以.....正规化就是这样 有问题就再说吧 --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 122.146.55.199
※ 文章网址: http://webptt.com/cn.aspx?n=bbs/Biotech/M.1415216000.A.596.html ※ 编辑: lelojack (122.146.55.199), 11/06/2014 03:40:21 ※ 编辑: lelojack (122.146.55.199), 11/06/2014 03:43:06
1F:推 KittyGod: 那NGS的误差跟primer效率有没有关系呢? 11/06 06:11
2F:推 liuse: NGS的normalization也还不成熟,大家各有自己的方法 11/06 07:00
3F:推 oplz: NGS 比较的前提在各 sample 的 total RNA numbers 相同..但 11/06 07:43
4F:→ oplz: 这假设通常无法验证... 11/06 07:44
我修改文章在顺便题一下NGS表达量的算法 RPKM (Reads Per Kilobase per Million mapped reads) 其实这个算法真的很单纯,就是用基因的长度和定序的通量进行正规化 由於NGS会读到很多cDNA片段,最直观的计算RNA表现的算法就是去计算cDNA片段的数量 每条cDNA片段就是代表RNA表现的证据 但是这有两个bias: 1.基因越长,片段越多 2.定序总通量越大,所定序到的片段数量也越多 因此计算上真的很单纯 Mapped reads/(基因长度[kb]*定序通量[总条数]) 至於有没有缺点,哥在硕士念完就没认真念论文惹 就等版上的强者来分享拉 ※ 编辑: lelojack (122.146.39.146), 11/06/2014 20:00:26
5F:→ blence: TCGA的RNAseq是RPKM,但新的RNAseqV2则是另一个RSEM算法 11/06 21:06
6F:→ blence: 不过我只会用data,没去管怎麽来的,细节就不清楚了 11/06 21:07
7F:推 oplz: 主要是平常 wet lab 用的 housing keeping gene 表现量都不 11/07 14:50
8F:→ oplz: 是最高的 1% gene.. reads 数量低..不能用来做为 NGS 的 11/07 14:51
9F:→ oplz: control.. 但现在 NGS normalization 的方式是拿 total read 11/07 14:52
10F:→ oplz: 数去较正表现量.. 所以需要假设不同情况下的 total reads 差 11/07 14:53
11F:→ oplz: 不多.. 事实上这是不太可能的事..但也没有更好的方法 11/07 14:54
12F:→ oplz: (应该是 total RNA transcripts.. not totals).. 11/07 14:56
13F:推 liuse: RPKM只算是一种表示基因表现量的方法,现在有的NGS分析 11/08 09:05
14F:→ liuse: 都还是用raw mapped read count来运算 11/08 09:06
15F:→ liuse: 加入spike-in用来normalize是目前大家觉得比较精确的 11/08 09:08







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:BabyMother站内搜寻

TOP