看板Biotech
標 題Re: 請問要去哪抓所有人類蛋白質序列的資料呢?
發信站生生不息 (Wed Jun 14 19:40:21 2006)
轉信站ptt!Group.NCTU!grouppost!Group.NCTU!nculs
※ 引述《[email protected] (我是瓶男我很難懂)》之銘言:
> ※ 引述《[email protected] (幸福金金幸福)》之銘言:
> : 所以
> : 這個檔案應該有包含一些功能
> : 參考資料上的敘述
> : 我想要找只有 fasta 檔就好
> : 感謝感謝
> 用 perl 寫去 NCBI 抓資料就好啦...
> 例如抓所有 virus 的 protein fasta
> 先查詢有多少筆:
> http://www.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?
> db=protein&retmax=1&usehistory=y&term=viruses[orgn]
> 再從查結果...去抓對應的資料 (XXX, YYY, ZZZ)
> http://www.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?
> rettype=fasta&retmode=text&retstart=XXX&retmax=2000&
> db=protein&query_key=YYY&WebEnv=ZZZ
轉眼快過一個月...
謝瓶男大的回應
我想問...
一般data base 提供的某物種蛋白序列
其實其中並非完全獨立的基因
而是有一些重複
比如同一基因可能在蛋白 database 中包含
1. splicing form
2. 突變與正常form
3. 人為修飾型.......
等等
那如果我想要抓傳說中的人類三萬個基因
每一個蛋白質序列
彼此沒重複
該怎麼取呢??
有這種database 嗎??
就我所知Uni-prot
與NCBI搜索得的都是有重複的~
小弟愚昧
先謝不吝賜教~~
--
◤◥ Or
igin:
中央生科˙生生不息 nculs.twbbs.org.tw
◣◢ A
uthor:
ubiquitin 從 leu.ibms.sinica.edu.tw 發表
1F:推 mengyichen:Ensembl human peptide database也會有你說的重複 06/15 08:32
2F:→ mengyichen:但他很容易追追溯是否為同一個基因的產物 06/15 08:33
3F:推 mengyichen:其實你的問題我也遭遇過,這要先回答代表性的問題 06/15 08:38
4F:→ mengyichen:也就是說,那一個蛋白質序列可以代表這個基因 06/15 08:40
5F:→ mengyichen:而能回答你想問的問題 06/15 08:40