看板Biotech
标 题Re: 请问要去哪抓所有人类蛋白质序列的资料呢?
发信站生生不息 (Wed Jun 14 19:40:21 2006)
转信站ptt!Group.NCTU!grouppost!Group.NCTU!nculs
※ 引述《[email protected] (我是瓶男我很难懂)》之铭言:
> ※ 引述《[email protected] (幸福金金幸福)》之铭言:
> : 所以
> : 这个档案应该有包含一些功能
> : 参考资料上的叙述
> : 我想要找只有 fasta 档就好
> : 感谢感谢
> 用 perl 写去 NCBI 抓资料就好啦...
> 例如抓所有 virus 的 protein fasta
> 先查询有多少笔:
> http://www.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?
> db=protein&retmax=1&usehistory=y&term=viruses[orgn]
> 再从查结果...去抓对应的资料 (XXX, YYY, ZZZ)
> http://www.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?
> rettype=fasta&retmode=text&retstart=XXX&retmax=2000&
> db=protein&query_key=YYY&WebEnv=ZZZ
转眼快过一个月...
谢瓶男大的回应
我想问...
一般data base 提供的某物种蛋白序列
其实其中并非完全独立的基因
而是有一些重复
比如同一基因可能在蛋白 database 中包含
1. splicing form
2. 突变与正常form
3. 人为修饰型.......
等等
那如果我想要抓传说中的人类三万个基因
每一个蛋白质序列
彼此没重复
该怎麽取呢??
有这种database 吗??
就我所知Uni-prot
与NCBI搜索得的都是有重复的~
小弟愚昧
先谢不吝赐教~~
--
◤◥ Or
igin:
中央生科˙生生不息 nculs.twbbs.org.tw
◣◢ A
uthor:
ubiquitin 从 leu.ibms.sinica.edu.tw 发表
1F:推 mengyichen:Ensembl human peptide database也会有你说的重复 06/15 08:32
2F:→ mengyichen:但他很容易追追溯是否为同一个基因的产物 06/15 08:33
3F:推 mengyichen:其实你的问题我也遭遇过,这要先回答代表性的问题 06/15 08:38
4F:→ mengyichen:也就是说,那一个蛋白质序列可以代表这个基因 06/15 08:40
5F:→ mengyichen:而能回答你想问的问题 06/15 08:40