新浪博客

关于蛋白质序列直系同源COG的注释

2014-07-19 16:56阅读:
COG:数据库下载链接:http://www.ncbi.nlm.nih.gov/COG/

注意这个数据库还包含个KOG那指的是真核生物的,目前用的蛋白质直系同源注释还有一个eggNOG数据库,这个比较全面,包含的比较多,但是到最后还是要分到COG.

在以上的网址需要下载的文件有:

whog 关于COG序列中的相关注释情况
myva COG数据库所包含的所有fasta格式的序列
fun.txt 大概COG可以按照功能分为25个大类,每一类可以用一个字母表示
===========================
此外需要下载perl程序:
cog_db_clean.pl 并不是所有的COG序列都包含所有的功能注释,所以你需要运行命令,挑选出在COG数据库中有注释的那些序列,脚本下载链接:https://gist.github.com/Buttonwood/96f9a9ef8159ca111a69
cog_db_clean.pl -myva myva whog >cog_clean.fa formatdb -p T -o T -i cog_clean.fa;
blast_parser.pl 解析blast输出结果,下载链接:https://github.com/JinfengChen/Scripts/tree/master/bin
blastall -p blastp -b 500 -v 500 -F F -d cog_clean.fa -e 1e-4 -i you
rdata.fa -o blast.out; blast_parser.pl -tophit 1 -topmatch 1 blast.out >blast.best;
这个时候你就可以编写perl与R程序输出类似下面的结果:
关于蛋白质序列直系同源COG的注释
如果想要进一步分析的代码可以在我博客下面留下你的联系方式。

我的更多文章

下载客户端阅读体验更佳

APP专享