COG:数据库下载链接:http://www.ncbi.nlm.nih.gov/COG/
注意这个数据库还包含个KOG那指的是真核生物的,目前用的蛋白质直系同源注释还有一个eggNOG数据库,这个比较全面,包含的比较多,但是到最后还是要分到COG.
在以上的网址需要下载的文件有:
whog 关于COG序列中的相关注释情况
myva COG数据库所包含的所有fasta格式的序列
fun.txt 大概COG可以按照功能分为25个大类,每一类可以用一个字母表示
===========================
此外需要下载perl程序:
cog_db_clean.pl
并不是所有的COG序列都包含所有的功能注释,所以你需要运行命令,挑选出在COG数据库中有注释的那些序列,脚本下载链接:https://gist.github.com/Buttonwood/96f9a9ef8159ca111a69
blast_parser.pl 解析blast输出结果,下载链接:https://github.com/JinfengChen/Scripts/tree/master/bin
注意这个数据库还包含个KOG那指的是真核生物的,目前用的蛋白质直系同源注释还有一个eggNOG数据库,这个比较全面,包含的比较多,但是到最后还是要分到COG.
在以上的网址需要下载的文件有:
whog
myva
fun.txt
===========================
此外需要下载perl程序:
cog_db_clean.pl
cog_db_clean.pl -myva myva whog >cog_clean.fa formatdb -p
T -o T -i cog_clean.fa;blast_parser.pl
blastall -p blastp -b 500 -v 500 -F F -d cog_clean.fa -e 1e-4
-i you 