新浪博客

宏基因组Binning结果评估—checkm

2018-01-25 10:29阅读:
此博文我的上一篇博文讲述使用checkm对宏基因组Binning结果的评估。​​
其实checkm不仅可以对binning好的数据进行评估,还可以进一步从每一个binner中找出16s rRNA基因,以便于后续对所拼装达到的菌种的分类信息进行鉴定。​
该软件包以及软件包的安装大家可分别访问以下网址:​
https://github.com/Ecogenomics/CheckM
https://github.com/Ecogenomics/CheckM/wiki
对于其的安装我只说一点,在安装其之前首先需要安装pplacer (>=1.1)软件包,并将其放入系统环境中:export PATH=$PATH: /homepplacer-Linux-v1.1.alpha17
下面是该软件具体操作流程:​
checkm lineage_wf bin1 bin1_check -x fasta -t 4 –nt​
其中Bin1文件夹中包含了所有的拼接好的fasta文件,bin1_check中保存着所有的输出结果,-x代表拼接好的基因组序列的后缀,-nt可以挑选并预测出一个Binner中的所有基因信息。​下面其中一个Binner的评估结果:​​
bin_out.003 {'Translation table': 11, 'GC std': 0.010094058156906055, '# ambiguous bases': 0, 'Genome size': 541248, 'Longest contig': 14451, 'N50 (scaffolds)': 2637, 'Mean scaffold length': 2405.5466666
666666, '# contigs': 225, '# scaffolds': 225, '# predicted genes': 713, 'Longest scaffold': 14451, 'GC': 0.6618629537661109, 'N50 (contigs)': 2637, 'Coding density': 0.8806166489298806, 'Mean contig length': 2405.5466666666666}
下面在介绍一下如何使用checkm对所得到的binner进行菌属分类信息鉴定:​
checkm ssu_finder Uniseq.fa bin1 bin1_16S_out -x fasta​​
其中Uniseq.fa 用来进行Binning的拼接好的数据,bin1文件夹中有bin出的基因组信息,-x 拼出的基因组信息的后缀 bin1_16S​_out 为输出文件夹。​
下面是输出的结果总结文件的信息:
Bin Id Seq. Id HMM i-Evalue Start hit End hit 16S/18S gene length Rev. Complement Sequence length
bin_out.001 HS_C3919193 euk 0 21 1503 1482 False 1504
bin_out.001 HS_C3894385 bacteria 2.9e-201 9 1032 1023 True 1034
bin_out.009 HS_C3925243 archaea 1.1e-39 1 240 239 True 1771
bin_out.009 HS_scaffold2186 bacteria 0 149 1669 1520 False 1671
bin_out.009 HS_scaffold6423 archaea 0 768 2242 1474 False 11764
bin_out.009 HS_scaffold3786 bacteria 2.5e-32 2 178 176 False 1819
bin_out.010 HS_C3892003 bacteria 1.1e-11 5 78 73 True 1009​
有些基因组binner没有找出16S rRNA基因(毕竟没有bin完全),而其中一些基因组binners 却找出了多个16S rRNA基因,符合16S rRNA基因一般在某个细菌中是多拷贝。​找到每一个Binner的16S rRNA基因后就可以对该binner进行blast比对,系统发育分析等操作,我曾写过一个构建系统发育树的博文,可以参考。​
其中最近又新出了一个对binning得到的结果进行进一步后续分析的软件包:​
https://github.com/geomagpy/magpy
Stewart R, Auffret M, Snelling T, et al. MAGpy: a reproducible pipeline for the downstream analysis of metagenome-assembled genomes (MAGs)[J]. bioRxiv, 2017: 233544.​
该文章曾说checkm只能对得到的结果进行大概的验证,而magpy分析的更为精确,但是该软件包依赖包相当的多,到现在我硬是还没有搞定,等我有时间攻克它再给大家分享。


Parks D H, Imelfort M, Skennerton C T, et al. CheckM: assessing the quality of microbial genomes recovered from isolates, single cells, and metagenomes[J]. Genome research, 2015, 25(7): 1043-1055.​

我的更多文章

下载客户端阅读体验更佳

APP专享