对于宏基因组数据来说,除了将预测到的基因与各种数据库(Nr,KEGG,Cazyme等)进行比对,对宏基因组数据进行分箱Binning是一个较为高大上的操作。
宏基因组数据进行分箱及Binning就是从大量的宏基因组数中根据四核苷酸频率和序列覆盖度等挑选出属于某一个特定细菌的基因,从而组装出能有某一细菌的全基因组序列。传统的单菌全基因组序列都是经纯培养之后然后进行全基因组de novo测序,但是环境中存在着大量的不可培养微生物,而宏基因组Binning技术就很好地克服了这个缺陷。
其中很著名的一篇文章是2011年science上的牛瘤胃宏基因组的一篇文章,该研究从268G的宏基因数据中成功Binning出了15个不能培养的微生物的全基因组序列。附该文章:Hess, M. et al. Metagenomic discovery of biomass-degrading genes and genomes from cow rumen. Science 331, 463-467 (2011).
从那时起,关于宏基因组组装的软件包出了很多,MaxBin,MetaBin,CONCOCT等,至于软件的选择,争论颇多,有些文献只用一种,有些文献使用了多种软件,然后对所有结果进行一一评估(评估软件一般用CheckM,我下一篇博文将会对其进行介绍),选出最好的结果为最后结果。对于软件的选择,我推荐大家一篇最近Nature Methods上的对宏基因组数据处理各个过程软件进行评估的文章,如下:
Sczyrba, A. et al. Critical Assessment of Metagenome Interpretation-a benchmark of metagenomics software. Nat. Methods 14, 1063-1071 (2017).
从该篇文章对Bin软件的结果评估结果来看,MaxBin2可能是最好的一个Binning软件,推荐大家使用。下面是具体的操作流程:
MaxBin2需使用拼接好的数据对宏基因组数据进行Binning:
~/MaxBin-2.2.4/run_MaxBin.pl -contig
宏基因组数据进行分箱及Binning就是从大量的宏基因组数中根据四核苷酸频率和序列覆盖度等挑选出属于某一个特定细菌的基因,从而组装出能有某一细菌的全基因组序列。传统的单菌全基因组序列都是经纯培养之后然后进行全基因组de novo测序,但是环境中存在着大量的不可培养微生物,而宏基因组Binning技术就很好地克服了这个缺陷。
其中很著名的一篇文章是2011年science上的牛瘤胃宏基因组的一篇文章,该研究从268G的宏基因数据中成功Binning出了15个不能培养的微生物的全基因组序列。附该文章:Hess, M. et al. Metagenomic discovery of biomass-degrading genes and genomes from cow rumen. Science 331, 463-467 (2011).
从那时起,关于宏基因组组装的软件包出了很多,MaxBin,MetaBin,CONCOCT等,至于软件的选择,争论颇多,有些文献只用一种,有些文献使用了多种软件,然后对所有结果进行一一评估(评估软件一般用CheckM,我下一篇博文将会对其进行介绍),选出最好的结果为最后结果。对于软件的选择,我推荐大家一篇最近Nature Methods上的对宏基因组数据处理各个过程软件进行评估的文章,如下:
Sczyrba, A. et al. Critical Assessment of Metagenome Interpretation-a benchmark of metagenomics software. Nat. Methods 14, 1063-1071 (2017).
从该篇文章对Bin软件的结果评估结果来看,MaxBin2可能是最好的一个Binning软件,推荐大家使用。下面是具体的操作流程:
MaxBin2需使用拼接好的数据对宏基因组数据进行Binning:
~/MaxBin-2.2.4/run_MaxBin.pl -contig
