新浪博客

宏基因组分箱Binning以及MaxBin的使用

2018-01-25 09:31阅读:
对于宏基因组数据来说,除了将预测到的基因与各种数据库(Nr,KEGG,Cazyme等)进行比对,对宏基因组数据进行分箱Binning是一个较为高大上的操作。
宏基因组数据进行分箱及Binning就是从大量的宏基因组数中根据四核苷酸频率和序列覆盖度等挑选出属于某一个特定细菌的基因,从而组装出能有某一细菌的全基因组序列。传统的单菌全基因组序列都是经纯培养之后然后进行全基因组de novo测序,但是环境中存在着大量的不可培养微生物,而宏基因组Binning技术就很好地克服了这个缺陷。
其中很著名的一篇文章是2011年science上的牛瘤胃宏基因组的一篇文章,该研究从268G的宏基因数据中成功Binning出了15个不能培养的微生物的全基因组序列。附该文章:Hess, M. et al. Metagenomic discovery of biomass-degrading genes and genomes from cow rumen. Science 331, 463-467 (2011).
从那时起,关于宏基因组组装的软件包出了很多,MaxBin,MetaBin,CONCOCT等,至于软件的选择,争论颇多,有些文献只用一种,有些文献使用了多种软件,然后对所有结果进行一一评估(评估软件一般用CheckM,我下一篇博文将会对其进行介绍),选出最好的结果为最后结果。对于软件的选择,我推荐大家一篇最近Nature Methods上的对宏基因组数据处理各个过程软件进行评估的文章,如下:
Sczyrba, A. et al. Critical Assessment of Metagenome Interpretation-a benchmark of metagenomics software. Nat. Methods 14, 1063-1071 (2017).​
从该篇文章对Bin软件的结果评估结果来看,MaxBin2可能是最好的一个Binning软件,推荐大家使用。下面是具体的操作流程:​
MaxBin2需使用拼接好的数据对宏基因组数据进行Binning:​
~/MaxBin-2.2.4/run_MaxBin.pl -contig
Uniseq.fa -reads HS_1_paired.fasta -reads2 HS_2_paired.fasta -out bin_out_500 -min_contig_length 500 –plotmarker​
其中Uniseq.fa是拼接好的并去冗余(95%临界值)之后Contigs,后面的那两个reads是我的样品的质控之后的PE Reads序列。软件默认的-min_contigs_length 是1000,可以自己设置,即只选用大于该设置参数的contig进行操作。在这里我输入的是原始reads,可用来计算每个Contigs的丰度。​
其中最小的contig长度的设置感觉对结果影响还是蛮大的。如下两个结果
Bin name Completeness Genome size GC content
bin_out_500.001.fasta 99.1% 9602560 61.3
bin_out_500.002.fasta 72.0% 39312640 69.0
bin_out_500.003.fasta 18.7% 9828692 64.9
bin_out_500.004.fasta 11.2% 2440574 63.4
bin_out_500.005.fasta 21.5% 2135171 65.6
bin_out_500.006.fasta 61.7% 11055091 56.8
bin_out_500.007.fasta 6.5% 2154411 65.1
bin_out_500.008.fasta 85.0% 7653562 64.0
bin_out_500.009.fasta 10.3% 2291495 66.3​
Bin name Completeness Genome size GC content
bin_out.001.fasta 99.1% 7455968 60.4
bin_out.002.fasta 13.1% 4632853 69.2
bin_out.003.fasta 11.2% 541248 66.2
bin_out.004.fasta 28.0% 7285637 69.7
bin_out.005.fasta 2.8% 1458414 66.5
bin_out.006.fasta 7.5% 5616509 71.9
bin_out.007.fasta 18.7% 2226181 67.2
bin_out.008.fasta 63.6% 2161096 66.5
bin_out.009.fasta 50.5% 6246832 55.7
bin_out.010.fasta 38.3% 10469656 63.8
bin_out.011.fasta 8.4% 520675 67.0
bin_out.012.fasta 18.7% 6328356 68.1
两个Bin的结果分别是最小contig长度设置为500,1000之后得到的,有较大差别,需要后续用checkM进一步的评估一下。​
软件的安装或者如果已有contig的丰度信息直接进行运行的操作,大家可查看
http://blog.sciencenet.cn/blog-3334560-1086134.html


Wu Y W, Simmons B A, Singer S W. MaxBin 2.0: an automated binning algorithm to recover genomes from multiple metagenomic datasets[J]. Bioinformatics, 2015, 32(4): 605-607.​​
Parks D H, Imelfort M, Skennerton C T, et al. CheckM: assessing the quality of microbial genomes recovered from isolates, single cells, and metagenomes[J]. Genome research, 2015, 25(7): 1043-1055.


我的更多文章

下载客户端阅读体验更佳

APP专享