一般来说,测序数据的数据量和测序深度在样本送测之前就应该确定下来。但是,对于从网上下载的数据如何得知它的数据量大小和测序深度呢?
首先,需要明确:数据量大小其实就是碱基的个数。
那么,数据量大小就应该这么计算:
【单端测序】 数据量=reads长度 *
reads个数 (reads长度很容易得知,reads数目可以用$ wc -l
file.fastq统计出来的结果除以4,因为1个reads在fastq文件里通常用4行的信息来描述)
【双端测序】
数据量=单端reads长度 * 单端reads个数 * 2
单位换算:
1个碱基=1bp 1kb=1024bp 1M=1024kb
1G=1024M
测序深度的计算方法如下:
测序深度=数据量大小 / 参考基因组大小
同理,在测序之前我们在确定数据量大小和测序深度时,也可以根据以上思路反推。
首先,需要明确:数据量大小其实就是碱基的个数。
那么,数据量大小就应该这么计算:
【单端测序】
【双端测序】
测序深度的计算方法如下:
测序深度=数据量大小 / 参考基因组大小
同理,在测序之前我们在确定数据量大小和测序深度时,也可以根据以上思路反推。
