新浪博客

[转载]Chicago:一种高效的体外Hi-C技术

2016-09-19 13:07阅读:

最近一两年,Hi-C技术异常火爆,采用Hi-C技术辅助组装的基因组项目大多把scaffold N50提高到10Mb以上,联合其他的组装技术,甚至可以做到染色体水平上。
借着Hi-C的东风,美国的Dovetailgenomics 公司顺势推出自己的Hi-C技术:ChicagoChicago的本质是一种体外的Hi-C建库技术,并且和普通的体内Hi-C技术相比具有噪音低、组装(配套HiRise流程)效果好等优势。
一、Chicago建库介绍
Chicago建库流程如Figure1所示。
[转载]Chicago:一种高效的体外Hi-C技术Figure 1 Chicago 文库构建流程示意图

A. 提取高分子量的DNA并纯化,然后利用分子伴侣、组蛋白,重塑染色质;
B. 利用甲醛固定染色质,形成空间上的交联;
C. 用限制性内切酶切割交联的染色体,产生粘性的末端;
D. 用硫醇化的核苷酸(绿色正方形)和生物素标记的核苷酸(蓝色环形)填补粘性末端;
E. 钝性末端被连接起来(红色星号标记处),连接处是两个相邻的生物素标记的核苷酸;
F. 移除组蛋白,形成单分子DNA序列,此时的DNA分子末端都是生物素标记的。用外切酶移除生物素标记的核苷酸,而硫醇化的核苷酸可以起到保护内部的核苷酸不被外切酶切除。这个时候,没有生物素标记的DNA片段实际上是没有发生过远距离交联的片段,这些片段对后面的组装并没有意义。所以,最后利用生物素捕获的时候,这些片段会被淘汰掉。
接下来,把DNA分子打断成300-500bp的片段,选取带有生物素标记的DNA片段,利用Illumina的建库流程去建库测序。
注意事项:Chicago通常构建150kb的高分子量文库和500kb的超高分子量文库。对于前者,一般在Figure 1C阶段用MboI 酶或者MluCI酶来切割,形成150kb大小左右的分子片段。而500kb片段的文库,通常是在染色质装配前就用MboI酶进行切割,形成500kb大小的超高分子DNA片段。
当然,Dovetail genomics公司对后续的scaffold定位,也推出自己的流程HiRise来配合Chicago文库的测序数据。
二、HiRise组装流程介绍
HiRise主要是通过三个步骤提高组装
(1) 对原始组装中的contig定位和定向,组装成scaffold
(2) 利用Chicago文库测序reads的比对关系,确认原来的组装,切断错误连接的组装;
(3) 利用小片段shotgun文库的reads(原始组装的短片段数据),填补scaffold中的gap
HiRise的组装过程
(1) 利用Chicago文库mapping的跨度大小校正似然模型;
(2) 屏蔽重复区。考虑到重复区影响组装,所以对重复区域进行屏蔽。主要从两个方面考查重复区,一是小文库reads超高深度覆盖区;二是Chicago文库reads高密度分布区;
(3) 种子scaffold的构建及迭代。简单来说就是利用拓扑剪枝算法。先是找到一个最小跨度的结构树T,其中的node是输入的contig或者scaffold片段,edge是连接node的纽带,由Chicago文库的两个reads-pair提供;然后多次移除只有一个方向的node,形成过程树T;然后把T中无分叉的线性子图提取出来,作为种子scaffold(参见Figure2)。在每一轮的迭代过程中,计算似然值,根据log likelihood ratioLLR)的降序来做scaffold的合并(包括端对端的连接和插入连接)。在合并过程中,只要不能违背scaffold的线性关系。
[转载]Chicago:一种高效的体外Hi-C技术Figure 2 HiRise组装时种子scaffold构建示意图
(4) Contig的顺序和方向校正。对于每一次迭代,HiRise都要计算contig顺序和方向改变(只对最近两次定位的contig做考察)引起的LLR分数改变的近似值,一遍及时发现组装定位错误。如Figure3所示,当组装中出现一个inversionscaffold663)的错误时,Chicago文库reads-pair位置分布就会出现异常模式。通过HiRise校正后,Chicago文库的reads-pair分布就比较正常了,如Figure4
[转载]Chicago:一种高效的体外Hi-C技术Figure 3 组装中出现inversion错误时,Chicago reads坐标分布图
[转载]Chicago:一种高效的体外Hi-C技术Figure 4 组装中校正inversion错误后,Chicago reads坐标分布图
(5) 错误连接的检测和断开。每一次迭代,都需要去评估是否有片段的错误连接。如Figure5所示,利用Chicagoreads-pair关系可以检测到组装是否有错误连接。当有错误连接时,该处就很少有reads-pair去支持,并且有较低的LLR值。
[转载]Chicago:一种高效的体外Hi-C技术Figure 5 原始组装中的错误连接
三、Chicago技术可以用来检测SV
Chicago文库方案,除了可以辅助scaffold的构建之外,还可以用来检测结构变异(SV)。
比如Figure 6,这是一处纯合的inversion结构变异时,Chicago reads-pair的位置分布模型。正常的序列时,产生的模式应该接近Figure 4。图中蓝色散点代表了一条reads比对到正常的结构区,另一条reads比对到inversion区,导致的预期坐标错位。在大尺度下,两条reads的坐标点应该在对角线附近浮动。
[转载]Chicago:一种高效的体外Hi-C技术Figure 6 纯合的inversion 结构变异时,Chicago reads pair分布模式
Figure 7则展示了一处杂合的deletion结构变异时,Chicago reads-pair的位置分布模型。正常的序列时,产生的模式应该接近Figure 4。杂合的deletion意味着一条染色体上是正常的结构,于是出现了图中的橘色散点(正常分布);另一条染色体上的区域是deleted的,这个时候,reads-pair就会出现蓝色所示的偏差,即x坐标同,但是y坐标不同(上蓝下橘色散点);或者x坐标不同,y坐标同(左蓝右橘色散点)的情形。
当然,对于杂合的inversion和纯合的deletion也会有特殊的reads-pair分布模式,但不如上述两者来得明显。
[转载]Chicago:一种高效的体外Hi-C技术Figure 7 杂合的deletion结构变异时,Chicago readspair 分布模式
Chicago文库构建+HiRise流程组装,有如下的优势:
(1) Chicago文库构建不需要活体组织,需要的DNA量在500ng5μg。并且适用于动物、植物和微生物,目前已经成功构建了几个植物、原核生物和动物的Chicago文库。对于没有染色质的细菌来说,也可以在体外构建出人工的染色质作分析。这些都得益于组蛋白的高度保守性和非组织特异性,才能实现人的组蛋白跨物种实现染色质装配。
(2) 相对于普通Hi-C的体内构建染色质交联,Chicago采用体外染色质构建、交联,背景噪音比较低。如Figure8所示,A是用体内Hi-C方法建库测序,B是用Chicago方法建库测序。相比而言,Hi-C的背景噪音较高。(Chicago在交联实验部分,尽可能的避免人工染色质之间的交联,降低后续组装的错误)。
[转载]Chicago:一种高效的体外Hi-C技术Figure 8 Hi-C和Chicago reads-pair分布比较
(3) 相比体内的Hi-C方法,Chicago最大间距的reads-pair仅受限于DNA分子量大小。这样以来,仅用Illumina的短reads测序加上Chicago文库,就能获得较好的组装连续性。
(4) HiRise流程在组装精确度和连续性上都得到了较大的提高。如Table1所示,HiRise较其他两款主流组装软件(ALLPATHSMeraculous)有更低的组装错误率、更好的组装连续性及更高的组装完整性。

[转载]Chicago:一种高效的体外Hi-C技术Table 1 HiRise 和其他组装软件的性能比较
四、成功案例
虽然Chicago技术问世不久,但是已经在很多案例上取得了成功。并且组装效果提高得越来越明显,详见Table2. 这些项目大多是开展中,值得一提的是,Alligator基因组文章已经在Biorxiv上预发布了,题为“Improved genome assembly of American alligatorgenome reveals conserved architecture of estrogen signaling”.
[转载]Chicago:一种高效的体外Hi-C技术

我的更多文章

下载客户端阅读体验更佳

APP专享