[转载]Chicago：一种高效的体外Hi-C技术

2016-09-19 13:07阅读：

http://blog.sina.cn/dpool/blog/u/1841300514

最近一两年，Hi-C技术异常火爆，采用Hi-C技术辅助组装的基因组项目大多把scaffold N50提高到10Mb以上，联合其他的组装技术，甚至可以做到染色体水平上。
借着Hi-C的东风，美国的Dovetailgenomics 公司顺势推出自己的Hi-C技术：Chicago。Chicago的本质是一种体外的Hi-C建库技术，并且和普通的体内Hi-C技术相比具有噪音低、组装（配套HiRise流程）效果好等优势。
一、Chicago建库介绍
Chicago建库流程如Figure1所示。

Figure 1 Chicago 文库构建流程示意图

A. 提取高分子量的DNA并纯化，然后利用分子伴侣、组蛋白，重塑染色质；
B. 利用甲醛固定染色质，形成空间上的交联；
C. 用限制性内切酶切割交联的染色体，产生粘性的末端；
D. 用硫醇化的核苷酸（绿色正方形）和生物素标记的核苷酸（蓝色环形）填补粘性末端；
E. 钝性末端被连接起来（红色星号标记处），连接处是两个相邻的生物素标记的核苷酸；
F. 移除组蛋白，形成单分子DNA序列，此时的DNA分子末端都是生物素标记的。用外切酶移除生物素标记的核苷酸，而硫醇化的核苷酸可以起到保护内部的核苷酸不被外切酶切除。这个时候，没有生物素标记的DNA片段实际上是没有发生过远距离交联的片段，这些片段对后面的组装并没有意义。所以，最后利用生物素捕获的时候，这些片段会被淘汰掉。
接下来，把DNA分子打断成300-500bp的片段，选取带有生物素标记的DNA片段，利用Illumina的建库流程去建库测序。
注意事项：Chicago通常构建150kb的高分子量文库和500kb的超高分子量文库。对于前者，一般在Figure 1的C阶段用MboI 酶或者MluCI酶来切割，形成150kb大小左右的分子片段。而500kb片段的文库，通常是在染色质装配前就用MboI酶进行切割，形成500kb大小的超高分子DNA片段。
当然，Dovetail genomics公司对后续的scaffold定位，也推出自己的流程HiRise来配合Chicago文库的测序数据。
二、HiRise组装流程介绍
HiRise主要是通过三个步骤提高组装
（1）对原始组装中的contig定位和定向，组装成scaffold；
（2）利用Chicago文库测序reads的比对关系，确认原来的组装，切断错误连接的组装；
（3）利用小片段shotgun文库的reads（原始组装的短片段数据），填补scaffold中的gap。
HiRise的组装过程
（1）利用Chicago文库mapping的跨度大小校正似然模型；
（2）屏蔽重复区。考虑到重复区影响组装，所以对重复区域进行屏蔽。主要从两个方面考查重复区，一是小文库reads超高深度覆盖区；二是Chicago文库reads高密度分布区；
（3）种子scaffold的构建及迭代。简单来说就是利用拓扑剪枝算法。先是找到一个最小跨度的结构树T，其中的node是输入的contig或者scaffold片段，edge是连接node的纽带，由Chicago文库的两个reads-pair提供；然后多次移除只有一个方向的node，形成过程树T′；然后把T′中无分叉的线性子图提取出来，作为种子scaffold（参见Figure2）。在每一轮的迭代过程中，计算似然值，根据log likelihood ratio（LLR）的降序来做scaffold的合并（包括端对端的连接和插入连接）。在合并过程中，只要不能违背scaffold的线性关系。

Figure 2 HiRise组装时种子scaffold构建示意图
（4） Contig的顺序和方向校正。对于每一次迭代，HiRise都要计算contig顺序和方向改变（只对最近两次定位的contig做考察）引起的LLR分数改变的近似值，一遍及时发现组装定位错误。如Figure3所示，当组装中出现一个inversion（scaffold663）的错误时，Chicago文库reads-pair位置分布就会出现异常模式。通过HiRise校正后，Chicago文库的reads-pair分布就比较正常了，如Figure4。

Figure 3 组装中出现inversion错误时，Chicago reads坐标分布图

Figure 4 组装中校正inversion错误后，Chicago reads坐标分布图
（5）错误连接的检测和断开。每一次迭代，都需要去评估是否有片段的错误连接。如Figure5所示，利用Chicago的 reads-pair关系可以检测到组装是否有错误连接。当有错误连接时，该处就很少有reads-pair去支持，并且有较低的LLR值。

Figure 5 原始组装中的错误连接
三、Chicago技术可以用来检测SV
Chicago文库方案，除了可以辅助scaffold的构建之外，还可以用来检测结构变异（SV）。
比如Figure 6，这是一处纯合的inversion结构变异时，Chicago reads-pair的位置分布模型。正常的序列时，产生的模式应该接近Figure 4。图中蓝色散点代表了一条reads比对到正常的结构区，另一条reads比对到inversion区，导致的预期坐标错位。在大尺度下，两条reads的坐标点应该在对角线附近浮动。

Figure 6 纯合的inversion 结构变异时，Chicago reads pair分布模式
Figure 7则展示了一处杂合的deletion结构变异时，Chicago reads-pair的位置分布模型。正常的序列时，产生的模式应该接近Figure 4。杂合的deletion意味着一条染色体上是正常的结构，于是出现了图中的橘色散点（正常分布）；另一条染色体上的区域是deleted的，这个时候，reads-pair就会出现蓝色所示的偏差，即x坐标同，但是y坐标不同（上蓝下橘色散点）；或者x坐标不同，y坐标同（左蓝右橘色散点）的情形。
当然，对于杂合的inversion和纯合的deletion也会有特殊的reads-pair分布模式，但不如上述两者来得明显。

Figure 7 杂合的deletion结构变异时，Chicago readspair 分布模式
Chicago文库构建+HiRise流程组装，有如下的优势：
（1） Chicago文库构建不需要活体组织，需要的DNA量在500ng到5μg。并且适用于动物、植物和微生物，目前已经成功构建了几个植物、原核生物和动物的Chicago文库。对于没有染色质的细菌来说，也可以在体外构建出人工的染色质作分析。这些都得益于组蛋白的高度保守性和非组织特异性，才能实现人的组蛋白跨物种实现染色质装配。
（2）相对于普通Hi-C的体内构建染色质交联，Chicago采用体外染色质构建、交联，背景噪音比较低。如Figure8所示，A是用体内Hi-C方法建库测序，B是用Chicago方法建库测序。相比而言，Hi-C的背景噪音较高。（Chicago在交联实验部分，尽可能的避免人工染色质之间的交联，降低后续组装的错误）。

Figure 8 Hi-C和Chicago reads-pair分布比较
（3）相比体内的Hi-C方法，Chicago最大间距的reads-pair仅受限于DNA分子量大小。这样以来，仅用Illumina的短reads测序加上Chicago文库，就能获得较好的组装连续性。
（4） HiRise流程在组装精确度和连续性上都得到了较大的提高。如Table1所示，HiRise较其他两款主流组装软件（ALLPATHS和Meraculous）有更低的组装错误率、更好的组装连续性及更高的组装完整性。

Table 1 HiRise 和其他组装软件的性能比较
四、成功案例
虽然Chicago技术问世不久，但是已经在很多案例上取得了成功。并且组装效果提高得越来越明显，详见Table2. 这些项目大多是开展中，值得一提的是，Alligator基因组文章已经在Biorxiv上预发布了，题为“Improved genome assembly of American alligatorgenome reveals conserved architecture of estrogen signaling”.

举报/Report

我的更多文章

下载客户端阅读体验更佳

APP专享

新浪博客

[转载]Chicago：一种高效的体外Hi-C技术

分享

我的更多文章

下载客户端阅读体验更佳

疯狂捕鱼