一文读懂DNA甲基化及BS-seq
一、什么是DNA甲基化
DNA甲基化是一个生物过程,它会在在DNA分子中引入甲基化基团,但是甲基化并不会改变序列本身,而会改变DNA片段的活性。
在哺乳动物中,DNA甲基化对于正常发育必不可少,而且与很多生物学现象有密切联系,包括基因组印迹,X染色体失活,转座因子招募,衰老和致癌作用。
胞嘧啶甲基化是在真核生物和原核生物普遍存在的,而且甲基化的速率在物种之间有很大的差异。
最常见的是在胞嘧啶的5号碳位置,在酶和底物的作用下,引入一个甲基基团,变成了5甲基胞嘧啶(5mC),从而改变了它的活性。
腺嘌呤甲基化也在细菌,植物和哺乳动物DNA中均观察到了,但并不是研究热点。
下面,我们重点看胞嘧啶甲基化。
二、CpG islands
在植物和其他生物中,可以在三种不同的序列中发现DNA甲基化:
- CpG(CG)
- CHG
- CHH
其中H对应于A,T或C。
CpG是胞嘧啶(C,Cytosine),磷酸(p,phosphoric acid),鸟嘌呤(G,Guanine )的缩写,也可以去掉磷酸直接叫CG。在哺乳动物中,在基因组中富含GC和CpG的序列区段,叫CpG岛(CpG islands)。
1. CpG岛与转录
在人基因组中,90%以上的CpG位点是被甲基化的,但是CpG岛甲基化程度通常很低,这种情况下,不影响蛋白结合到DNA的启动子区域来启动转录,进而使基因表达。
但是,如果这个DNA的CpG岛被甲基化后,蛋白不能结合DNA,进而使转录沉默,基因不表达。
通常我们也会在文章中看到下面这种图,每个“棒棒糖”代表一个甲基化位点,位点集中的区域就可能是CpG岛,如果在转录因子结合的地方恰好被甲基化(黑色棒棒糖),那么这个基因就废了,不会继续表达了。
2. 如何定义CpG岛
通常定义为以下区域:
- 长度大于200bp
- G + C含量大于50%,
- 观察到的CpG与预期CpG的比率大于0.6,有时也使用其他定义。
3. CpG岛的分布
除重复序列外,人类基因组中约有25,000个CpG岛,其中75%的岛长小于850bp。
大约50%的CpG岛位于基因启动子区域,而另外25%的岛位于基因内,通常充当替代启动子。
在人中,大约60-70%的基因在其启动子区域中具有CpG岛。大多数CpG岛在结构上未甲基化,并富集一些染色质修饰,例如H3K4甲基化。在体细胞组织中,只有10%的CpG岛被甲基化,其中大部分位于基因间和基因内区域。
三、甲基化的功能
- 基因调控:启动子区域的甲基化会使基因表达沉默
- 发育调控:细胞分裂时可遗传,建立细胞与组织分化差异
- DNA复制起始及错误修正定位
- 改变DNA区域构象变化,影响了蛋白质与DNA的相互作用,抑制了转录因子与启动区DNA的结合效率
- 高度甲基化:
- X染色体失活:持续失活导致女性的一条 X 染色体,
- 染色体印迹:指基因表达活性只局限于来自双亲之一的基因版本
- 抑制转座子:在CpG密集区域,DNA甲基化是一种强力的转录阻遏物。尽管DNA甲基化不具有微调基因调控所需的灵活性,但其稳定性非常适合确保转座因子的永久沉默。 这种甲基化在几乎所有组织中都会使部分基因永久保持沉默。
- 甲基化可以被环境影响
四、启动子区甲基化与基因转录
在几乎所有被分析的生物中,启动子区域的甲基化与基因表达呈负相关。转录活性基因的CpG密集启动子从未被甲基化,但是,转录沉默基因并不一定带有甲基化的启动子。
在小鼠和人类中,大约60%至70%的基因在其启动子区域中都有一个CpG岛,并且在分化和未分化的细胞类型中,大多数这些CpG岛都保持未甲基化状态,而与基因的转录活性无关。
值得注意的是,尽管CpG岛的DNA甲基化与转录抑制作用明确相关,但对CG缺乏的启动子中DNA甲基化的功能仍不清楚。
DNA甲基化可能以两种方式影响基因的转录
首先,DNA本身的甲基化可能在物理上阻碍转录因子与基因的结合
第二,甲基化的DNA可能被称为甲基CpG结合域(methyl-CpG-binding domain,MBD)的蛋白结合。MBD蛋白将其他蛋白募集到位点,例如组蛋白脱乙酰基酶和其他可以修饰组蛋白的染色质重塑因子,从而形成致密的,无活性的异染色质。
五、基因内甲基化与基因转录
在几乎所有存在DNA甲基化的物种中,DNA甲基化在高度转录的基因内特别丰富,也就是说在基因内的DNA甲基化与基因表达正相关。
基因内甲基化的功能尚不清楚。大量证据表明:
- 它可以调节剪接并抑制基因内转录单位(密码子,启动子或转座因子)的活性。
- 基因内甲基化似乎与H3K36甲基化紧密相关。在酵母和哺乳动物中,H3K36甲基化在高度转录的基因体内高度富集。
- 在哺乳动物中,DNMT3a和DNMT3b PWWP结构域与H3K36me3结合,并且这两种酶被募集到活跃转录的基因体内。
六、在胚胎发育过程中的甲基化
在胚胎发育过程中,DNA甲基化先被大量擦除,然后在哺乳动物的各代之间重建。
- 在配子发生和早期胚胎发育过程中,几乎擦除了来自亲本的所有甲基化,每次都发生去甲基和再甲基化。
- 早期胚胎发育的去甲基化发生在植入前:最初在合子中,然后在桑椹胚和囊胚。
- 在胚胎植入阶段发生了甲基化波,保护了CpG岛免受甲基化。这导致整体抑制,并使管家基因在所有细胞中表达。
- 在植入后阶段,甲基化模式是特定于阶段和组织的,其变化将定义每种单独的细胞类型,可长期稳定持续。
尽管DNA甲基化本身对于转录沉默而言并不是必需的,但是,它代表了一种“锁定”状态,可以使转录失活。
尤其在基因组印迹和X染色体失活的情况下,DNA甲基化对于维持单等位基因沉默显得至关重要。在这些情况下,表达的等位基因和沉默的等位基因的甲基化状态不同,DNA甲基化的丧失导致Xist在体细胞中的印迹和再表达的丧失。
由于存在基因组印迹现象,因此母本和父本基因组具有差异性标记,并且每次通过生殖系时都必须正确地重新编程。因此,在配子发生过程中,原始生殖细胞必须根据传代母体的性别擦除并重新建立其原始的双亲DNA甲基化模式。受精后,将父本和母本基因组再次去甲基化并重新甲基化(与印迹基因相关的差异甲基化区域除外)。重编程可能是新形成胚胎的全能性和擦除获得的表观遗传变化所必需的。
七、检测DNA甲基化
亚硫酸氢盐测序(Bisulfite sequencing,BS-seq ,methseq),先使用亚硫酸氢盐处理DNA,然后上机测序来确定甲基化模式。 如果听到 WGBS(Whole-genome bisulfite sequencing) ,其实也是BS-seq。
1. 原理
用亚硫酸氢盐处理DNA可将胞嘧啶残基(C)转化为尿嘧啶(U),但5-甲基胞嘧啶残基(5mC)对其有抗性,并不会发生转变。
因此,用亚硫酸氢盐处理过的DNA仅保留甲基化的胞嘧啶。
上图中,
- 蓝色的核苷酸是被亚硫酸氢盐转化为尿嘧啶(U)的未甲基化的胞嘧啶(C)
- 红色的核苷酸是对转化具有抗性的5-甲基胞嘧啶(5mC)
总的来说,样本用 Bisulfite 处理,将基因组中未发生甲基化的 C 碱基转换成 U,进行PCR扩增后变成T,与原本具有甲基化修饰的 C 碱基区分开来,再结合高通量测序技术,与参考序列比对。
- 未甲基化的 C -> T
- 甲基化的 C -> C
2. 与常规转录组相比存在的问题:
- 未甲基化的 C 会转变为 T,这种转变会让基因组内的C少,ATG多,但是在生物中是不存在这种情况的
- 在比对时,还使用的是一般的参考基因组,所有这些转变的 reads 不能匹配到参考基因组相应的位点
- BS-seq 在 Bisulfite 处理和 PCR 后会产生四条不同的链,转录组是两条正负链
解决办法:
后续更新…