天天看点

Nat Methods丨scNanoSeq-CUT&Tag技术:可精准检测单细胞基因组复杂区域的染色质修饰

Nat Methods丨scNanoSeq-CUT&Tag技术:可精准检测单细胞基因组复杂区域的染色质修饰

引言

蛋白质是生命活动的核心分子,能够精确调控细胞内复杂的生命过程。很多重要的蛋白质(例如:共价修饰后的组蛋白和转录因子等)通过与基因组DNA相互作用,调控了细胞的表观遗传状态,进而影响基因的转录活性和表达模式。大量研究表明,表观遗传修饰状态的变化与胚胎发育、癌症以及其他多种疾病的发生密切相关。因此,精准解析蛋白质-DNA的相互作用对于深入理解表观遗传修饰对于发育、癌症以及其他疾病的基因转录调控机制至关重要。

近年来随着测序技术的发展,染色质免疫共沉淀测序技术(ChIP-seq)已经成为研究蛋白质-DNA相互作用的“金标准”。然而,传统的ChIP-seq技术具有很多局限性,包括需要大量的起始细胞、重复性较差、信噪比低、成本高等问题。2015年,首个单细胞ChIP-seq技术scDrop-ChIP问世,但scDrop-ChIP在单个细胞中捕获的组蛋白修饰信号非常稀疏,限制了其应用潜力。随后,基于Tn5转座酶的一系列单细胞测序技术被开发出来,包括CoBATCH、CUT&Tag、Paired-Tag、scCUT&Tag等。

尽管这些技术在单细胞分辨率下探索染色质修饰方面的性能表现出色,但它们都是基于二代测序(Next-generation sequencing, NGS)平台。由于二代测序的读段较短(通常为单端150bp, 双端300bp),对于检测基因组复杂区域的染色质修饰等表观基因组信息存在明显的局限性,尤其是基因组中的重复序列区域(在人类基因组中占52%,约1.56 Gb;在小鼠基因组中占45%,约1.2Gb)、“黑名单”区域(在人类基因组中占 3.0%,约91 Mb(不包括着丝粒区域和 rDNA 区域);在小鼠基因组中占 7.0%,约191 Mb)以及基因组结构变异区域(如长片段插入或缺失、串联重复、染色体易位和倒位事件发生的区域等)。这些基因组复杂区域的可比对性(Mappability,即测序数据与参考基因组比对的准确性和唯一性)非常低,导致短读段测序数据难以准确定位到参考基因组中。目前,在基于二代测序平台的数据分析中,通常只能将重复序列的亚家族作为一个整体进行分析,常常无法对基因组中特定的单个拷贝的重复序列进行精准分析。此外,对于基因组“黑名单”区域,由于这些区域在基于二代短读段测序平台的表观遗传修饰测序数据中通常显示出异常高的信号,并且与实验样本类型和处理条件等无关,因此在数据分析时,研究人员通常直接将其排除以减少引入的显著噪音。这导致这些区域的表观遗传修饰状态目前依然是未知的。因此,基于二代测序平台来解析基因组复杂区域的染色质修饰状态仍然是一项重大挑战。

基于二代测序平台检测方法的另一个主要局限在于无法在单细胞水平上直接检测同一条DNA分子上相邻调控元件(例如相邻的启动子和增强子)是否存在相同组蛋白修饰或相同转录因子的共占位事件。此外,短读段也限制了其对染色质修饰进行单倍型分析的能力,而单倍型分析对于探究二倍体细胞中等位基因上调控元件间的相互作用及深入理解等位基因异质性至关重要。近年来,几种基于长读段的表观基因组测序技术被开发出来,包括Nanopore-DamID和DiMelo-seq,它们有助于解析基因组复杂区域的蛋白质-DNA相互作用。然而,这些技术无法实现单细胞分辨率,仍然局限于大量起始细胞的样本,难以应用于研究细胞群体内部的异质性。

2024年10月7日,北京大学生物医学前沿创新中心、北大-清华生命科学联合中心汤富酬课题组在Nature Methods上发表了题为scNanoSeq-CUT&Tag: a single-cell long-read CUT&Tag sequencing method for efficient chromatin modification profiling within individual cells的研究文章。该研究在国际上率先开发了一种基于单分子长读段测序平台(a single-molecule sequencing platform,SMS)、在单细胞分辨率研究蛋白质-DNA相互作用的新方法,称为scNanoSeq-CUT&Tag。使用scNanoSeq-CUT&Tag技术,该研究对体外培养的六种有代表性的人类细胞系和小鼠体内的外周血单核细胞以及睾丸组织进行了系统分析,结果证明该方法可以精准解析单个细胞内染色质修饰等表观遗传信息,包括组蛋白共价修饰以及转录因子在基因组中的结合分布模式。尤为重要的是,该方法在解析基因组中每个拷贝的重复序列以及“黑名单”区域的染色质修饰方面,展现出卓越的性能,填补了二代测序数据在基因组复杂区域研究中的空白。

Nat Methods丨scNanoSeq-CUT&Tag技术:可精准检测单细胞基因组复杂区域的染色质修饰
Nat Methods丨scNanoSeq-CUT&Tag技术:可精准检测单细胞基因组复杂区域的染色质修饰

该设计图的灵感源自中国古典名著《西游记》中的孙悟空,他拥有神通广大的力量和超凡的智慧。他的两大法宝—火眼金睛与如意金箍棒,使他能够洞察万物的真相,破解隐藏在黑暗中的重重难题。设计图清晰展示了长读长测序与短读长测序在比对能力上的差异,突显了长读长测序通过识别重复元件两侧的特异性序列,能够在单拷贝分辨率下精准区分序列高度相似甚至完全相同的重复元件的强大优势(Credit: Nature Methods)

该研究深入分析了五种组蛋白共价修饰(H3K4me3、H3K27ac、H3K36me3、H3K27me3、H3K9me3)以及两种染色质结合蛋白(CTCF 和 RAD21)的基因组分布模式。这七种染色质标记代表了基因组中不同的表观遗传修饰信号,分别反映了染色质的特定状态和功能,在基因表达调控、染色质结构维护以及细胞功能调节等方面发挥至关重要的作用。H3K4me3主要标记活跃转录基因的启动子区域,标志着基因的激活状态;H3K27ac主要富集在活跃的增强子和启动子区域,与基因的活跃转录相关;H3K36me3主要分布在基因体区域,与基因的转录延伸过程相关,有助于维持基因表达的稳定性;H3K27me3和H3K9me3是抑制性染色质标记,其中H3K27me3主要富集在基因的启动子区域,参与基因沉默的调控,而H3K9me3则主要参与异染色质的形成和维持,抑制重复序列的转录活性,维持基因组的稳定性。CTCF和RAD21, 是调控染色质结构的关键因子。CTCF是一种广谱转录因子,作为染色质绝缘子结合蛋白,帮助划分基因表达区域,参与调控基因转录激活和抑制、基因印记、X染色体失活等过程;而RAD21是黏连蛋白复合体(Cohesin complex)的主要亚基之一,与CTCF协同介导染色质环(Chromatin loop)的形成,通过调节染色质的三维结构来调控基因的时空表达。对于这些组蛋白共价修饰以及染色质结合蛋白分布模式的综合分析,为我们深入理解基因组的表观遗传调控提供了全面视角。

在实验方法设计上,scNanoSeq-CUT&Tag技术将CUT&Tag技术与单分子测序技术有机结合,实现了在单细胞水平对染色质修饰的精准检测。与传统的二代测序方法依赖具有两个不同接头序列的Tn5转座酶进行文库构建的方式不同,该研究采用了双端具有相同接头的Tn5转座酶。这一改进使得scNanoSeq-CUT&Tag方法不仅可以减少对DNA短片段的扩增,而且理论上可以通过PCR扩增获得基因组中所有长片段DNA。相比之下,二代测序方法只能获得基因组中所有DNA片段中的50%左右。此外,在PCR扩增步骤中,该研究设计了96种内侧细胞条形码和96种外侧细胞条形码。通过这种组合条形码策略, scNanoSeq-CUT&Tag技术可以灵活地控制每次上机的测序通量,在单次实验中可以灵活地对几个单细胞到上万个(96 x 96 = 9,216)单细胞进行测序,可以显著降低每个细胞的测序成本。与现有方法相比,scNanoSeq-CUT&Tag具有更大的适用范围。由于scNanoSeq-CUT&Tag基于96孔板操作,无需依赖如10 x Genomics或CELL8系统等复杂的微流控系统进行单细胞分离和条形码标记,因此scNanoSeq-CUT&Tag技术可以在大多数分子生物学实验室中使用。

在基于二代短读段测序平台的CUT&Tag相关技术研究中,Tn5转座酶需要分别在具有染色质修饰(组蛋白修饰或转录因子结合)的基因组DNA的两侧进行转座,从而在短DNA片段(通常为200bp-500bp)的两端连接上测序接头,且只有双端带有不同测序接头的短DNA片段才能通过PCR扩增得到富集,进而构建测序文库。这意味着,捕获单个染色质修饰位点需要在较短的基因组区域内完成至少两次Tn5转座事件。对于常染色质相关的修饰,由于染色质结构松散且可及性高,Tn5转座酶能够在染色质修饰区域两侧高效切割DNA,确保测序接头的有效连接。然而,异染色质相关的修饰通常位于染色质高度浓缩的区域,这些浓缩的染色质结构限制了Tn5转座酶与DNA的接触,降低了Tn5转座酶的切割效率,导致异染色质区域短DNA片段的富集度较低,影响了异染色质相关的组蛋白修饰信号的捕获。

相比之下,基于单分子长读段测序平台的scNanoSeq-CUT&Tag技术表现出显著优势。该技术仅需Tn5转座酶在具有染色质修饰的基因组位点的任何一侧完成一次转座事件,并在距离该修饰位点另外一侧的1 kb - 10 kb范围内的任何两个相邻核小体之间再发生一次转座事件,即可将测序接头分别连接到DNA长片段的两端,从而通过PCR扩增将该位点的染色质修饰信号富集出来。这种特性显著提高了scNanoSeq-CUT&Tag技术对染色质修饰的捕获效率,特别是对于异染色质区域富集的修饰信号表现出更优越的检测能力(图1)。

Nat Methods丨scNanoSeq-CUT&Tag技术:可精准检测单细胞基因组复杂区域的染色质修饰

图1:二代短读段CUT&Tag技术和单分子长读段scNanoSeq-CUT&Tag技术中Tn5切割和染色质修饰标记捕获示意图(Credit: Nature Methods)

该研究从六个方面对scNanoSeq-CUT&Tag技术的性能和应用进行了探索:

1.scNanoSeq-CUT&Tag能够在单细胞水平上精准捕获染色质修饰特征并鉴定不同细胞类型。为了评估scNanoSeq-CUT&Tag技术的可靠性,该研究首先使用该技术深入分析了六种有代表性的人类细胞系(K562、293T、GM12878、HG002、H9、HFF1)的七种染色质修饰状态,包括五种组蛋白共价修饰(H3K4me3、H3K27ac、H3K36me3、H3K27me3、H3K9me3)和两种染色质结合蛋白(CTCF 和 RAD21)的分布模式。经过严格的质量控制,该研究共获得17,211个高质量的单细胞数据集,累计产生了3.5 Tb的高质量测序数据。对于每种染色质标记,读段中位数长度在3.4 kb至4.4 kb之间。

scNanoSeq-CUT&Tag技术能够在每个单细胞中捕获多达13,373个独特读段,显著优于同类型二代测序方法。此外,检测到的落在峰中的读段比例(FRiP)与基于二代测序平台的scCUT&Tag技术相当。更重要的是,只用146个单细胞的scNanoSeq-CUT&Tag测序数据合并得到的基因组轨迹,与使用数百万细胞的ChIP-seq“金标准”数据高度一致。这表明scNanoSeq-CUT&Tag技术在捕获细胞类型特异性染色质修饰方面具有显著优势。

通过对scNanoSeq-CUT&Tag的数据进行无监督聚类分析,该研究进一步证明,针对七种染色质修饰(H3K4me3, H3K27ac, H3K36me3, H3K27me3, H3K9me3, CTCF和RAD21),六种人类细胞系的单细胞样本均被清晰准确地区分开来。此外,在小鼠外周血单核细胞(Peripheral blood mononuclear cell,PBMC)的 H3K4me3 数据中,scNanoSeq-CUT&Tag技术不仅成功鉴定出B 细胞、T 细胞、NK 细胞和单核细胞,而且能够精准区分T 细胞的不同亚型(CD4+ T 细胞和CD8+ T 细胞)以及单核细胞的不同亚型(经典单核细胞和非经典单核细胞)。这些结果表明,scNanoSeq-CUT&Tag不仅可以有效地捕获不同细胞类型的染色质修饰特征,而且对体外培养的细胞系以及体内的复杂组织样品都能精准区分不同的细胞类型。

2. scNanoSeq-CUT&Tag能够精准鉴定等位基因特异性染色质修饰特征。scNanoSeq-CUT&Tag技术结合单细胞水平的染色质修饰检测和长读段测序的优势,显著提高了等位基因特异性染色质修饰峰(Allele-specific peak,ASP)的检测效率。在区分等位基因特异性染色质修饰峰时,相比于传统的ChIP-seq技术依赖峰内含有杂合SNP位点(染色质修饰峰通常只有100-300bp宽),scNanoSeq-CUT&Tag技术只需峰两侧各4,000 bp(读段长度)范围内存在杂合SNP或杂合结构变异即可。scNanoSeq-CUT&Tag技术将含有杂合SNP的峰检测效率提高了三倍以上,并且能够准确地进行基因型分型。此外,这种准确的基因型分型能力通过介导X染色体失活的关键调控因子XIST和印记基因的等位基因特异性染色质修饰分析得到了验证,进一步证实了scNanoSeq-CUT&Tag技术在鉴定等位基因特异性染色质修饰峰方面的准确性和可靠性。

3. scNanoSeq-CUT&Tag能够精准检测染色质修饰共占位事件。在哺乳动物基因组中,有三类关键的调控元件:启动子(Promoter)、增强子(Enhancer)和绝缘子(Insulator)。这些元件之间通过相互作用,如增强子-增强子相互作用、增强子-启动子相互作用来调控基因表达。已往对基因组不同功能元件之间相互作用的研究都是基于二代短读段测序推断的,常常没有直接证据支持而且假阳性率较高。单分子长读段测序的出现使得分析同一条DNA分子上相邻区域含有的同种染色质修饰共占位事件成为可能,为基因组功能元件之间的相互作用提供了更直接的证据。

Tn5对基因组进行切割时,如果两个邻近区域存在同种染色质修饰共占位,那么这两个区域在特定细胞类型中会被scNanoSeq-CUT&Tag长读段多次连接,连接两个染色质共占位区域的读段长度分布会发生改变,其长度分布的密度会显著高于背景随机读段。基于这一假设,该研究开发出一种针对长读段数据检测染色质修饰共占位事件的算法。在六种人类细胞系的七种不同染色质修饰数据中分别鉴定出100-10,000个邻近区域染色质修饰共占位事件(主要发生在10 kb的邻近基因组区域内)。其中,该研究在GM12878细胞系中发现编码RNA甲基转移酶的METTL8基因内含子区域存在多个增强子元件之间的H3K4me3修饰共占位事件。据之前的研究报道,METTL8在GM12878细胞中特异的高表达,这暗示METTL8基因上的多个增强子之间的直接互作共同调控了METTL8在GM12878细胞中的转录活性。

和基于二代测序平台的方法scCUT&Tag类似, scNanoSeq-CUT&Tag测序技术也能分析特定细胞类型中基因组上两个相距较远区域(>10 kb)的峰对(Peak pair)信号的相关性,进而间接推断远程基因组区域染色质修饰共占位(Long-range-region co-occupancy)事件。值得注意的是,scNanoSeq-CUT&Tag技术利用长读段测序,在杂合SNP检测和单倍型相位分析方面展现出显著优势。与基于二代测序的ChIP-seq数据相比,scNanoSeq-CUT&Tag能够通过筛选出亲本等位基因特异性染色质修饰不一致的峰对,尤其是父本特异性和母本特异性峰“错位”组成的峰对,进一步优化基因组染色质修饰远程共占位事件的推断,显著降低假阳性率。

4. scNanoSeq-CUT&Tag能够精准检测人类基因组中每个拷贝的重复序列和基因组复杂区域的染色质修饰特征。人类基因组中52%的区域由重复序列构成,短读段测序数据对这些重复序列区域常常难以特异性比对,检测效果不佳。既往对于重复序列的表观遗传调控研究通常是将同一个重复元件亚家族中多个拷贝(几十个至几千个拷贝)合并作为一个整体分析,无法明确基因组中某种重复元件的每个拷贝的表观遗传状态。单分子测序技术通过长读段数据能够识别重复元件两侧的特异性序列,从而将来自重复元件的读段精准比对到基因组中的唯一区域,从根本上克服了这一难题。

LINE-1(L1)是最活跃的自主性逆转录转座子家族,在人类基因组中约有一百万个拷贝,占人类基因组的 17%(在小鼠基因组中,L1占19%),在发育和多种疾病中发挥着重要作用。L1Hs 是人类基因组中进化上最年轻且仍然具有转座活性的 L1,全长约为6 kb,在人类基因组中存在 320 个拷贝的全长 L1Hs。任意两个 L1Hs 拷贝的序列之间平均仅有~50 个碱基的差异,不同L1Hs拷贝间的序列相似性超过 99%。这种高度相似性使得二代短读段测序的特异性比对面临巨大挑战。然而,利用长读段的优势,scNanoSeq-CUT&Tag技术显著提高了对L1Hs的检测能力,实现了在单拷贝分辨率下对重复元件的染色质修饰进行精准分析。

在人类基因组中,约 3%的区域被标记为“黑名单”区域(共91 Mb, 不包括核糖体 DNA 、着丝粒和端粒)。这些区域在短读段测序数据中通常被屏蔽,以排除显著的背景噪音,因此其染色质修饰信息目前尚不明确。长读段测序技术通过提供更长的读段,能够跨越传统的短读段技术难以解决的重复序列和基因组复杂区域的问题,提高了读段与参考基因组之间匹配的唯一性和准确性,从而增强了基因组的可比对性(Mappability)。利用scNanoSeq-CUT&Tag技术,该研究发现在基因组“黑名单”区域存在清晰的H3K27ac 修饰峰,并且这一修饰在六种细胞系中均可被检测到。更重要的是,这些基因组“黑名单”区域富含 ENCODE 注释的 cCRE 调控元件,表明这些区域可能具有潜在的基因表达调控作用。

5. scNanoSeq-CUT&Tag能够精准解析小鼠精子发生过程中的 H3K4me3 修饰的动态变化精子发生是一个高度有序且受到严密调控的多阶段发育过程,伴随着多种表观遗传修饰的重编程。作为雄性哺乳动物的生殖细胞,精子负责将遗传物质传递给子代。然而,受限于生精细胞类型的多样性以及精子发生过程的连续性和异步性,全面解析精子发生过程中的表观遗传修饰变化面临极大的挑战。

该研究探索了小鼠精子发生过程中H3K4me3修饰的特征。利用scNanoSeq-CUT&Tag技术获得的 H3K4me3数据可以精准区分小鼠体内各种生精细胞类型(包括精原细胞(SPG)、细线期/偶线期精母细胞(L/Z)、粗线期/双线期精母细胞(P/D)、分裂期初级精母细胞与次级精母细胞的混合物(SPC)、三种不同成熟阶段的精子细胞(Sperml、Sperm2、Sperm3)和睾丸支持细胞(Sertoli))。通过进一步鉴定小鼠全长LINE1重复元件 L1Md和基因组“黑名单”区域的H3K4me3修饰,揭示了小鼠精子发生过程中这些复杂基因组区域中 H3K4me3 修饰信号的动态变化,这一发现有力地表明,既往二代短读段测序技术无法捕获的基因组“黑名单”区域可能在小鼠精子发生过程中发挥重要的调控作用。这一发现为深入理解精子发生过程中的基因表达调控机制提供了重要的线索。

6. scNanoSeq-CUT&Tag能够精准捕获DNA去甲基化后基因组重复元件上H3K27ac修饰的变化5-氮杂胞嘧啶 (5-AZA) 是一种常见的DNA去甲基化药物。该研究以5-AZA处理的K562细胞为模型研究DNA去甲基化后基因组重复元件上H3K27ac修饰的变化。scNanoSeq-CUT&Tag鉴定出201个在DNA去甲基化处理后获得H3K27ac峰的重复元件。而且与对照组细胞相比,这些重复元件均失去了DNA甲基化。值得注意的是,这些在5-AZA处理后获得H3K27ac峰的重复元件更容易被转录。此外,该研究发现L1Hs的一个特定拷贝在去除DNA甲基化后获得了H3K27ac峰,并且发生了转录,这表明DNA甲基化对于K562细胞中LIHs的这一特定拷贝的沉默至关重要。

综上所述,该研究开发了一种基于单分子测序平台的 scNanoSeq-CUT&Tag 新方法,可以精准检测单个细胞内染色质修饰特征,包括组蛋白修饰和转录因子的结合分布模式。该方法实验流程相对简单、易于操作,不需要特殊的设备,适合各种分子生物学实验室使用。最重要的是,该方法在单个拷贝分辨率检测重复元件和基因组“黑名单”区域的染色质修饰方面表现卓越。该研究为理解表观遗传异质性、解析基因组复杂区域的表观遗传修饰特征、探索复杂发育过程中的基因表达调控机制提供了一种强有力的工具和方法。

参考文献

https://www.nature.com/articles/s41592-024-02453-w

责编|探索君

排版|探索君

文章来源|“BioArt”

End

继续阅读