增强子与启动子是高等动物尤其是人类中最重要的两类基因表达调控元件。它们之间的有效互作可保证基因的准确转录,从而保证细胞状态和正常发育。它们之间的错误联系也同样可以导致疾病相关的基因表达异常。因此,了解增强子选择启动子的机制可帮助更好地认识健康与疾病。2021年7月,美国德克萨斯大学休斯敦健康app中心麦戈文明升手机版院的李文博研究组和加州大学圣地亚哥分校Michael Rosenfeld研究组合作,在Nature杂志上发表了一篇题为“Enhancer release and retargeting activates disease-susceptibility genes”的文章。
这项研究提出了一个被称为enhancer release and retargeting(ERR)的增强子选择启动子的模型。在这个过程中,被优先选择的启动子因为功能丢失(DNA片段切除,单核苷酸突变或者表观遗传导致的沉默)而失去了与增强子互作,但这个被释放的增强子并不会因此不发挥作用,而是在同一个染色体结构互作域(contact domain)中重新选择其他启动子,从而导致相邻基因表达上升。ERR模型为启动子区域及其附近的遗传突变的致病机制提供了新的解释。
高分辨率的染色质结构数据表明,增强子与启动子往往形成很小尺度的环,一般距离10-50Kb [1, 2]。大多数增强子只调控短距离范围内的一个靶基因[3]。每一个细胞类型内都有上千至上万个增强子和启动子,但增强子如何选择配对的启动子并启动基因转录这一过程仍不清楚 [4]。增强子可以转录生成增强子RNA(enhancer RNA)或eRNA,可用来表征增强子的活性 [5]。
为了了解增强子-启动子配对选择机制,基于染色体构象捕获技术4C-seq和ChIA-PET数据,作者们选择了4对增强子-启动子来研究他们之间的关系。CRISPR/Cas9敲除这些启动子后,对应的基因表达下降,然而让作者感到有趣的是,与其互作的增强子RNA则上升,表示增强子的活性反而因为丢失他们的启动子反而更加活跃了。同时,作为对照,位于其他染色体的基因的表达没有变化(图1)。另外一方面,敲低cohesin复合物RAD21亚基后,增强子-启动子互作会被破坏,同样导致eRNA上升基因表达下降,而H3K4me3和H3K4me1都没有变化。这些结果都提示增强子在丧失其启动子配对以后反而会变得更活跃。
图1. 敲除TFF1启动子后,TFF1基因表达下降,增强子eRNA变强,而另一条染色体的对照基因的表达水平不明显变化
有趣的是,当作者们把目光扩大到被敲除的启动子周围整个染色体互作域的时候,他们发现这个格外活跃的增强子可能导致了整个互作域内的许多基因表达的上调。比如在其中一对的一个已知的增强子-启动子组合。在这个locus,TFF1基因与另外4个基因位于同一个150Kb长的互作域。敲除TFF1启动子后,除了TFF1基因自身的表达下降和对应eRNA上升外,同时伴随的还有其相邻的TFF3基因非常高的上调表达(18倍),另外3个基因表达也显著上升但幅度略低(图2)。这说明一个可能性,TFF1启动子的丧失导致了他原本配对的增强子选择了其他的互作域内基因作为目标来影响基因表达。
图2. TFF1相邻基因的位置及基因表达水平变化。
为了搞清楚这其中的分子机制,作者们在上述敲除的4个启动子中找寻某些共同点,他们发现一个这些启动子都有CTCF结合位点。同样的,在RAD21敲低实验中表达下降的启动子区,CTCF结合也比随机选择的启动子要高。因此,作者们提出了CTCF在启动子上帮助决定增强子-启动子配对选择的假设。事实上,启动子的CTCF结合比增强子更强,但比TAD边界弱。仅敲除启动子区的CTCF结合位点或仅突变CTCF结合的很小片段的motif,产生的效果与敲除启动子所造成的效果非常相似,这些实验初步支持作者们关于CTCF帮助选择增强子-启动子的假设。
更进一步,作者们发现,在TFF1相邻的其他基因中,TFF3启动子也有一个CTCF位点,但其结合比TFF1启动子的CTCF弱,但比另外两个基因强。TFF1和TFF3两个基因的启动子双敲除后,另外两个相邻的基因TFF2和UBASH3A显示了更进一步的表达上升。其幅度比TFF1启动子单敲除更高。对应的,如果用dCas9系统把CTCF蛋白强制“托运”到TFF3启动子后,TFF3表达上升而TFF1表达则下降,但如果“托运“的是Y226A/F228A突变的CTCF蛋白(失去cohesin互作),则没有显著变化。这些实验进一步说明在增强子选择其启动子目标时候,她会有机会扫描整个互作域,优先选择有CTCF结合的启动子,如果CTCF结合强的优先启动子被破坏,则增强子会选择CTCF结合较弱的启动子(图3)。
图3. 思考增强子选择启动子过程的工作模型以及在疾病中的可能作用。图中,蓝色P1,P2,P3,P4示意四个不同启动子。左侧示意正常工作状态下增强子优先选择P1,因为较强的CTCF结合。右侧示意当疾病状态改变了P1的功能以及CTCF结合,那么增强子将改变选择,ERR发生。
作者们把上述的,启动子功能丧失时候增强子在相同互作域重新选择启动子的过程称为enhancer release and retargeting(ERR)。在这些实验的基础上,基于ERR模型,作者们认为癌基因(oncogene)相邻的其他基因启动子的突变可能造成癌基因表达的变化(图3,右侧)。利用ICGC基因组数据,检查已知的315个癌基因启动子(oncogene promoter, OP)及其200Kb范围之内的1,693个相邻其他基因启动子(oncogene-neighboring promoter, ONP),发现OP和ONP的突变略高于背景。用CRISPRi技术成功抑制25个携带有癌症突变或缺失的ONP后,发现其中8个相邻的癌基因的表达可显著上升,而其中1个则显著下降(图4)。这说明ERR比较普遍的存在,但并非在任何一个基因上都存在。进一步敲除三对(PVT1-MYC、ZCCHC7-PAX5、CLPTM1L-TERT)癌基因附近的ONP,发现对应的重要癌基因(比如MYC,TERT)的表达升高了2-5倍,同时癌基因与附近增强子的互作增强了。在CLPTM1L启动子中,作者们利用CRISPR/Cas9敲入了可导致CTCF motif丢失的癌症突变后,CLPTM1L表达下降,TERT却上升。这些数据充分论证了相邻基因启动子上的CTCF motif上的突变,可以在其他条件不变的情况下,导致癌基因的表达上升,为非编码区突变的致癌机制提供了新的论据。
图4. 使用CRISPRi技术对25例ONP抑制后发现ERR比较普遍的能解释癌基因及其临近基因的表达变化。蓝色示意癌基因附近基因ONP表达下降,红色示意癌症基因OP表达上升。
除了癌症之外,作者们还检索GTEx数据,利用生物信息的方法发现至少有19,000对基因的表达都与同一个SNP显著相关,且趋势相反。联合增强子注释以及限定SNP-基因距离不超过200Kb,其中872对基因可能存在ERR现象。进一步整合人类遗传疾病GWAS数据,发现其中85个单核苷酸多态位点(SNP)是和人类遗传疾病相关的。为了找寻一些ERR相关例子做进一步实验论证,作者们聚焦在3个帕金森病相关的SNP位于NUCKS1基因的启动子,其相邻基因RAB7L1已被发现在帕金森疾病中发挥关键的作用。作者们和加州大学圣地亚哥Kelly Frazer组合作,鉴别了两株人来源的iPSC细胞系,携带杂合基因组,暨两条等位基因具有不同序列且其中一条包含上述SNP。这样的细胞系因为具有几乎完全一样的细胞内环境,可以用来精确的比较SNP序列导致的表观遗传和基因表达变化。作者们设计了可以分辨等位基因的环状染色体构象捕获技术4C-seq和单核苷酸敏感的定量PCR,实验结果发现携带SNP突变的等位基因上,NUCKS1与下游的一个增强子的互作丢失,表达下降,而同时,隔壁的疾病相关基因RAB7L1与同一个增强子的互作却显著增强,同时表达上升。此外,使用CTCF 免疫共沉淀,作者发现在携带SNP突变的等位基因上,NUCKS1启动子的CTCF结合也变弱(图5)。这些数据都表明,启动子功能改变,包括但不限制于CTCF位点的突变,可显著影响增强子对启动子的选择,并且改变重要疾病基因的表达。
图5. 非疾病相关基因的NUCKS1启动子SNP可通过ERR机制造成增强子选择其他启动子目标,从而导致帕金森相关基因RAB7L1表达上升。Ref:其中一条等位基因;Alt:包含SNP的等位基因。图中靠上位置的红蓝信号来自等位基因差异表达信号。下图作者们利用可分辨等位基因的环状染色体构象捕获技术4C-seq来发现同一个细胞中两个等位基因不同的染色体构象。
该研究发现启动子自身的特征是增强子扫描染色体附近区域产生功能性增强子-启动子配对的基础。这项研究的结果是和最近领域内的cohesin extrusion假设一致的,暨在工作中的cohesin通过extrusion的过程扫描增强子附近的互作域,而启动子区的较强CTCF可与增强子上的cohesin互作以建立比较稳定的增强子-启动子环,从而激活转录事件。不过,值得注意的是虽然CTCF在多个基因区出现并决定启动子和增强子的选择过程,但并非所有启动子都有CTCF结合,因此,本研究提出的模型仅适用于部分启动子的选择场景。在癌症和其他复杂疾病中,都存在大量可能导致ERR事件发生的突变位点,因此未来的工作有必要对启动子附近突变进行大规模筛选,以发现可导致ERR以及促进疾病发生的更多功能突变。
此工作的意义有两方面。第一,作者们提供了新的机制证据来理解和描述增强子-启动子互作的过程。这些机制揭示了增强子-启动子选择特异性或可变形的来源,提供了新的思路进一步研究这个重要过程在正常发育和基因表达调控中的作用。第二,这个工作说明很多在染色体互作域或者拓扑结构域(TAD)内部的DNA序列,而非在结构域边缘,是对增强子-启动子配对有重要决定作用的。这些发现揭示很多和疾病相关的(比如癌症和帕金森病)单核苷酸变异或小序列缺失很可能通过ERR的机制来影响疾病相关基因表达。
博士后吴秀焕(韩国籍),邵娇芳博士(目前回到南京医科大学任职),雄峰博士等是主要作者。纽约阿尔伯特爱因斯坦明升手机版院Zhang Zhengdong组和博后Joydeep Mitra在此工作中做了重要贡献。(来源:明升手机版(明升中国))
李文博老师组目前有两个博后职位空缺,欢迎有志于表观遗传调控(尤其是增强子,三维基因组和非编码RNA)的同学加盟。请直接联系李老师 wenbo.li@uth.tmc.edu。
相关论文信息:
参考文献:
1. Hsieh TS, Cattoglio C, Slobodyanyuk E, Hansen AS, Rando OJ, Tjian R, Darzacq X: Resolving the 3D Landscape of Transcription-Linked Mammalian Chromatin Folding. Mol Cell 2020, 78(3):539-553 e538.
2. Schoenfelder S, Fraser P: Long-range enhancer-promoter contacts in gene expression control. Nat Rev Genet 2019, 20(8):437-455.
3. Gasperini M, Hill AJ, McFaline-Figueroa JL, Martin B, Kim S, Zhang MD, Jackson D, Leith A, Schreiber J, Noble WS et al: A Genome-wide Framework for Mapping Gene Regulation via Cellular Genetic Screens. Cell 2019, 176(6):1516.
4. van Arensbergen J, van Steensel B, Bussemaker HJ: In search of the determinants of enhancer-promoter interaction specificity. Trends Cell Biol 2014, 24(11):695-702.
5. Li W, Notani D, Rosenfeld MG: Enhancers as non-coding RNA transcription units: recent insights and future perspectives. Nat Rev Genet 2016, 17(4):207-223.