最近开展的大型基因组研究计划将有助于疾病的研究。
科学家们多年以来就意识到,基因组并不仅仅只是编码蛋白质的一系列遗传密码。它同时也是一块巨大的“开关板”,充满着可控制基因活性的DNA序列。基因组在调控方面的复杂性极大地阻碍了研究者们对疾病遗传学基础的探索,也阻碍了制药商们去寻找能够针对性地靶向于致病性DNA的药物。然而在过去的几个月里,一些大型的研究团队已经为基因组研究者们准备了一系列详细的指引,标出了成千上万个基因调控开关的位置、调控开关所控制的特定基因以及调控开关在体内激活或抑制基因活性的具体部位。
这些研究团队最近开展了一系列有史以来最引人注目的大型生物学研究,并且在本期期刊的第648页、第660页和第666页中分别报道了初步的研究成果。基因型-组织表达(Genotype-Tissue Expression, GTEx)项目从100多名去世仅数小时的死者体内获取遗传物质,通过详尽地分析这些遗传物质,GTEx项目获得了具体的基因调控情况,确定了当某基因附近200万个碱基范围内的DNA序列发生细微改变后,会开启或者关闭哪些基因的表达。此外,GTEx项目也从每位死者体内获取了多个组织的遗传物质,评价了这些遗传物质之间的差异,从而详细记录了基因调控序列在不同细胞类型中的影响范围——有的调控序列能够影响所有组织中某个基因的表达,而其他调控序列只会影响几种或一种组织内的基因表达情况。
此外,有三项较早的研究工作则采用其他的研究方法,在人类基因组上标出了众多基因活性调控开关。其中两项研究工作——BLUEPRINT项目和NIH资助的表观基因组学线路图计划(NIH Roadmap Epigenomics Project)——确定了被表观遗传学标志(epigenetic mark)修饰的DNA及其相关蛋白质的位置。这种名为表观遗传学标志的化学修饰能够决定是否激活某个基因的表达。
另一项研究工作是最新版本的哺乳动物基因组功能注释(Functional ANnoTation Of the Mammalian genome, FANTOM)项目,耗时整整20年。该项目提供了更为丰富的信息,包括基因的起始位置及其调控序列。斯坦福大学(Stanford University,位于加利福尼亚州帕罗阿尔托)的遗传学家Jonathan Pritchard指出,多亏了这四项研究工作,“我们目前正在热火朝天地深入了解基因组的功能。”
然而,并不是每一个人都相信:这些海量数据的收集工作能够为生物学家提供很多实际帮助。休斯顿大学(University of Houston,位于美国德克萨斯州)的进化遗传学家Dan Graur就并不是大科学的狂热者。马萨诸塞州坎布里奇市的计算生物学家Simon Xi目前在自己的药物研发工作中运用GTEx数据,他认为这些数据库是至关重要的,但是他也指出,这些数据库应当为用户提供更友好的界面:“我们面临着一个艰巨的挑战——该如何整合所有这些数据呢?”
研究者们开展了一项新的研究工作,试图解决那些使疾病研究人员不断受挫的问题。遗传学家们在十年前就开始将特定DNA序列与常见疾病的发生发展关联起来。在所谓的全基因组关联研究(genome-wide association study, GWAS)中,大型研究团队对成千上万名患者进行了研究,发现了成千上万个细微的遗传学改变;这些被称为单核苷酸多态性(single nucleotide polymorphism, SNP)的细微改变似乎能够增加炎症性肠病(inflammatory bowel disease)、精神分裂症(schizophrenia)、自闭症(autism)和其他多种常见疾病的发病风险。然而令人们感到疑惑的是,很多单核苷酸多态性都存在于基因之外的区域中(Science, 27 May 2011, p. 1031)。研究者们推测,基因突变可以影响基因的表达。但是这种影响又是如何产生的呢?范德堡大学(Vanderbilt University,位于纳什维尔市)的数量人类遗传学家Nancy Cox回忆道,当时的这一研究僵局“表明,我们需要全面了解调控序列的遗传变异。”
耗资一亿美元的FANTOM5研究项目在日本RIKEN研究院的领导之下,为这一问题提供了部分答案。该项目在基因组中标记出了两类调控序列:“启动子(promoter)”和“增强子(enhancer)”;启动子位于基因的起始端,能够帮助启动基因的转录,而增强子是一种能够远距离调控基因转录的DNA序列。FANTOM5项目研发出了一种捕获技术,当DNA开始转录合成RNA时,就能够立马捕获RNA,从而精确地定位启动子。这项技术也能够定位增强子,因为这些调控DNA也会被转录为RNA。在RIKEN研究院Yoshihide Hayashizaki的带领之下,FANTOM5项目对多种生物样本的RNA进行了研究,包括每个主要的人体器官、数以百计的肿瘤细胞系、200多种纯化的主要细胞类型以及处于各个分化阶段的细胞。
在今年早些时候,该研究团队详细描述了20.1万个人类启动子和6.5万个人类增强子,从而表明基因内通常都包含有多个启动子,不同的启动子会在不同的组织中被激活(Science, 27 February, p. 1010)。路德维格癌症研究所(Ludwig Institute for Cancer Research)圣地亚哥分院(位于加利福尼亚州)的分子遗传学家Bing Ren指出,这些研究工作“绝对是前所未有的”。“这真的是一个非常重要的资源。”
耗资3亿美元的NIH表观基因组学线路图计划则采用另一种不同的方法来确定基因的增强子。这种方法可以标记出与增强子有关的表观遗传学改变。研究者们在每种被研究的细胞类型中,详细分析了甲基化修饰情况,也分析了染色质(即DNA-蛋白质基质复合物)上的其他化学改变,从而精确地定位增强子。研究者们也能够根据增强子的序列,确定在增强子启动基因表达的过程中,有哪些蛋白质发挥了辅助的功能。《自然》(Nature)期刊于2月19日对这项研究进行了报道。该研究列入了127份参考表观基因组(reference epigenome,即基因组上所有的表观遗传学标记),分别来源于各种胚胎组织、成体组织以及各种细胞类型,其中包括免疫系统、脑、心脏、肌肉、内脏、脂肪和皮肤细胞。
在欧盟投入的3000万欧元的资助下,BLUEPRINT项目对白细胞和红细胞的表观基因组进行了更深入的研究。该项目检测了多种细胞的表观基因组,包括主要的造血干细胞及其在分化为成熟白细胞或红细胞的各个阶段的细胞。此外,BLUEPRINT项目还具有其他多个研究目的,其中一个目的是:在健康人和白血病患者(白血病患者的血细胞增殖失控)中寻找这些细胞的表观基因组差异。BLUEPRINT项目的参与者Willem Ouwehand是英国剑桥大学(University of Cambridge)的一名实验血液学家,他指出,BLUEPRINT项目和NIH表观基因组学线路图计划将会为我们全面揭示基因表达调控的规律。
一旦GWAS研究确定了一个致病性SNP,NIH表观基因组学线路图计划、BLUEPRINT项目和FANTOM5项目所获得的数据就能够显示该SNP是否落在调控区域内,从而可以进一步证明该SNP可能会影响人类健康。GTEx项目则更进一步:它能够确定遗传变异(尤其是非编码DNA上的遗传变异)在机体的不同部位中是如何影响基因活性的。为了检测基因的活性,GTEx项目从多个人的组织中抽提出转录合成的RNA,随后探讨特定RNA转录本(即特定基因被激活的一个标志)水平的改变与SNP或其他DNA序列变异之间的关联。美国国家人类基因组研究所(National Human Genome Research Institute,总部位于马里兰州罗克维尔市)的药理学家Simona Volpi协助进行GTEx项目的协调工作,他表示,GTEx项目将帮助研究者们从GWAS研究的众多发现中筛选出真正有意义的发现。
研究者们往往需要从内脏器官中获取多种组织样本,但是由于所需要的组织种类太多,无法从活人体内获取,因此研究者们将目光转移到最近逝世的个体中——这些死者的亲属将遗体捐赠出来,以用于研究。NIH在GTEx项目上投入了一亿美元的资金。该项目的最终目标是收集并分析900人的大约2.5万份组织样本;迄今为止,GTEx项目所发表的数据包含有175人的43处组织部位的RNA数据。Volpi补充道,有了这些组织样本,“GTEx项目就能够对组织RNA的表达情况进行个体内的比较和个体间的比较了。”“在此之前,没有人能够完成规模如此庞大的研究工作。”
Xi目前正在为抑郁症(depression)、精神分裂症、阿尔兹海默病(Alzheimer’s disease)和帕金森氏症(Parkinson’s disease)寻找药物靶标;他早已将目光转向GTEx数据库,以便继续研究与这些脑部疾病有关的SNP。他指出,拥有GTEx数据库,将有助于我们把疾病和遗传因素联系起来。他也能够利用GTEx数据库,查看GWAS研究所发现的疾病相关性DNA序列是否只在大脑中被激活。在经历以上的研究工作之后,疾病相关性DNA序列就能够成为极具前景的药物靶标,可以降低患者发生全身性副作用的风险。
Graur曾经对早期的ENCODE基因组研究计划提出了猛烈的批判,从而声名远扬。他对GTEx项目的研究结果也充满怀疑,因为该项目所用到的样本是死者的组织样本。Graur强调指出,RNA的降解速度非常快。他表示,如果你想研究(基因)表达水平的话,你必须要有活的生物体。GTEx项目组则反驳道:有研究已经证实,如果在死亡后6小时之内获得样本的话,就能够真实地反映天然的基因活性水平。
尽管如此,GTEx项目和其他基因组研究计划也存在一些缺陷。它们并未全面覆盖所有的组织,这就使得一些研究者感到非常失望,因为他们无法获得自己迫切需要的、感兴趣的细胞类型的数据。以英国牛津大学(University of Oxford)的糖尿病研究者Mark McCarthy为例:由于大型的基因组研究项目忽略了胰岛细胞,因此他目前正在对胰岛细胞开展小型的表观基因组学线路图计划和GTEx项目。此外,这些基因组数据库的挖掘工作也极具挑战性。韦尔科姆基金会桑格研究所(Wellcome Trust Sanger Institute,位于英国辛克斯顿)的进化遗传学家Chris Tyler-Smith说:“我看到有很多人访问了这些数据库,奋斗挣扎。”
尽管如此,Tyler-Smith还是非常欢迎GTEx项目和其他基因组研究计划。他指出,这些项目就是“将大型研究团队聚集在一起,去完成一件单枪匹马不可能完成的事情”。而对于像McCarthy一样的研究者而言,基因组研究计划将有望阐明与糖尿病和其他疾病相关的复杂的基因组网络。他说:“我现在比四、五年前更加乐观了,当时我们完全不知道该如何处理这些基因调控信号。”“我们现在已经拥有不少线索了。”
已被记录的基因调控网络
DNA与疾病的关联研究发现,80%的危险性遗传变异位于基因之外的区域中。多项大型研究将帮助遗传学家探索以下问题:调控DNA序列到底通过何种重要的机制,来决定何时、何处、以何种程度激活基因的表达?
FANTOM5 pulls out the very beginning of RNA as it is being transcribed, identifying gene promoters, which kick off transcription, and enhancers, which control that kickoff. The project has data for every major mouse and human organ, as well as from more than 200 cancer cell lines and purified cell types.当细胞刚刚开始转录合成RNA时,FANTOM5就能够立即抽离出RNA,从而确定基因的启动子和增强子。启动子可启动转录过程,而增强子则可控制转录的启动。FANTOM5项目已经获得了小鼠和人类所有主要器官的相关数据,此外也获得了200多种肿瘤细胞系和纯化细胞的相关数据。
NIH Genotype Tissue Expression (GTEx) has so far examined gene activity in up to 43 tissues of 175 people right after they died. The RNA samples analyzed show how each gene’s activity is shaped by sequence variations outside genes.
迄今为止,NIH基因型-组织表达(GTEx)项目已经从175名死亡不久的个体中获取了43种组织,并检测了这些组织的基因活性水平。研究者们对RNA样本进行分析后,就可以指明基因区域之外的序列变异是如何影响每个基因的活性的。
BLUEPRINT catalogs chemical modifications to DNA and associated proteins, like the NIH Roadmap, but focuses on development and disease in the various blood cells, such as immune cells. The 100 cellular “epigenomes” mapped come from healthy people and people with leukemia, a blood cancer.
BLUEPRINT项目同NIH表观基因组学线路图计划一样,也记录了DNA及其相关性蛋白上的化学修饰情况,但是BLUEPRINT项目关注的重点在于各种血细胞(例如免疫细胞)的发育过程及其相关疾病的发生。研究者们在健康人和白血病(一种血癌)患者中分别标出了100个细胞的“表观基因组”。
NIH Roadmap Epigenomics Project has cataloged chemical modifications to the genome, such as methylation, that alter how accessible genes are for activation. It looked at 127 cell and tissue types.
NIH表观基因组学线路图计划记录了基因组上的化学修饰情况(例如甲基化),这些化学修饰可以改变基因激活的难易程度。表观基因组学线路图计划对127种类型的细胞和组织进行了研究。
Nucleosome核小体
ENCODE carried out biochemical assays on hundreds of mouse and human cell types to identify elements of the genome that may play a role in gene expression.
ENCODE项目对数以百计的小鼠细胞和人类细胞进行了生化分析,以确定有哪些基因组元件在基因表达过程中发挥了重要作用。(基因宝jiyinbao.com)
Chromosome染色体
原文检索:
Elizabeth Pennisi. (2014) New database links regulatory DNA to its target genes. Science, 348(6235):618-619.
Dee/编译