在理解这篇由著名分子生物学家George M. Church教授发表于《科学》的重磅论文前,我们先了解一下什么是腺相关病毒(AAV)。AAV是一种单链DNA病毒,由科学家1965年在制备腺病毒时发现,因此得名腺相关病毒。腺病毒会感染多种脊椎动物,这其中也包括人类,会诱发人类的上呼吸道感染,而AAV非常特别,目前的科学界共识是它不会导致任何人类疾病,也是目前人类发现的一类结构最简单的单链DNA缺陷型病毒,正是因为其DNA结构上的缺陷,在没有辅助病毒的参与下(典型的如腺病毒、单纯疱疹病毒等),AAV无法引发病毒感染。这样的特性让AAV成为了科学家眼中最为理想的基因载体。
未经改造的天然存在野生型AAV由蛋白衣壳(capside)和长度为4.7kb的单链DNA基因组构成。蛋白衣壳由三个亚基组成,分别为VP1,VP2,和VP3。AAV基因组两端为两个“T”型的末端反向重复序列(inverted terminal repeat, ITR)。这两个ITRs是病毒DNA复制的起点和触发病毒包装的信号。AAV基因组中的rep基因编码4个与病毒复制相关的蛋白,分别为Rep78、Rep68、Rep52、和Rep40。
科学家通过改造AAV,获得了用于基因疗法的优良载体——重组腺相关病毒(rAAV)。rAAV携带的蛋白衣壳与野生型AAV几乎完全相同,然而衣壳内的基因组中编码病毒蛋白的部分完全被删除,取而代之的是治疗性转基因(transgene)。现在,AAV基因组中被保留的部分主要是编码衣壳蛋白的cap基因,以及ITRs,它起到指导基因组的复制和病毒载体组装的作用。将编码病毒蛋白的部分完全删除的优点是:一方面可以最大化重组AAV携带转基因的容量,另一方面减小体内递送转基因时产生的免疫原性和细胞毒性。但目前的rAAV依然不能满足基因疗法的需求,我们急切的需要一款功能更为强大的AAV,而这次哈佛大学(Harvard University)著名分子生物学家George M. Church教授领导研究团队联合Dyno Therapeutics公司(Dyno Therapeutics是一家将人工智能应用于基因治疗的生物技术公司)的科学家,通过结合计算机技术,成功得到了一批功能优异的AAV。
先前的研究策略集中在对cap基因的优化,使其增加递送效率的同时也就有侵染活性,研究策略限于随机突变,效果不理想。因此,研究小组对腺相关病毒2型(AAV2)衣壳中的735个氨基酸位点进行单突变,从而生成了一个包含约200,000个变体的单突变库。为了研究其功能,研究人员将这些突变体转染到小鼠中,看它们在小鼠不同器官的富集程度。比如,有些突变体特意地在肝脏富集,有些则在血液。这个现象也叫“归巢”现象。同时,他们通过巧妙的实验设计,鉴定了对应的衣壳变化,与突变位点的对应关系,建立起了一个计算机模型。
但实际设计中,单突变可能满足不了基因疗法的需求,要采用多突变位点设计,同时还要AAV2的活力。为此,他们用计算机模型预测了多位点突变的一些组合,并与随机突变组合的进行了比较,最终发现计算机设计的突变体,很多既有高的AVV2活力,又保持了其“归巢”的潜能。令人惊喜的是,研究团队还发现了隐藏在衣壳编码DNA序列中的新辅助蛋白,该蛋白可与靶细胞膜结合。
这篇论文构建迄今为止最全面的AAV蛋白衣壳库。Crunch教授表示:“利用这个文库产生的数据,我们还能够设计出更多衣壳突变体,比先前自然或人工变异产生的还要多。不仅如此,AI设计产生有效衣壳的效率远远超过随机诱变方法产生的AAV。”
“这些高通量的技术与计算机技术相结合,为未来的基因治疗奠定了坚实的基础。”Dyno Therapeutics公司现任首席执行官,论文共同第一作者Eric Kelsic博士对此表示,过去的方法,如人为设计或随机突变,都存在各自的缺点,不是受突变库规模限制,就是质量低下。机器辅助设计则是一种数据驱动的蛋白质工程方法,另外有足够数据的简单数学模型就可以成功生成可行的合成衣壳。由此借助计算机的力量,便可充分结合利用上述蛋白质工程的迭代和经验方法,从而生成大量高质量的衣壳变体。”
另外,文章作者还发现,cap基因还能编码一个新的蛋白MAAP(membrane-associatedaccessory protein)。文章作者推测,MAAP蛋白可能与之前在工程型AVV2库中发现的高基因组-衣壳耦合现象有关。MAAP存在于大部分AAV血清型中,研究人员相信它将在病毒的自然生命周期中发挥作用。研究人员表示:“研究MAAP的功能是一个令人兴奋的领域,并有助于人们更好地理解AAV、并设计更好地AAV基因疗法。该发现令人鼓舞,但却只是迈出了第一步。利用这些数据和来自未来实验的数据,我们可以构建机器学习模型来优化AAV载体衣壳,并解决各种基因治疗的挑战。”这项研究可以说是一个里程碑式的进展,更是一个良好的开端。
因此从2015年开始,研究团队便着力于通过开发新的机器引导技术来克服现有技术局限性,从而在今天宣布研发出了一种更快速有效的工具型AAV。本项研究具有里程碑式的意义,使用新的高通量测量技术收集大量数据,教他们如何构建更好的多位点突变体库,最终优化了AAV的传递性能。
研究人员表示:“这只是机器引导的AAV衣壳工程改变基因疗法的开始,这项研究的成功使我们看到了追求更多数据和更大容量的机器学习模型应用于基因疗法的无限潜力。”
研究人员的思路是,鉴于观察到AAV2单突变库不同突变体在不同器官中富集程度不同,与之相应的AAV2有相应的突变位点和衣壳结构,研究人员建立计算机模型,将两者进行联系。为了简化模型,他们选择了富集在肝脏的那些AAV2突变体,对其一一测序。
为了研究这些突变体在体内的作用,研究人员便把AAV2逐一感染到小鼠中,这些感染到小鼠体内的突变体有不同生物分布特征,比如分布在肾、心脏、肝、肺等。随后,研究人员做了主成分分析,将不同AAV2突变体衣壳结构特征与其在生物内的分布特征联系起来;聚类分析的结果显示,有一些突变体特异地被肝清除,而在血液、心脏和肾脏中富集,有些则相反。
考虑到之前许多随机突变产生的AAV2无法进行有效基因传递,研究人员也就生出了“能否创造出一种计算机方法来更有效改良AAV2”的想法,为验证该设想他们便尝试用计算机进行突变位点设计。
鉴于AAV2单突变库不同突变体在不同器官中富集程度不同,与之相应的AAV2有相应的突变位点和衣壳结构,研究人员建立计算机模型,将两者进行联系。为了简化模型,他们选择了富集在肝脏的那些AAV2突变体,对其一一测序,通过测序发现富集在肝脏区域的AAV2突变体,其突变位点仅限于cap基因所编码氨基酸的第561-588位点间,由此他们将此区域定为多位点突变选择的靶区域。
逐个扫描cap基因候选靶区域的氨基酸位点,计算机模型便会给氨基酸位点按照模型计算出来的可能性进行打分,分数越高,可能性越大。接着研究人员将分值高的位点一起突变,建立起一个多位点突变体库。
与此同时,他们又根据氨基酸位点的效果和随机性的原则,人为挑选了一些氨基酸位点进行突变,作为对照。通过此方法,他们共设计了1271个AVV2突变体,以及10047个随机突变体,随后他们把这些突变体转染到小鼠中,检测它们的分布情况。最终的结果显示计算机设计的突变体大约有25.6%都是有功能的(即在肝脏中有分布),而近乎一半(4477个)随机产生的突变体都是无效的(在肝脏中无分布或弱分布)。
这一结果显示,计算机设计具有相当高的效率。(生物谷Bioon.com)