10月22日,国际学术期刊Genome Biology 以PGG.SNV: understanding the evolutionary and medical implications of human single nucleotide variations in diverse populations 为题,在线发表了中国科学院上海营养与健康研究所/马普计算生物学研究所徐书华团队基于20万人基因组的单核苷酸变异数据库——PGG.SNV(https://www.pggsnv.org)。PGG.SNV收录的基因组数据涵盖了800多个现存人类族群和来源于古DNA研究的100多个已消亡人类族群,总共超过20万个基因组;因而在代表性人群数量和样本量上均超过目前被广泛使用的由西方学者主导的gnomAD数据库。PGG.SNV更显着的科学价值在于提供了人群、个体、基因和变异多个层面的种群遗传多样性和进化参数的估计,有助于更深入地解析人类基因组变异的功能和表型效应以及理解其进化和医学意义。
该研究通过全基因组深度测序技术新产生并收集、整合公共人类基因组数据获得2.5亿以上人类单核苷酸变异(SNV),并进行了变异频率、基因多样性、群体分化、功能效应、进化保守性、自然选择信号、连锁不平衡等多方面的解析和注释。通过对人类孟德尔遗传疾病关联变异的频率分析,该研究发现7%的此前报道的罕见病风险变异在很多人群中处于高频状态,提示疾病分析中突变的稀有性不是确定该变异与疾病关联的金标准;孟德尔疾病突变在不同族群中频率存在差别,表明不同族群的遗传负荷存在差异,因而用西方族群的基因组来研究或预测其他族群的突变功能和疾病风险可能会导致误判。
即便是对于大多数出于医学诊断或研究目的或其他兴趣仅仅需要简单查询基因变异频率信息的人来讲,PGG.SNV数据库也具备独特的优势。在医学遗传学领域的实践中,人们往往通过突变位点的频率比较分析来筛选并判别突变是否可能致病。其潜在假设是孟德尔疾病相关的致病突变在自然人群中是稀有的。比较广泛使用的查询突变频率的数据资源为基于全基因组信息的千人基因组数据集和gnomAD数据库以及基于外显子测序的ExAC数据库。但是以它们为唯一参考来研究突变的频率可能存在以下问题:首先,以上基因组数据资源均未能很好地覆盖代表人类族群的多样性;其次,gnomAD和ExAC中将近一半的基因组来自西方人群,而遗传多样性最高的非洲人群的基因组仅仅占9%,东亚人基因组所占比例则更少,因此此库存在显着的西方白人族源偏向性;再次,gnomAD数据库主要以大洲对人群进行分类,而缺少基因组对应的族群信息。举例来讲,由于缺乏代表性亚洲人群的数据,gnomAD将亚洲人群分为“韩国人”、“日本人”和“其他东亚人(other East Asian)”,因此它不能精确反馈给用户每个族群的突变频率信息。尤其是当研究对象为特定的亚洲人群时,gnomAD和ExAC并不是合适的参照数据集,对于亚太地区的研究者来讲实际应用价值存在较大的局限性。
实际上,亚洲人群的人口数量和族群多样性远高于欧洲人群。PGG.SNV数据库更好地覆盖了目前西方学者主导的数据库所缺乏的东亚和东南亚人群的基因组数据。除了广泛收集和收录了800多个现代人族群和100多个古人族群组成的20万人以上基因组突变以外,PGG.SNV数据库还包括了新测得的来自东亚和东南亚的16个族群共1009个全基因组测序的突变信息。这些信息在我国以及周边国家的实际应用中更具有参考价值。因此PGG.SNV数据库的发布对于我国及周边国家人群的进化遗传和医学研究具有迫切性和必要性。
为了方便微信用户通过智能手机查询特定的变异信息,PGG.SNV数据库同时开通了配套的微信公众号“PGGbase”,公众号内提供搜索服务,实时获取变异位点在各群体中的频率信息,并在线生成频率分布地图,为手机用户提供一个简便快捷的查询途径。