2015年2月1日 讯 /生物谷BIOON/– 美国国家儿童医院(Nationwide Children’s Hospital)的研发人员最近在Genome Biology上发布了一个自主开发的分析软件,表示这个软件使寻找全基因组致病变异从几周缩短到按几十个小时。
第一个人类基因组测序完成耗时大约13年,耗费30亿美元,而现在技术测序技术的发展,使得即使是很小的研究小组都可以在几天之内完成基因组测序。但是从测序产生的巨大的数据分析得出真正能用于研究或者临床的信息一直是一个挑战。而彼得·怀特博士和他带领的团队针对这个问题,利用新颖的计算技术,开发了一个名为"丘吉尔"(Churchill)的计算管道,表示"丘吉尔"可以在短短90分钟内完成全基因组样品的有效分析。
"丘吉尔"自动输入原始序列资料,通过一系列密集复杂和计算,最终分析出有临床或者科研意义的的遗传变异体。这个过程中的每一步,"丘吉尔"都有优化,以显著减少分析时间,但不损害数据的完整性,该分析是100%的可重复性。"丘吉尔"采用的平行化(parallelization)的算法克服了染色体带来的平行化限制,极大提升了数据输入的平衡性和分析中数据重新组合,去分,再校准和基因型分型的执行性。通过检查在数据分析过程中的计算资源的利用,相比其他两种分析管道-HugeSeq和GATK-Queue只能分别利用46%和30%的数据资源,"丘吉尔"的利用率达到了92%,并在多个服务器非常有效地进行缩放。"丘吉尔"输出结果,在与其他计算管道比较,被证明具有最高99.7%的灵敏度;最高99.99%的精读和99.66%最高整体诊断效率。
这种效率和能力,证明"丘吉尔"或能够进行人口规模的基因组分析。为了证明"丘吉尔"的能力,怀特博士和他的团队成功地分析了千人基因组项目所产生的第一阶段的原始数据(千人基因组项目是以生成世界各地的多个群体人类遗传变异的公众目录为目的的国际合作项目)。利用亚马逊网络服务(AWS)的云计算资源,"丘吉尔"仅用七天便完成1088个全基因组样本的分析,并确定了数以百万计的新的遗传变异。
"丘吉尔"的发布是测序技术一个极大的进步。它极大降低测序分析的成本,突破了当今测序分析计算的瓶颈,特别为现在大人口规模的基因组学的研究提供便利。(生物谷Bioon.com)
本文系生物谷原创编译整理,欢迎转载!转载请注明来源并附原文链接。谢谢!
DOI:10.1186 / s13059-014-0577-X
Churchill: an ultra-fast, deterministic, highly scalable and balanced parallelization strategy for the discovery of human genetic variation in clinical and population-scale genomics
Benjamin J Kelly, James R Fitch, Yangqiu Hu, Donald J Corsmeier, Huachun Zhong, Amy N Wetzel, Russell D Nordquist, David L Newsom, Peter White
Abstract
While advances in genome sequencing technology make population-scale genomics a possibility, current approaches for analysis of this data rely upon parallelization strategies that have limited scalability, complex implementation and lack reproducibility. Churchill, a balanced regional parallelization strategy, overcomes these challenges, fully automating the multiple steps required to go from raw sequencing reads to variant discovery. Through implementation of novel deterministic parallelization techniques, Churchill allows computationally efficient analysis of a high-depth whole genome sample in less than two hours. The method is highly scalable, enabling full analysis of the 1000 Genomes raw sequence dataset in a week using cloud resources. http://churchill.nchri.org/.