2017年的最后一周,我国启动了“中国十万人基因组计划”,绘制中国人的精细基因组图谱,这是我国在人类基因组研究领域实施的首个重大国家计划,需要在四年内完成全部的基因测序与分析任务。
作为六家单位之一,北京诺禾致源参与了此次十万人基因组计划,借助阿里云的计算和存储能力,诺禾致源能在17分钟内就加载完1万个人类全基因组数据,仅用1.5小时就可完成单个基因测序pipeline,比此前快了46倍之多,极大缩短了测序的时间。
在云计算快速发展的这几年中,诺禾致源一直在努力推进基因测序上云建设。目前,诺禾致源已将基因测序业务陆续迁移到阿里云,为基因行业全面云化实现云上数据采集、基因测序、结果交付的梦想,迈出坚实且重要的一步。
基因业务快速增长本地IT资源遇难题
诺禾致源成立于2011年,彼时之云计算还处于起步阶段,诺禾选择了自建本地IT资源来承载业务。然而随着近年业务的增长,以及本地IT资源面临升级改造的时间节点,问题逐渐暴露:
——服务器配置不足,运行性能不理想
· 系统运行速度慢
· 业务卡顿不流畅
· 数据上传速度慢,非常耗时
——传统存储无法满足业务快速增长
· 物理存储介质有安全隐患,老化、意外丢失、损坏
· 存储容量有限,无法应对突发业务
· 需要专人运维保管,增加人力成本
· 售后服务差,沟通成本
——定制化分析较困难
· 业务与IT资源匹配沟通成本高
· IT资源无法定制化,技术不匹配
· 本地资源排队,数据分析延误长达1个月
CPFS+FPGA 存储+计算的云上基因平台
日前,阿里云推出了基于NAS的并行文件系统——CPFS,可提供高达1亿的IOPS和1TB/s的吞吐能力,支持大型并行数据处理能力,可大幅提升基因测序、科学计算等高性能计算的工作效率。
具体来说,CPFS可将数据条带化后均匀分布在整个存储集群上,允许client并行访问,吞吐和IOPS随存储节点的数量实现线性增长,整个存储集群对外提供超高的聚合带宽和IOPS。同时,采用融合以太网的RDMA协议(RoCE)网络缩短IO访问的网络时延,进一步提高了IO访问速度。
此外,基于Paxos ring的仲裁调度,CPFS可自动检测服务节点异常,快速切换到备用节点,保障服务的可用性。
诺禾致源第一时间在云端构建了基于阿里云CPFS的基因测序解决方案。如下图所示,通过专线连接阿里云,人基因数据从测序仪下机后,样本数据通过专线上传到云端的OSS对象存储中,再通过CPFS并行文件系统配合ECS计算集群完成基因测序任务。
业务系统上云后,数据分析过程都在云端完成,除了常规的ECS弹性计算外,诺禾致源还创新引入了阿里云推出的FPGA云服务器,这是一款现场可编程门阵列(FPGA)的计算实例,这类异构计算实例支持并行计算,计算能力、吞吐量、能耗比比传统CPU或GPU要强上十倍。
由于FPGA硬件的可重配特性,用户可以对已创建的FPGA硬件加速应用,进行快速擦写和重配,达到低时延硬件与弹性伸缩最好的结合。基于FPGA+CPFS的黄金组合,诺禾致源将单个基因测序pipeline从传统模式下的70个小时缩短为仅用1.5个小时即可完成。同时,仅需17分钟即可加载完1万个人类全基因组数据,这些原始数据多达300GB。这一速度对临床医学的快速诊断、科研成果的快速转换具有重大意义。
云计算助力精准医学基因科学如虎添翼
借助于阿里云提供的海量云存储和批量弹性计算,诺禾致源能够以更大的吞吐、更快的速度、更低的成本分析人类基因组数据,助力精准医学。
截至目前,诺禾致源运营有25台Novaseq和三套Hiseq X Ten,每年可完成28万人的全基因组测序,是全球最大的基因测序平台,业务覆盖科技服务、肿瘤基因检测及遗传检测三大领域,极大地提升了国人遗传疾病分析和诊断的效率。
云带来的不仅是效率的提升,还有成本的下降,目前机构的检测成本已低至数百美元。这一价格还将持续下降。今后,人类做一次检测,或将和用体温计量一次体温一样便捷。
或许在数年之内,每个新生儿都会被绘制基因组图,每个成年人都通晓生命出路。(生物谷Bioon.com)