基因时代
就找基因君

纵横基因:让每家企业都能轻松玩转基因大数据

基因大爆炸

随着NGS测序技术的快速发展,人类商业化生产基因数据的能力获得了持续突破,特别是2014年Illumina X10测序仪的推出,当下对每一百万个位点进行测序的价格降低到了0.1美金以下,相比于十年前下降了10000倍。价格的剧降直接刺激了测序需求的爆发性增长,也意味着测序数据的暴涨。

纵横基因:让每家企业都能轻松玩转基因大数据

基因大数据的产生,总结起来可以看到几个重要特点:

1、大规模,以人的DNA为例,如果能实现人人全基因组测序,则总量将超过600EB,是当下全球互联网数据总量的几十倍。

2、大增速,从当前的概念级大数据到届时测序大规模推广后的真实大数据,时间不会太长,因此数据会开启“加速度”的增长,即增速会特别大。

3、大范围,如果基因测序的成本再下一个台阶,那么基因测序的服务将覆盖几乎所有地域,从太空看地球,陆地上满满的基因大数据。

黎明前动身

高性能计算和基因组学都是尖端技术,国内大多基因公司的技术和服务能力处于小作坊规模,基因大数据的处理与分析逐步成为基因产业发展的瓶颈。
但瓶颈蕴藏新机遇。

基因狂热粉刘玎是位计算科学家,曾在美国超算中心和UCB从事超大规模数值计算研究,做出当时全球最快的矩阵计算方法。深谙基因行业机遇与挑战的他2012年就提前布局,筹备基因大数据企业。刘玎带领科研团队苦练基因和大数据跨界融合的基本功,并依托超级计算的创新技术,将基因专用分析速度达到国际先进水平,实现了从IT星球到生物界的完美跨界。

如今纵横基因已成长为一家为科研领域和医疗领域的用户提供快速、精准、可靠的云平台定制化服务和分析服务等基因大数据公司。刘玎希冀,通过纵横基因的大数据云平台,帮助医院、基因公司等精准医疗服务机构解决“机房”问题,帮每家企业轻松搞定基因大数据。

看花容易绣花难

1. 精度

一般人比较容易忽视这个问题,认为高精度是“理所当然”的。实则不然,“高精度”是根本,而且并不简单,被假阳性、假阴性的诊断反复骚扰的生活谁也不想要。
目前针对NGS的数据分析方法(或者说软件、流程)比较杂乱,全球公认的权威方法并不多,比如用于人全基因组分析的GATK。

你必须留意合作方出于成本、技术难度等方面的考虑而采用偏门的、没有经过充分商业运行验证的方法,或者采用的软件版本过低,或者使用的数据库不新不全等。毕竟基因分析的结果关乎人的生命健康,这点绝对不能大意。

2. 速度

动辄数百GB甚至几十个T的基因组数据,分析过程可谓是耗时耗力,基因公司叫苦不迭,用户也不耐烦,怎样提高计算速率成为大家关心的重点。有丰富高性能计算经验的团队,巧妙借用了Google的思想,用大量经济型服务器的“众力”代替昂贵的大型机。根据基因组的分析特质,打造了最适合基因组分析的硬件架构,通过近一万个小时的反复调试、优化,将所有的运算部件都发挥到了极致,在保障精度的前提下提速20倍,成本压缩5倍,实现了基于金标准(Best Practice)基因组分析流程的极致性能和效益的双突破,在国内目前处于领先地位。但事实上,团队所解决的问题,远远不止让更多服务器并行地做更多工作这么简单。 

比如,大家想象中的并行计算是这样的:

纵横基因:让每家企业都能轻松玩转基因大数据

实际上却是这样的场景:

纵横基因:让每家企业都能轻松玩转基因大数据

纵横基因:让每家企业都能轻松玩转基因大数据

要打通这些环节,需要很强的技术沉淀和精细打磨,必须针对基因分析的每一个细节做大量、深度的基础工作。所以真正的高性能是靠针线活般的细致一点一滴优化出来的。

3.平台化

首先是基础。有足够多的服务器就成了平台?很显然不是,简单的复制就好比一家便利店开成十家,充其量是个连锁而不是大商场。基因大数据平台要解决的几项关键的基础问题:基因数据专用的数据存储、安全、传输、高性能计算、负载均衡、动态扩容、容灾容错等等,这些都是简单扩大集群规模所解决不了的。

其次是整合。大家都有经验,大型商场除了购物,还提供餐饮、影院等综合服务来满足不同场景的联合需求,这就是平台的整合能力。说到基因大数据,场景只会更复杂,首先测序的种类就繁多,采用的平台设备也不一,数据分析的形式不同,数据背后的应用服务也相当复杂。如何利用场景将复杂的数据整合起来,并打通各项服务流程,这也是平台化需要练就的硬功夫。

还要可靠。在纵横基因的大数据中心,当服务器运作时,任何一台机器出了问题,工作内容都会被智能地转交给其他正常的机器,而当之前的机器再次启动后,会自动加入协同计算,完全不用担心分析进程被中断。正是该系统高度的柔性、弹性计算能力,让本来繁琐的基因数据工作变得轻松容易,而客户只需接入纵横基因的服务体系,就能摆脱机房的烦心事儿,专注投入到他们自身的客户、服务和更好的体验上,而不是复杂、昂贵、且不擅长的IT基础设施。

快、准、可靠,这就是众多三甲医院和基因公司把数据分析交给纵横基因的理由。虽然正式推出服务不到半年,但被誉为“秘密武器”的大数据中心已经为公司创造了数百万收入。(基因宝jiyinbao.com)

赞(0) 打赏
未经允许不得转载:基因君官网 » 纵横基因:让每家企业都能轻松玩转基因大数据
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

健康一生

apasstour 医健游测序宝