沙特KACST基因数据处理平台——生命科学

2016-02-24 10:02
浏览量: 收藏:0 分享

  搭建沙特基因数据处理平台主要目的是配合美国应用生物系统公司(ABI)的SOLiD系统和454公司的GS FLX测序系统,辅以FASTA、BLAST、Genscan 、RepeatMasker、NAMD和Phrap等生命科学软件进行相关的研究工作。

  目前的测序仪设备用多种,沙特基因数据处理系统主要采用SoLid测序系统和454测序系统。SOLiD系统是一个端到端的基因组分析解决研究方案,包含测序组件、化学组件、计算集群和数据存储组件。这个平台基于通过寡核苷酸连接和检测来进行测序。与聚合酶测序方法不同的是,SOLiD系统利用逐步连接技术来产生高质量的数据,可应用于全基因组测序和定向重测序、转录本分析、小分子RNA发现、基因表达图谱分析、染色质免疫沉淀(ChIP),微生物和真核重测序、数字核型分析、医学测序、基因分型及其他。454公司的GS FLX测序系统依靠生物发光进行DNA序列分析,在DNA聚合酶、ATP硫酸化酶、荧光素酶和双磷酸酶的协同作用下,将每一个dNTP的聚合与一次化学发光信号的释放偶联起来,通过检测化学发光信号的有无和强度来达到实时测定DNA序列的目的。

解决方案

  应用特点分析

  作为生命科学的一个重要研究领域,基因研究工程需要的计算机资源(包括计算速度、内存和磁盘存容量以及网络通信能力) 将超过人类登月工程上百万倍,可见生命科学对高性能计算的需求量是非常巨大的。为了节省科研工作者的宝贵时间,解决整个计算系统中对计算能力以及存储能力的需求,我们建议采用目前技术十分成熟的集群解决方案。

  在生命科学领域,很多应用都要求系统的运算能力、内存容量以及IO能力,这样就要求我们的系统必须满足这五点要求。作为我们的科研工作者往往是某一方面的专家,可能对计算集群并不是十分的了解,这就要求我们的系统一定要尽可能的易于使用与管理,使科研工作者将更多的时间和精力投入到科研工作中去。由于生命科学对计算量和存储量的需求会越来越大,所以要求建成的系统一定要有很强的扩展能力,以满足日后的需要。有些应用可能要运行几天甚至几个月,那么功耗问题也就是我们不得不考虑的了。

  解决方案介绍

  针对于沙特基因数据处理平台高性能项目需求,并结合浪潮多年来对科学计算领域高性能应用的深刻理解,浪潮特别推出了针对本次项目需求的基于Intel最新45nm四核处理器的浪潮天梭TS10000集群,本集群具有计算性能优越、功耗控制领先、监控管理系统方便易用、系统开放易于扩展、服务体系完善等特点。除此之外,颇受广大用户认可的浪潮高性能集群培训服务体系,将为此次项目锦上添花,免除用户的后顾之忧。

  本次集群由72个计算节点,1台管理节点/通用计算节点、1台头结点/通用计算节点、2个源数据处理节点/通用计算节点、4个存储节点、1套全线速20Gb Infiniband计算网络、1套全千兆管理网络以及部署于集群系统中的软件系统和视频切换系统组成。

  1.高性能:高性能的计算结点是提升机群计算能力的重要因素,浪潮NX7100DB支持配置两颗Intel Xeon四核处理器,每颗CPU集成12MB二级缓存,主频高达3.0GHz;

  2.高可靠性:管理节点服务器和磁盘阵列设备,全部配置RAID冗余磁盘,保证用户数据安全可靠;浪潮的机柜系统、机架式服务器结点和刀片式服务器节点,均经过散热优化设计和冗余设计,既能保证系统的稳定运行,又可有效节约系统耗电量;

  3.标准、开放的机群架构:本系统设计方案,遵循业界通用的并行计算机群设计标准,可以与其它任何厂商的标准部件互联互通;

  4.易管理:机群系统软件是机群服务器的关键部件,采用浪潮自主研发的机群管理系统TSMM,可以像管理一台服务器一样管理机群的资源;

  5.扩展性:生命科学计算平台对于性能的要求是无止境的,最好在不改变旧有设备架构的基础上进行扩展。

客户收益

  沙特王国阿卜杜拉阿齐兹国王科技城(沙特王国的国家科研管理机构和国家科学研究机构,简称KACST)启动椰枣基因组计划(DPGP),通过这个超算系统,建造了完成椰枣基因组计划的完全基础条件建设,建立了一个较有影响的生命科学与生物技术中心,并且有效的拉动了沙特生物技术产业发展!


标签:

责任编辑:管理员
在线客服