全自主可控之生命科学解决方案
来源: | 作者:tardetech | 发布时间: 2017-04-26 | 2641 次浏览 | 分享到:
生命科学做为21 世纪最重要的科学分支之一,高性能计算在生命科学的研究和发展中起来非常重要的作用。由于测序技术的飞速发展,人类发现的基因序列数目按照指数级增长,那么对于如此数量庞大的基因进行同源性搜寻,比对,分析,遗传发育分析等等,往往伴随着巨大的数据处理量和并行计算量。

1.用户需求

生命科学做为21 世纪最重要的科学分支之一,高性能计算在生命科学的研究和发展中起来非常重要的作用。由于测序技术的飞速发展,人类发现的基因序列数目按照指数级增长,那么对于如此数量庞大的基因进行同源性搜寻,比对,分析,遗传发育分析等等,往往伴随着巨大的数据处理量和并行计算量。同时,由于生命科学的研究对象往往是蛋白质和DNA 的大分子,对这些分子的三维结构的预测,动力学特性、热力学特性、在生命过程中如何发生作用,这些科学问题也要借助于高性能计算机。所以高性能计算机在生命科学研究中,应用非常广泛,扮演着及其重要的角色。

目前随着计算机技术的和计算能力的飞速发展,高性能计算机能满足生命科学的海量计算和数据分析的需求,高性能计算主要运用在生物信息学分析、蛋白质三维结构研究、新药研发、基因序列测序、蛋白质三维结构结晶等各个方面,高性能计算已经成为现代生命科学发展中必不可少的研究手段。

医卫信息和数据的安全,同样也是中国国家信息安全的重要内容。为了应对日益突出的生物安全需求,军事科学院曾主持设计了“生物安全防御系统”。针对新发传染病的未来威胁,构建国家战略层面的传染病侦察和媒介生物控制平台,从而形成一整套“安全防御系统”。

利用自主可控技术构建生命信息科学领域的计算、支撑环境是本方案的宗旨

2. 现存问题

根据不同的计算特点和模式,生命科学分为如下应用模式:

1) 生物信息学(序列搜寻比对分析)。

这一领域主要指以蛋白质和核算序列为研究对象,对序列进行同源及相似性搜寻、比对、序列分析、遗传发育分析等,应用软件数量巨大(数十种),各种软件在同源性分析算法上各有特点。

2) 分子动力学。

分子动力学是一套分子模拟方法,该方法在定义原子之间作用势的基础上,依靠牛顿力学来模拟分子体系的运动 ,从而探索体系的动力学特性和热力学特性。

3) 分子对接(药物设计)。

计算为主分子对接使依据配体与受体作用的“锁-钥原理”,模拟小分子配体与受体生物大分子相互作用。通过计算,可以预测两者间的结合模式和亲和力,从而进行药物的虚拟筛选。

4) 测序仪离线处理。

DNA测序仪是用于测量DNA(基因)序列的高级试验仪器,是生命科学研究中必不可少的仪器设备、获得重要科研进展的重要工具。DNA测序仪价格昂贵,其研究过程分为准备试剂,仪器测序到最后的仪器离线处理,从而获得科学家可以辨识的基因序列,在这个的基础上,科学家可以利用测量获得的序列进行拼接、比对、同源性分析等等。

5) 电子显微镜图象处理。

电子显微镜是生命科学研究中不可或缺的高级实验仪器, 其中基于冷冻电镜和三维重构方法的生物大分子的结构和功能的研究是国际上的研究热点,而电子显微镜所获得的大量的原始图象远远超过了人- 10 - 的认知范畴,需要借助高性能计算机进行图象处理,从而获得人类认知范畴内的实验数据和图象。

6) 质谱仪原始资料处理。

在蛋白质科学研究中,科学家需要通过质谱仪和高性能计算机来获得蛋白质的序列信息,从而实现从蛋白质一级结构到三级结构的研究。

3. 如何解决

针对上述多种生命科学的应用,本着安全、可靠、高效的原则,方案中选择64位龙腾服务器及胖节点作为计算系统;配置高性能的全光纤 SAN存储系统.,通过混搭方式完成生命科学中的不同作业流程。

基于龙芯刀片的高性能集群系统,不仅具有Cluster架构的普适性优点,而且更加符合现代高性能计算机对计算密度、能耗、可靠性、易用性等方面的要求,是高性能计算的最佳平台。

对于峰值性能通常超过数Tflops的大规模并行计算机而言,刀片式集群系统在计算密度、功耗散热、运营成本、维护成本、可靠性等方面,都明显优于其他系统,且为系统的扩容升级提供了良好的基础。

龙芯3A是我国新一代高性能计算机通用CPU,集成了四个64位超标量处理器核、4MB的二级Cache、两个DDR2/3内存控制器、两个高性能HyperTransport控制器,可以满足生命科学中对MPI并行性要求较高的计算需求。