您现在所在的位置:首页>>科技创新>>创新进展
在“云端” 解读生物信息的秘密——北京市计算中心 《生物信息分析系统》
发布时间:2018-03-16 15:31

编者按:伴随着新一代测序技术的不断发展及国家“精准医学研究”战略性需要,生物医学研究及应用领域产生了越来越多的数据。这些海量数据的存储、处理和分析需要不同的软件和相应的硬件平台。《生物信息分析系统》是富联平台2016年度优秀科技成果之一,是由北京市计算中心科研团队长期致力于生物信息计算领域不断创新与努力所取得的。该成果是为生物学、医学、农学等领域的用户定制开发的一套"+"模式的生物信息分析服务系统,对大数据时代下精准医学研究及大健康产业发展提供助力。

生物信息是调节和控制生命活动的信号。与物质、能量一起成为构成生物体的三大要素。它对生物个体、群体及其他类群产生影响,和生物的生存和进化密不可分。计算机科学与基因组技术的发展,生物信息的概念又成为了基因的计算机数据库、数据处理、基因序列信息、生物系统的计算机分析与软件设计等含义。

大数据需求催生新技术——生物技术和信息技术在这片创意新天地里水乳交融。

人类基因组计划、基因芯片、个性化分子诊断、生物云计算等这些在最近几年里吸引无数眼球的热门词汇,都和一个产业颇有渊源——DNA测序。而伴随这DNA测序技术的不断发展,生物医学研究也步入了大数据时代。每一组DNA 中都蕴含着大量的信息,而生物的多样性又将这些信息数据扩大到以PB为计量单位的程度。海量数据的储存和分析,对软件和硬件提出了较高的要求。数据分析人员往往需要花大量精力配置硬件和调试软件,这些繁琐的工作不但增加了研究机构的成本而且大大降低了数据解读的效率。

北京市计算中心科研团队结合了云计算共享资源的模式和特定用户对一体机定制的要求,在软硬件、系统架构和使用模式上进行了大量的研发和创新,能匹配基因组或生物信息学数据分析中不同用户的多种实际需求。囊括了生物信息分析领域常用到的硬件设备、分析软件、操作系统和云计算资源等全部内容,用创新的模式解决了科研人员数据分析周期长、效率低的问题。通过生物信息数据分析一体机屏蔽掉底层软硬件配置的难题,能使科研人员快速、流程化地处理测序所产生的基因组学数据,便捷、高效地完成科学研究工作。

私人定制——将繁杂的生物信息学软件整合为统一入口,按照同样的工作流快速地处理测序所产生的基因组学数据。

该成果的关键技术是针对生物信息学不同的应用场景,提供对应的服务器硬件设备和相应的生物信息学软件系统,集硬件、软件、数据分析流程、云服务为一体,将定制化的计算机服务器硬件,自主开发集成的软件和分析流程,与基于高性能计算集群的云服务平台整合成新服务,实现本地计算资源和云端计算资源无缝对接。以高通量的测序数据分析为核心,以生物信息学数据分析软件系统集成为目的,同时也是一种服务模式的创新。

一是可定制的集成生物信息分析系统。在调研100多款生物信息学软件之后,从使用便捷度和程序执行效率两个方面进行优化,然后再进行打包,并研究软件系统快速安装方式,提供一个方便快捷的部署流程。集成了上百款生物信息领域常用的软件工具和本地化的数据资源,可实现绝大多数常规数据分析;自主开发的生物信息分析软件及流程以及生物信息软件统一安装软件,可实现生物信息分析软件快速整体安装,同时可将数据分析速度提高30-50%

二是定制化的软硬件一体机终端。根据软件系统和数据处理要求配置特定硬件,形成个性化的计算终端。通过对数据分析的准确把握,结合用户的特殊要求,配置特定的硬件,构建最佳的处理环境,节约了资源,提高了数据分析的效率,最大程度的满足了用户个性化的要求。

三是共享的云计算资源体系。云计算资源与个性化终端无缝对接,可利用系统的云端接口调用高性能计算资源及部署在高性能服务器的生物信息软件及流程,完成更高要求的数据分析工作。利用云计算技术,采用"虚实共存,串并结合"的策略,实现虚拟机和物理服务器,本地生物信息分析系统与生物信息分析云平台的结合,能弹性快速地满足用户在生物信息数据分析方面的需求。属国内首创。

目前,在国内还没有类似的产品。国外研发的产品缺少常见的生物信息学分析流程,易用性较差。该成果针对这个问题整合服务器硬件设备,针对生物信息学领域计算的特点,开发生物信息分析服务系统可为高校,科研院所和医院以高通量测序数据为代表的生物信息数据分析提供便利的分析平台及服务,具有很高的市场实用价值。目前已被首都医科大学、吉林大学、内蒙古农业大学、内蒙古科技大学等高校和科研院所使用。