生物医学大数据处理的云计算解决方案

11-24

第２８卷　第１１期・　１１９０・

电子测量与仪器学报

ＪＯＵＲＮＡＬＯＦＥＬＥＣＴＲＯＮＩＣＭＥＡＳＵＲＥＭＥＮＴＡＮＤＩＮＳＴＲＵＭＥＮＴＡＴＩＯＮ

Ｖｏｌ畅２８　Ｎｏ畅１１２０１４年１１月

ＤＯＩ：１０．１３３８２／ｊ．ｊｅｍｉ．２０１４．１１．００３

生物医学大数据处理的云计算解决方案

孙　磊　胡学龙　张晓斌　李　云

（扬州大学信息工程学院扬州２２５１２７）

倡

摘　要：随着二代测序、质谱分析、医学影像等生物医学技术的发展和应用，生物医学数据呈现爆炸性增长趋势，其处理面临数据量大、计算强度大、维度高等问题。云计算在资源分配、数据存储、计算、共享等方面具有优势，能够帮助解决生物医学大数据处理的相关问题。深入分析了云计算在生物医学大数据处理方面的特点，归纳总结了常见的生物云计算解决方案，对生物云计算的发展和挑战进行了展望。有望建立能够整合多源生物医学数据的新型计算方法，以解决复杂的生物医学问题。

关键词：生物医学技术；二代测序；医学影像；大数据；云计算

中图分类号：ＴＰ３；Ｒ３１８．０４　　文献标识码：Ａ　　国家标准学科分类代码：５２０．３０；１８０．１４１０

Ｃｌｏｕｄｃｏｍｐｕｔｉｎｇｓｏｌｕｔｉｏｎｓｆｏｒｐｒｏｃｅｓｓｉｎｇｂｉｏｍｅｄｉｃａｌｄａｔａ

ＳｕｎＬｅｉ　ＨｕＸｕｅｌｏｎｇ　ＺｈａｎｇＸｉａｏｂｉｎ　ＬｉＹｕｎ

（ＳｃｈｏｏｌｏｆＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ，ＹａｎｇｚｈｏｕＵｎｉｖｅｒｓｉｔｙ，Ｙａｎｇｚｈｏｕ２２５１２７，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｗｉｔｈｔｈｅｄｅｖｅｌｏｐｍｅｎｔａｎｄａｐｐｌｉｃａｔｉｏｎｏｆｂｉｏｍｅｄｉｃａｌｔｅｃｈｎｉｑｕｅｓｓｕｃｈａｓｓｅｃｏｎｄｇｅｎｅｒａｔｉｏｎｓｅｑｕｅｎｃｉｎｇ，ｍａｓｓｓｐｅｃｔｒｏｍｅｔｒｙａｎｄｍｅｄｉｃａｌｉｍａｇｉｎｇ，ｔｈｅｂｉｏｍｅｄｉｃａｌｄａｔａｈａｖｅｂｅｅｎｇｒｏｗｉｎｇｅｘｐｌｏｓｉｖｅｌｙ．Ｈｏｗｅｖｅｒ，ｔｈｅｂｉｏｍｅｄｉｃａｌｄａｔａｐｒｏｃｅｓｓｉｎｇｉｓｆａｃｅｄｗｉｔｈｍａｎｙｐｒｏｂｌｅｍｓｓｕｃｈａｓｂｉｇｄａｔａｖｏｌｕｍｅ，ｈｉｇｈｌｙｉｎｔｅｎｓｉｖｅｃｏｍｐｕｔａｔｉｏｎａｎｄｈｉｇｈｄｉｍｅｎｓｉｏｎ．Ｃｕｒ－ｃｏｍｐｕｔｉｎｇｆｏｒｐｒｏｃｅｓｓｉｎｇｂｉｏｍｅｄｉｃａｌｄａｔａ．Ｔｈｅｎｓｅｖｅｒａｌｃｏｍｍｏｎｌｙｕｓｅｄｓｏｌｕｔｉｏｎｓｏｆｂｉｏｍｅｄｉｃａｌｃｌｏｕｄｃｏｍｐｕｔｉｎｇｗｅｒｅｓｕｍｍａｒｉｚｅｄ．Ｔｈｅｄｅｖｅｌｏｐｍｅｎｔａｎｄｃｈａｌｌｅｎｇｅｓｏｆｔｈｅｂｉｏｍｅｄｉｃａｌｃｌｏｕｄｃｏｍｐｕｔｉｎｇｗｅｒｅｆｕｒｔｈｅｒｄｉｓｃｕｓｓｅｄ．Ｉｔｉｓｈｏｐｅｆｕｌｔｏｃｒｅａｔｅｎｏｖｅｌｃｏｍｐｕｔｉｎｇｍｅｔｈｏｄｓｂｙｃｏｍｂｉｎｉｎｇｍｕｌｔｉ－ｓｏｕｒｃｅｂｉｏｍｅｄｉｃａｌｄａｔａｆｏｒｓｏｌｖｉｎｇｃｏｍｐｌｅｘｂｉｏｍｅｄｉｃａｌｐｒｏｂｌｅｍｓ．Ｋｅｙｗｏｒｄｓ：ｂｉｏｍｅｄｉｃａｌｔｅｃｈｎｉｑｕｅｓ；ｓｅｃｏｎｄｇｅｎｅｒａｔｉｏｎｓｅｑｕｅｎｃｉｎｇ；ｍｅｄｉｃａｌｉｍａｇｉｎｇ；ｂｉｇｄａｔａ；ｃｌｏｕｄｃｏｍｐｕｔｉｎｇ

ｒｅｎｔｂｉｇｄａｔａｐｒｏｂｌｅｍｓａｂｏｕｔｂｉｏｍｅｄｉｃａｌｒｅｓｅａｒｃｈｃａｎｂｅｓｏｌｖｅｄｂｙｃｌｏｕｄｃｏｍｐｕｔｉｎｇ，ｗｈｉｃｈｒｅｐｒｅｓｅｎｔｓａｄｖａｎｔａｇｅｓｏｎｒｅ－ｓｏｕｒｃｅａｌｌｏｃａｔｉｏｎ，ｄａｔａｓｔｏｒａｇｅ，ｃｏｍｐｕｔａｔｉｏｎａｎｄｓｈａｒｉｎｇ．Ｔｈｉｓｐａｐｅｒｆｉｒｓｔｃｏｍｐｒｅｈｅｎｓｉｖｅｌｙａｎａｌｙｚｅｄｆｅａｔｕｒｅｓｏｆｔｈｅｃｌｏｕｄ

１　引　言

近二十年来生命科学研究在生物医学技术的推动下得到了快速发展。特别是高通量测序技术（或称为二代测序、下一代测序）凭借其优良的测序性能和

［１］

低廉价格（每５个月价格降一半）在领域内得到了

［２］

广泛应用。二代测序同时衍生出了ＲＮＡ－ｓｅｑ、ｅｘ－

［３］［４］［５］

ｏｍｅ－ｓｅｑ、ＣｈＩＰ－ｓｅｑ、ＤＮＡ甲基化测序、染色质交

收稿日期：２０１４－１１　　ＲｅｃｅｉｖｅｄＤａｔｅ：２０１４－１１

互分析等针对特定生物分子或靶标的测序方法。

［７］

另外，蛋白质质谱分析法被用于蛋白质组学研究，医学影像（如ＣＴ、核磁共振ＭＲＩ）已成为医学研究及诊断的常用技术。在新型生物技术的协助下，大型生

［８］［９］

物／医学项目（如１０００基因组、ＥＮＣＯＤＥ、ｍｏｄＥＮ－

［１０］［１１］

ＣＯＤＥ、ＣａｎｃｅｒＧｅｎｏｍｅＡｔｌａｓ、Ｈｕｍａｎｍｉｃｒｏｂｉ－［１２］

ｏｍｅ等）得以完成或正在稳步推进。然而，在利用相关技术进行研究的同时也产生了规模庞大的数据，

［６］

倡基金项目：国家自然科学基金（６１３０１２２０，６１２０１４０８，６１３０１１１１）、江苏省“六大人才高峰”高层次人才项目（２０１０－ＤＺＸＸ－１４９，２０１２－ＷＬＷ－０２４）、江苏省产学研联合创新资金（前瞻性联合研究）项目（ＢＹ２０１３０６３－１０）资助项目

其累积速度已超过了摩尔定律（Ｍｏｏｒｅ’ｓＬａｗ）所标量

的计算机发展速度，形成了“生物医学大数据”（ｂｉｏ－

［１］

ｍｅｄｉｃａｌｂｉｇｄａｔａ）。当前，生物医学大数据处理的相关问题已成为生命科学研究发展的重要挑战。

云计算这种新型的计算模式在大数据背景下应运而生，并具有广泛的应用前景。云计算平台（云平台）供应商／供应方通过高速网络为云计算用户（云用户）提供可伸缩的存储和计算资源，而云用户可通过利用云平台的资源（计算、存储等）解决具体的大数据算机集群（ｃｌｕｓｔｅｒ）可提供一定的数据存储空间。但在研究的过程中使用的数据不仅包括本地数据库中的数据，还可能需要依靠外部数据库中的数据，这会导致本地存储空间不足的问题。让问题更加恶化的是，为了提高现有数据的可靠性及高可用性，当前一般采用冗余备份的策略，即一份数据至少保持３个及以上的副本。如当前使用的比较普遍的基于ＡＷＳ弹性云技术的计算平台，其数据存储即采用３个备份的策略。此外，数据处理过程也问题。用于生物医学大数据处理的云计算被称为“生物医学云计算”（ｂｉｏｍｅｄｉｃａｌｃｌｏｕｄｃｏｍｐｕｔｉｎｇ，生物云）［１３］

。本文将分析云计算在处理生物医学大数据方面的特点，归纳和总结常用的生物云解决方案，并对生物云的发展和挑战进行讨论。

２　生物医学大数据处理与云计算

由于生物医学研究问题的复杂性，对生物医学大数据的处理需要借助可靠的算法和高效的计算平台，而云计算恰能为生物医学大数据处理提供有力的平台支撑。２．１　数据存储

生物医学数据因其规模巨大而被归为生物医学领域的“大数据”。以高通量测序为例，单次测序产生

的数据量能达到ｇｉｇａｂａｓｅｓ（１０９

碱基）的量级，而一个实验室研究所需的测序数据量可以达到ｔｅｒａｂｙｔｅ（ＴＢ，１０１２）甚至ｐｅｔａｂｙｔｅ（ＰＢ，１０１５）［１４］

的量级。除实验数据之外，课题组一般还需从公共数据库获取数据。公共

数据库一般分为两类［１］

ｄａｔａｂａｓｅｓ：酸序列）。），常用的初级数据库有美国国立生物技术信

此类数据库存储了原始的生物数据一类是初级数据库（ｐｒｉｍａｒｙ（如核息中心（ＮＣＢＩ）的ＧｅｎＢａｎｋ［１５］

、欧洲生物信息研究所

（ＥＢＩ）［１６］、ＤＤＢＪ［１７］、ＧＥＯ［１８］

等；另一类是二级数据库（ｓｅｃｏｎｄａｒｙｄａｔａｂａｓｅｓ），这类数据库通过分析和处理初级数据库的数据，获得并存储了诸如二级结构、蛋白质结构域等数据信息ｂｌ。典型的二级数据库有Ｅｎｓｅｍ－［１９］、ＵＣＳＣ基因组浏览器［２０］、Ｇａｌａｘｙ［２１］

等。实验输出数据和数据库下载数据共同构成了数据处理环节的必要数据。

在进行数据处理分析之前，课题组面临的首要问题是如何存储数据。显然个人计算机无法满足存储要求，而一般所在研究机构的小型服务器和计

会产生各种类型的中间数据。上述问题的出现，对计算平台的存储容量、性能提出了更高的要求。

以往的计算集群往往采用集中存储的方案，多个计算节点共享／争夺同一个存储，如磁盘阵列等，而计算节点上空闲的存储空间几乎不使用（往往只用于存储少量计算过程中产生的临时数据），相对于存储能力有限的本地计算机集群，云计算供应商（如亚马逊、谷歌等）能够通过虚拟化技术，将所有节点上的资源，包括存储节点、计算节点等整合为各种资源池，以透明的方式为客户提供充沛的存储资源。云计算按照用户需求配给资源（如计算节点的个数、ＣＰＵ、内存、操作系统、软件等），而用户在获取资源时可随用随付（ｐａｙ－ａｓ－ｙｏｕ－ｇｏ）。如果选择采用云平台，生物／医学研究组织只需支付低廉的租赁费用，即可获得所需的存储和计算资源，而无须在购买、配置及管理存储空间上花费精力。另外，用户在数据处理过程中可对存储资源进行实时补充或剪裁。

云平台数据存储（云存储）为用户提供了良好的分布式数据存储环境。为了保证数据存储的可靠性，云存储系统通常采用冗余备份的方法，单个数据在存储系统中至少存在３个副本。在合适的算法支持下，数据可靠性至少可以达到ｚｏｎ９９．Ｂｕｃｋｅｔｓ＇ｓＳ３即是一种可靠的永久性存储系统９９９９％（６个９）。Ａｍａ－Ａｍａｚｏｎ参与构成备份［１３］

。的多个数据中心Ｓ３文件系统。其中的另外，云计算程序会在存储节点或其附近执，且每个文件在多个位置有

，并按地理位置分布在行计算功能，有助于高效计算。正是由于云存储的可靠性，有分析认为将基因组等数据和信息转移到云平

台的时代已经到来［１］

。例如，ＡＷＳ已存储了大量的生

物医学数据［１３］

２ｚｏｎ．２．　ｃｏｍ数据处理

／ｃｎ，／ｐｕｂｌｉｃｄａｔａｓｅｔｓ并向公众免费开放／）。

（ｈｔｔｐ：／／ａｗｓ．ａｍａ－传统的计算平台除了存储能力不足外，计算能

力也难以满足大数据的处理要求。

云计算是当前生物医学大数据处理的主要平

［２２］

台，其核心思想是一种称作ＭａｐＲｅｄｕｃｅ的可容

［２３－２４］

错（ｆａｕｌｔ－ｔｏｌｅｒａｎｔ）的并行计算策略。研究发现ＭａｐＲｅｄｕｃｅ的性能优于其他并行计算方式（如ＭＰＩ、Ｄｒｙａｄ）。ＭａｐＲｅｄｕｃｅ最初由商业公司Ｇｏｏｇｌｅ提出，其开源版本Ｈａｄｏｏｐ（Ａｐａｃｈｅ项目）已在生物医学大数据处理领域得到了广泛应用。Ｈａｄｏｏｐ具有以下优势：①源代码开放，便于传播；②提供开共享，用户可通过网络磁盘（ＮＦＳ）共享；②组织内部共享，可采用集中式存储，则组织内部成员可采用一致性方式访问，如数据库方式。另外，用户可通过远程访问方式（如ＦＴＰ、ＨＴＴＰ、ＳＶＮ等）实现共享。生物云借助以上网络共享方式为用户提供灵活便利的数据共享服务。生物／医学数据的产生者可以向生物云平台发布数据，而其他用户可在云内

［２６］

拷贝和处理数据。当前，大规模的合作项目要求在不同的研究机构间进行数据共享，这也是需要发接口，便于用户使用；③提供ＭａｐＲｅｄｕｃｅ计算框架，易于实现并行计算；④多个基于Ｈａｄｏｏｐ的大数据处理系统已经实现。

ＭａｐＲｅｄｕｃｅ生物医学大数据处理中的许多问题可借助于

的并行计算策略［２３］

加以解决。以高通量测序读段的映射为例，测序读段数据被分派到多个计算节点（Ｍａｐ），分别映射，最后将各节点的映射结果归并（Ｒｅｄｕｃｅ）。由于分配在各计算节点上的数据具有低耦合的特性，在计算过程中无需进行同步、通信等操作，实现了粗粒度的并行，其加速比往往与计算节点的数量呈线性关系。另外，对于耦合度较高的数据，如个体医疗诊断相关的高维度的数据分析，以及生物系统模拟等，由于计算过程需要频繁通信、同步，目前一般采用传统的高性能计算方法解决。

对于选用商业云的用户而言，他们只需对运行

的任务或虚拟机付费即可［２５］

，而不必考虑计算机硬件的配置以及系统运行所需的动力与冷却环境。而在使用ＭａｐＲｅｄｕｃｅ进行生物医学大数据处理时，生物信息学家需要考虑的仅是申请多少资源用于数据处理，以及如何配置ＭａｐＲｅｄｕｃｅ等，这也是生物云研究的重点。２．３　数据／方法／流程的共享

生物医学研究项目（特别是大型项目）一般需要由多个部门合作才能得以进行。例如，分子生物学、生物技术实验以及生物信息处理这３个部门／小组的合作最为常见。为了协同工作，项目成员间往往需要共享数据、方法以及流程等信息。

（１）数据共享

最直接的数据共享方式是通过移动存储介质进行拷贝。然而，这种共享方式受限于地理空间和数据规模。云平台由于配备了完善的网络服务，能够提供多样的基于网络的数据共享方案：①集群内

通过云计算实现数据共享的客观要求。

（２）方法共享

生物医学数据处理过程可能使用多种商业／开源的生物信息软件。这些软件可被添加到数字镜像（ｄｉｇｉｔａｌｉｍａｇｅ）中，以便与项目成员或者其他的研究者共享。例如，ＣｌｏｕｄＢｉｏＬｉｎｕｘ是一个基于云计算虚

拟技术的生物信息处理专用系统［２７］

，它包含了多种生物信息学软件、生物信息学代码库以及用于访问云存储的脚本。用户可以免费获取ＣｌｏｕｄＢｉｏＬｉｎｕｘ的虚拟机镜像，后在云平台上启动该镜像，再利用其中的生物信息处理软件进行相关研究。

（３）流程共享

对于公开发表的研究来说，其生物信息处理流程及参数也可被添加到虚拟机镜像中，并通过云平台发布。感兴趣的研究者可通过云平台获取镜像，后在启动该镜像后执行相关的处理流程，并重复相关实验。这一共享方式能有效重复并保存实验的过程信息。流程共享能够有效提高生物信息处理实验的可重复性（ｒｅｐｒｏｄｕｃｉｂｉｌｉｔｙ）。

综上，云计算在数据、方法、流程的共享方面具有良好的禀赋，它为生物医学大数据处理提供了良好的共享平台。尽管传统的生物信息处理实验由于流程复杂、人为因素及数据驱动（ｄａｔａ－ｄｒｉｖｅｎ）等特点因素而难以重复，但云平台多样的共享方式为实验重复提

供了有效的解决方法［２６］。例如，文献［２６］

提出了“整体系统快照交换（ＷＳＳＥ）”的概念，即将操作系统、应用软件、数据库等与研究结果产生相关的部件拷贝至一个数字镜像中，用于和其他研究者进行交换。

３　生物云解决方案

３．１　常见的生物云解决方案

当前常见的生物云解决方案如表１所示，主要涉及以下几方面如图１所示。

图１　生物云解决方案的基本模型

Ｆｉｇ．１　Ａｂａｓｉｃｍｏｄｅｌｏｆｂｉｏｍｅｄｉｃａｌｃｌｏｕｄｓｏｌｕｔｉｏｎｓ

３．１．１　获取云计算资源

考虑到一般生物云用户（如生物学家）尚缺乏配置和控制云资源的专业知识，生物云一般

［２８］

会为其提供相关接口。例如，ＧｌａｘｙＣｌｏｕｄＭａｎ向用户提供了配置和控制基于ＥＣ２云的计算环境。用户通过利用ＣｌｏｕｄＭａｎ提供的Ｗｅｂ界面，可在几分钟内完成Ｃｌｕｓｔｅｒ的配置。此外，它还提供云资源定制开发的自动化方法，以满足用

［２９］

户的特定需求。Ｃｌｏｕｄｇｅｎｅ也具有与Ｃｌｏｕｄ－Ｍａｎ类似的功能。商业化生物云（如ＤＮＡｎｅｘ－ｕｓ）为用户提供了更加丰富的云资源及用户支持。

表１　生物云的解决方案

Ｔａｂｌｅ１　Ｂｉｏｍｅｄｉｃａｌｃｌｏｕｄｓｏｌｕｔｉｏｎｓ　　　　　　　　　　　　　　

ＳｅｑｃｒａｗｌｅｒＥｎｇｉｎｅ

［３０］［３１］

方法名称功能

加载和询问ＳＮＶｓ、ｉｎｄｅｌｓ、

ｔｒａｎｓｌｏｃａｔｉｏｎｓ

１

云计算架构

Ｈｂａｓｅ、Ｈａｄｏｏｐ／ＭａｐＲｅｄｕｃｅ

ＧｅｎＯｕｅｓｔ

２

访问地址

ｈｔｔｐ：／／ｓｅｑｗａｒｅ．ｇｉｔｈｕｂ．ｉｏ／ｈｔｔｐ：／／ｓｏｕｒｃｅｆｏｒｇｅ．ｎｅｔ／ｐｒｏｊｅｃｔｓ／ｓｅｑｃｒａｗｌｅｒ／

元数据的存储和搜索

序列比对

ＣｌｏｕｄＢＬＡＳＴＢｉｏｄｏｏｐＣｏｎｔｒａｉｌＭｙｒｎａ

［３４］

Ｈａｄｏｏｐ／ＭａｐＲｅｄｕｃｅ、虚拟机

ＨＤＦＳ

３

［３５］

ＭａｐＲｅｄｕｃｅ、序列比对（ＢＬＡＳＴ）、表型分析（ＧＳＥＡ）、Ｈａｄｏｏｐ／数量性质基因关联分析（ＧＲＡＭＭＡＲ）

基因组装配基因差异表达分析

［３７］

ｈｔｔｐ：／／ｓｏｕｒｃｅｆｏｒｇｅ．ｎｅｔ／ｐｒｏｊｅｃｔｓ／ｂｉｏｄｏｏｐ／ｈｔｔｐ：／／ｃｏｎｔｒａｉｌ－ｂｉｏ．ｓｆ．ｎｅｔｈｔｔｐ：／／ｂｏｗｔｉｅ－ｂｉｏ．ｓｆ．ｎｅｔ／ｈｔｔｐ：／／ｃｌｏｕｄｂｕｒｓｔ－ｂｉｏ．ｓｏｕｒｃｅｆｏｒｇｅ．ｎｅｔ／ｈｔｔｐ：／／ｂｏｗｔｉｅ－ｂｉｏ．ｓｏｕｒｃｅｆｏｒｇｅ．ｎｅｔ／

４

［３９］

Ｈａｄｏｏｐ／ＭａｐＲｅｄｕｃｅＨａｄｏｏｐ／ＭａｐＲｅｄｕｃｅＨａｄｏｏｐ／ＭａｐＲｅｄｕｃｅＨａｄｏｏｐ／ＭａｐＲｅｄｕｃｅＨａｄｏｏｐ／ＭａｐＲｅｄｕｃｅ、Ｓ３

ＭａｐＲｅｄｕｃｅＭａｐＲｅｄｕｃｅ虚拟机虚拟机虚拟机ＥＣ２、ＥＢＳ

５

［４０］

ｍｙｒｎａ．ＣｌｏｕｄＢｕｒｓｔｃｒｏｓｓｂｏｗ／Ｅｏｕｌｓａｎｅｏｕｌｓａｎ／ＧＡＴＫＢｉｏ－ＣｉｒｒｕｓＳＩＭＰＬＥＸ

［４３］

序列比对

序列比对（Ｂｏｗｔｉｅ）＋ＳＯＡＰｓｎｐ序列比对、差异表达分析覆盖计算、ＳＮＰｃａｌｌｉｎｇ序列比对（Ｄｏｔｐｌｏｔ、ＢＬＡＳＴ）

Ｃｒｏｓｓｂｏｗ

［３８］

［４１］

［４２］

ｈｔｔｐ：／／ｗｗｗ．ｂｒｏａｄｉｎｓｔｉｔｕｔｅ．ｏｒｇ／ｇａｔｋ／

ｈｔｔｐ：／／ｗｗｗ．ｂｉｔｌａｂ－ｅｓ．ｃｏｍ／ｈｔｔｐ：／／ｃｌｏｕｄｂｉｏｌｉｎｕｘ．ｏｒｇ／ｈｔｔｐ：／／ｉｃｂｉ．ａｔ／ｓｏｆｔｗａｒｅ／ｓｉｍｐｌｅｘ／

ｈｔｔｐ：／／ｃｌｏｖｒ．ｏｒｇ

ＣｌｏｕｄＭａｎ／ＡＷＳ／ＧｅｔｔｉｎｇＳｔａｒｔｅｄ

ｈｔｔｐ：／／ｗｉｋｉ．ｇａｌａｘｙｐｒｏｊｅｃｔ．ｏｒｇ／ｈｔｔｐ：／／ｃｌｏｕｄｇｅｎｅ．ｕｉｂｋ．ａｃ．ａｔ／

ｈｔｔｐ：／／ｔｒａｎｓｃｒｉｐｔｏｍｅ．ｅｎｓ．ｆｒ／

ｃｌｏｕｄＣｌｏｕｄＢｉｏＬｉｎｕｘ序列比对、聚合、装配、系统发生树等

［２７］

［３２］

质量控制、序列比对、变体检测等

序列比对、序列分析、基因组装配、注释

构建和控制基于ＥＣ２的Ｃｌｕｓｔｅｒ、以及ＢｉｏＬｉｎｕｘ的处理方法

同ＣｌｏｕｄＭａｎ

ｓｉｍｐｌｅｘ．ｓｈｔｍｌＣｌｏＶＲ

ＣｌｏｕｄＭａｎ

［２８］

［３３］

Ｃｌｏｕｄｇｅｎｅ

［２９］

ＥＣ２、Ｈａｄｏｏｐ、Ｓ３

注：１．Ｈｂａｓｅ–ＨａｄｏｏｐＤａｔａｂａｓｅ，Ｈａｄｏｏｐ项目下的分布式数据库（ｈｔｔｐ：／／ｈｂａｓｅ．ａｐａｃｈｅ．ｏｒｇ／）；

２．ＧｅｎＯｕｅｓｔ–生物信息平台（ｈｔｔｐ：／／ｗｗｗ．ｇｅｎｏｕｅｓｔ．ｏｒｇ／）；

３．ＨＤＦＳ–ＨａｄｏｏｐＤｉｓｔｒｉｂｕｔｅｄＦｉｌｅＳｙｓｔｅｍ，Ｈａｄｏｏｐ项目下的分布式文件系统；４．Ｓ３–ＳｉｍｐｌｅＳｔｏｒａｇｅＳｅｒｖｉｃｅ，Ａｍａｚｏｎ的简单存储服务；５．ＥＢＳ–ＥｌａｓｔｉｃＢｌｏｃｋＳｔｏｒｅ，Ａｍａｚｏｎ的弹性块存储。

３．１．２　存储和搜索数据

用户可通过云平台提供的付费系统租赁包括计算和存储在内的云资源。一旦获取成功，用户便可将需要处理的数据上传至云存储空间。ＳｅｑＷａｒｅ即提供了一种用于在云平台上存储和搜索序列数

［３０］

据的引擎。ＳｅｑＷａｒｅ采用ＨＢａｓｅ作为数据库，向用户提供编程和交互询问的接口，以便用户进行ＳＮＶｓ、ｉｎｄｅｌｓ、ｔｒａｎｓｌｏｃａｔｉｏｎｓ等变体的上载和询问。

［３１］

Ｓｅｑｃｒａｗｌｅｒ提供的是一种在云环境下存储和搜备以上ＰａａＳ的一般属性外，还向用户提供了更加专业化的系统平台和生物技术相关的计算模块，如Ｂｉ－ｏＬｉｎｕｘ、ＳＩＭＰＬＥＸ、ＣｌｏＶＲ等。在ＰａａＳ下，生物云用户能够从事更加灵活的开发工作，如开发生物信息学软件、建立生物信息数据库、Ｗｅｂ服务器等。

为了达到高效的云计算性能，用户需要对云平台的基础设施资源（如虚拟机镜像、存储、防火墙、负载平衡器、ＶＬＡＮ等）进行配置和操作，这就涉及到ＩａａＳ。例如，用户可租赁基础设施资源，再在其索元数据的方法。３．１．３　运行和共享系统镜像

生物医学大数据处理用户可以运行专用的生

物云ＢｉｏＬｉｎｕｘ系统镜像（如ＣｌｏｕｄＢｉｏＬｉｎｕｘ［２７］

）。以图形用户软件为例，Ｃｌｏｕｄ、它为用户提供了预配置的命令行和截止至２０１３年１２月底，提供了至少１３５种生物信息软件包，且数据处理软件包的数量还在不断增加中。用户也可通过虚拟机的图形界面直接访问每个工具的完整文档。另一类方法

（ＳＩＭＰＬＥＸ［３２］、ＣｌｏＶＲ［３３］

等）则在数字镜像中封装相关的数据处理流程。３．１．４　配置和执行并行计算

基于ＭａｐＲｅｄｕｃｅ并行策略，多种生物医学大数据处理ＢＬＡＳＴ方法已经被开发并得到应用，如Ｃｌｏｕｄ－

［３４］Ｂｕｒｓｔ、Ｂｉｏｄｏｏｐ［３５］、Ｂｉｏ－Ｃｉｒｒｕｓ［３６］

、Ｃｌｏｕｄ－

［３７］、Ｃｒｏｓｓｂｏｗ［３８］、Ｃｏｎｔｒａｉｌ［３９］、Ｍｙｒｎａ［４０］

等。相关研究结果表明ＭａｐＲｅｄｕｃｅ并行策略可以显著提高生物医学大数据处理的效率。３．２　生物云所涉及的云计算服务模型

商业化云计算主要向用户提供软件即服务（ＳａａＳ）、平台即服务（ＰａａＳ）和基础设施即服务（ＩａａＳ）这３种基本的云计算服务模型。同样地，商业化生物云在向生物云用户提供生物医学数据处理／软件开发的服务过程中也涉及这３种服务模型。

在ＳａａＳ概念中，供应商向用户提供各种基于云计算平台的软件。类似地，生物云服务提供商在云平台安装配置了各种生物信息处理软件，而用户只需通过网页界面进行访问，后选择使用相关的生物信息处理软件。这种服务模式一般按月／年进行计费。

在ＰａａＳ概念中，云计算供应商向用户提供特定的计算平台，诸如操作系统、编程语言处理环境、数据库、Ｗｅｂ服务器、计算模块等。生物云除了已经具

上运行经过自行修改的ＢｉｏＬｉｎｕｘ镜像；用户也可基于ＩａａＳ提供的资源，对相关算法进行并行化处理等，构建符合自己特定需要的专用生物云平台。

生物云是云计算在生物医学大数据处理领域的应用，主要通过软件和操作系统层面向用户提供服务（即ＳａａＳ和ＰａａＳ），而基础设施一般不需要变动。３．３　生物云的用户操作流程

生物云用户可根据图２所示的流程进行生物医学大数据处理的相关操作。３．３．１　生物医学项目规划

该阶段主要搜集与课题相关的数据存储、处理算法、网络带宽、数据安全、经费预算等信息。如果待处理的生物／医学数据的数量巨大，而实验室或研究所无法满足数据存储的要求，则必须寻求生物

云的帮助。文献［４１］

就如何选择生物云介绍了一些参考方案。３．３．２　生物云的方案选择

一旦项目规划阶段决定采用生物云计算，则进入生物云的方案选择阶段。用户应该根据实际需要选择合适的云计算解决方案（表１）。例如，在没有任何硬件系统和软件平台的情况下，生物云用户可以直接选择采用商业化的ＤＮＡｎｅｘｕｓ作为生物医学数据处理平台。同时，ＤＮＡｎｅｘｕｓ还向用户提供了易操作的Ｗｅｂ访问方式。如果用户需要的是一个进行生物信息处理软件开发的平台，则可直接选用相应的平台／操作系统。另一方面，生物云方案可能会涉及相关模块的组合和搭配。例如，生物云供应商在向用户提供基础设施资源时，会向用户提供与租赁资源相关的Ｗｅｂ界面。而虚拟机镜像也是运行在一定的基础设施之上的。３．３．３　方案执行

在对生物云方案进行选择和确认之后，用户即

可开始执行方案。首先需要向生物云供应商租赁

云资源。具体的资源数量可参考项目规划阶段设定的需求。若采用商业云平台，数据存储则有相应的租赁价格（根据数据量的大小和存储的时间）。若要进行并行数据处理，则须申请一定数量的计算节点，以构成Ｃｌｕｓｔｅｒ。在各计算节点，用户启动镜像／虚拟机（如ＢｉｏＬｉｎｕｘ）。在计算处理阶段，用户可使用生物云中已有的生物信息处理软件或流程，也可使用自行开发的软件和脚本以解决具体的数据处理问题。如有必要，也可采用并行计算（如ＭａｐＲｅｄｕｃｅ）方法。最后，用户可以通过云平台对

结果进一步分析。

图２　生物云的操作流程

Ｆｉｇ．２　Ｓｃｈｅｄｕｌｅｆｏｒｏｐｅｒａｔｉｎｇｂｉｏｍｅｄｉｃａｌｃｌｏｕｄ

４　生物云面临的挑战

尽管生物云已在领域内得到应用，但其在资源

整合和有效利用方面仍然面临挑战。４．１　建立一致的生物云平台接口

现有的生物云主要包括商业化生物云、私有生物云及学术生物云这３种类别。其中每种生物云各有不同的机构予以实现，并面向各自的用户群。在数据存储方面，生物云之间存在着大量的冗余，且交互性不够好，这使得生物云的资源利用率达不到最优。因此，需要建立一致的生物云平台接口，以实现不同生物云之间的互联互访，使得生物云之间的资源能够充分共享，进而有助于生物医学大数据的处理。４．２　生物云的数据挖掘

生物云中存储了来源多样的生物医学数据，这

些数据能够帮助科学家揭示丰富的生命奥秘。当前的挑战即在于如何进行生物数据挖掘，即筛选出合适的数据、建立模型，进而通过高效的计算方法获得生物医学信息。

５　结论与展望

新一代生物医学技术的广泛应用使生物医学数据呈现爆炸性增长的趋势，生物医学研究由此进入大数据时代。相对于传统的生物医学数据处理环境，生物云在数据存储、计算处理、共享等方面具有优势，已经开始为生物医学大数据处理提供相关的解决方案，涉及序列比对、基因组装配及差异表达分析等生物信息处理的各个方面。未来有望建立能够整合多源生物医学数据的新型计算方法，以解决复杂的生物医学问题。

・　１１９６・电子测量与仪器学报

２０１０，１１（９）：６４７－６５７．

第２８卷

参考文献

［１］　ＳＴＥＩＮＬＤ．Ｔｈｅｃａｓｅｆｏｒｃｌｏｕｄｃｏｍｐｕｔｉｎｇｉｎｇｅｎｏｍｅ［２］　ＭＡＲＩＯＮＩＪＣ，ＭＡＳＯＮＣＥ，ＭＡＮＥＳＭ，ｅｔａｌ．

ｉｎｆｏｒｍａｔｉｃｓ［Ｊ］．ＧｅｎｏｍｅＢｉｏｌ，２０１０，１１（５）：２０７．

［１５］ＢＥＮＳＯＮＤＡ，ＫＡＲＳＣＨ－ＭＩＺＲＡＣＨＩＩ，ＬＩＰＭＡＮＤ

２０１０，３８（Ｓ１）：Ｄ４６－Ｄ５１．

Ｊ，ｅｔａｌ．ＧｅｎＢａｎｋ［Ｊ］．ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓｅａｒｃｈ，［１６］ＢＲＯＯＫＳＢＡＮＫＣ，ＣＡＭＯＮＥ，ＨＡＲＲＩＳＭＡ，ｅｔａｌ．

ＲＮＡａｎｄｃｏｍｐａｒｉｓｏｎ－ｓｅｑ：ａｎａｓｓｅｓｓｍｅｎｔｗｉｔｈｇｅｎｅｏｆｔｅｃｈｎｉｃａｌｒｅｐｒｏｄｕｃｉｂｉｌｉｔｙｎｏｍｅｒｅｓｅａｒｃｈ，２００８，１８（９）：ｅｘｐｒｅｓｓｉｏｎ１５０９－１５１７．

ａｒｒａｙｓ［Ｊ］．Ｇｅ－［３］　ＮＧＳＢ，ＢＵＣＫＩＮＧＨＡＭＫＪ，ＬＥＥＣ，ｅｔａｌ．Ｅｘｏｍｅ

ｓｅｑｕｅｎｃｉｎｇ［４］　ｄｉｓｏｒｄｅｒＪＯＨＮＳＯＮ［Ｊ］．ｉｄｅｎｔｉｆｉｅｓｔｈｅｃａｕｓｅｏｆａｍｅｎｄｅｌｉａｎＤＮａｔｕｒｅＳ，ＭＯＲＴＡＺＡＶＩＧｅｎｅｔｉｃｓ，２００９，Ａ，ＭＹＥＲＳ４２（１）：Ｒ３０－Ｍ３５．，ｅｔ

ａｌ．Ｇｅｎｏｍｅ－ｗｉｄｅｍａｐｐｉｎｇｏｆｉｎｖｉｖｏｐｒｏｔｅｉｎ－ＤＮＡｉｎ－

１４９７－ｔｅｒａｃｔｉｏｎｓ１５０２．

［Ｊ］．Ｓｃｉｅｎｃｅ，２００７，３１６（５８３０）：［５］　ＥＬ－ＭＡＡＲＲＩＯ．Ｍｅｔｈｏｄｓ：ＤＮＡｍｅｔｈｙｌａｔｉｏｎ，ｐｅｒｏｘｉ－

ｓｏｍａｌ２００４：ｄｉｓｏｒｄｅｒｓ１９７－２０４．

ａｎｄｒｅｇｕｌａｔｉｏｎｏｆｇｅｎｅｓ［Ｊ］．Ｓｐｒｉｎｇｅｒ，

［６］　ＬＩＧ，ＦＵＬＬＷＯＯＤＭＪ，ＸＵＨ，ｅｔａｌ．ＳｏｆｔｗａｒｅＣｈＩＡ－

ｙｓｉｓＰＥＴｗｉｔｈｔｏｏｌｐａｉｒｅｄｆｏｒｃｏｍｐｒｅｈｅｎｓｉｖｅ－ｅｎｄｔａｇｓｅｑｕｅｎｃｉｎｇｃｈｒｏｍａｔｉｎ［Ｊ］．ｉｎｔｅｒａｃｔｉｏｎＧｅｎｏｍｅＢｉｏｌｏａｎａｌ－－

［７］　Ｂｇｙ樿，ＮＦＡＩ２０１０，Ｂ，１１（２）：ＪＩＡＨ，ＲＫＨＡＴＵＮ２２．

Ｊ，ｅｔａｌ．Ｌｏｎｇｎｏｎｃｏｄ－

ｉｎｇＲＮＡｓａｒｅｒａｒｅｌｙｔｒａｎｓｌａｔｅｄｉｎｔｗｏｈｕｍａｎｃｅｌｌ１６４６－ｌｉｎｅｓ［１６５７．

Ｊ］．ＧｅｎｏｍｅＲｅｓｅａｒｃｈ，２０１２，２２（９）：［８］　ＳＩＶＡＮ．１０００Ｇｅｎｏｍｅｓｐｒｏｊｅｃｔ［Ｊ］．ＮａｔｕｒｅＢｉｏｔｅｃｈ－［９］　ＦＥＩＮＧＯＬＤｎｏｌｏｇｙ，２００８，Ｅ，２６（３）：ＧＯＯＤＰ２５６－，ＧＵＹＥＲ２５６．

Ｍ，ｅｔａｌ．ＴｈｅＥＮ－

ＣＯＤＥＳｃｉｅｎｃｅ（，ＥＮＣｙｃｌｏｐｅｄｉａ２００４，３０６（５６９６）：ｏｆＤＮＡ６３６－ｅｌｅｍｅｎｔｓ６４０．）ｐｒｏｊｅｃｔ［Ｊ］．［１０］ＣＥＬＮＩＫＥＲＳＥ，ＤＩＬＬＯＮＬＡ，ＧＥＲＳＴＥＩＮＭＢ，ｅｔ

２００９，ａｌ．Ｕｎｌｏｃｋｉｎｇ４５９（７２４９）：ｔｈｅｓｅｃｒｅｔｓ９２７－９３０．

ｏｆｔｈｅｇｅｎｏｍｅ［Ｊ］．Ｎａｔｕｒｅ，［１１］ＭＣＬＥＮＤＯＮＲ，ＦＲＩＥＤＭＡＮＡ，ＢＩＧＮＥＲＤ，ｅｔａｌ．

Ｃｏｍｐｒｅｈｅｎｓｉｖｅｇｌｉｏｂｌａｓｔｏｍａｇｅｎｅｓｇｅｎｏｍｉｃａｎｄｃｈａｒａｃｔｅｒｉｚａｔｉｏｎｃｏｒｅｐａｔｈｗａｙｓ［ｄｅｆｉｎｅｓＪ］．Ｎａｔｕｒｅｈｕｍａｎ２００８，４５５（７２１６）：１０６１－１０６８．，［１２］ＴＵＲＮＢＡＵＧＨＰＪ，ＬＥＹＲＥ，ＨＡＭＡＤＹＭ，ｅｔａｌ．

Ｔｈｅ４４９（７１６４）：ｈｕｍａｎｍｉｃｒｏｂｉｏｍｅ８０４－８１０．

ｐｒｏｊｅｃｔ［Ｊ］．Ｎａｔｕｒｅ，２００７，

［１３］ＦＵＳＡＲＯＶＡ，ＰＡＴＩＬＰ，ＧＡＦＮＩＥ，ｅｔａｌ．Ｂｉｏｍｅｄｉｃ－

ａｌｃｌｏｕｄｃｏｍｐｕｔｉｎｇＢｉｏｌｏｇｙｗｉｔｈＡｍａｚｏｎ，２０１１，ｗｅｂ７（８）：ｓｅｒｖｉｃｅｓｅ１００２１４７．［Ｊ］．［１４］ＳＣＨＡＤＴＰＬｏＳＣｏｍｐｕｔａｔｉｏｎａｌＥＥ，ＬＩＮＤＥＲＭＡＮＭＤ，ＳＯＲＥＮＳＯＮＪ，ｅｔ

ａｌｍｅｎｔ．Ｃｏｍｐｕｔａｔｉｏｎａｌａｎｄａｎａｌｙｓｉｓｓｏｌｕｔｉｏｎｓ［Ｊ］．Ｎａｔｕｒｅｔｏｌａｒｇｅ－ＲｅｖｉｅｗｓｓｃａｌｅｄａｔａＧｅｎｅｔｉｃｓｍａｎａｇｅ，

－

ＴｈｅｒｅｓｏｕｒｃｅｓＥｕｒｏｐｅａｎ［Ｊ］．ＮｕｃｌｅｉｃｂｉｏｉｎｆｏｒｍａｔｉｃｓＡｃｉｄｓＲｅｓｅａｒｃｈＩｎｓｔｉｔｕｔｅ，＇２００３，ｓｄａｔａ（１）：４３－５０．

３１［１７］ＳＵＧＡＷＡＲＡＨ，ＯＧＡＳＡＷＡＲＡＯ，ＯＫＵＢＯＫ，ｅｔ

ａｌＲｅｓｅａｒｃｈ．ＤＤＢＪ，ｗｉｔｈ２００８，ｎｅｗ３６（ｓｙｓｔｅｍＳ１）：ａｎｄＤ２２－ｆａｃｅＤ２４．

［Ｊ］．ＮｕｃｌｅｉｃＡｃｉｄｓ［１８］ＥＤＧＡＲＲ，ＤＯＭＲＡＣＨＥＶＭ，ＬＡＳＨＡＥ．Ｇｅｎｅｅｘ－

ｐｒｅｓｓｉｏｎｉｚａｔｉｏｎｓｅａｒｃｈ，ａｒｒａｙｏｍｎｉｂｕｓ２００２，ｄａｔａ：３０（１）：ｒｅｐｏｓｉｔｏｒｙＮＣＢＩｇｅｎｅ２０７－２１０．［Ｊｅｘｐｒｅｓｓｉｏｎ］．ＮｕｃｌｅｉｃａｎｄＡｃｉｄｓｈｙｂｒｉｄＲｅ－－［１９］ＦＬＩＣＥＫＰ，ＡＭＯＤＥＭＲ，ＢＡＲＲＥＬＬＤ，ｅｔａｌ．Ｅｎ－

４０（ｓｅｍｂｌｅＤ１）：２０１２Ｄ８４－［ＪＤ］．９０．

ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓｅａｒｃｈ，２０１２，［２０］ＦＵＪＩＴＡＰＡ，ＲＨＥＡＤＢ，ＺＷＥＩＧＡＳ，ｅｔａｌ．Ｔｈｅ

ＵＣＳＣＮｕｃｌｅｉｃｇｅｎｏｍｅｂｒｏｗｓｅｒｄａｔａｂａｓｅ：ｕｐｄａｔｅ２０１１［Ｊ］．［２１］ＤＧＯＥＣＫＳ８７６－Ｄ８８２．

Ａｃｉｄｓ

Ｒｅｓｅａｒｃｈ，

２０１１，

３９（Ｓ１）：

Ｊ，ＮＥＫＲＵＴＥＮＫＯＡ，ＴＡＹＬＯＲＪ，ｅｔａｌ．

ｃｅｓｓｉｂｌｅＧａｌａｘｙ：ｒｅｓｅａｒｃｈ，ａｉｎｒｅｐｒｏｄｕｃｉｂｌｅｃｏｍｐｒｅｈｅｎｓｉｖｅｔｈｅｌｉｆｅｓｃｉｅｎｃｅｓ，ａｎｄａｐｐｒｏａｃｈ［ｔｒａｎｓｐａｒｅｎｔｆｏｒｓｕｐｐｏｒｔｉｎｇＪ］．Ｇｅｎｏｍｅｃｏｍｐｕｔａｔｉｏｎａｌａｃ－１１（８）：Ｒ８６．

Ｂｉｏｌ，２０１０，

［２２］ＤＥＡＮＪ，ＧＨＥＭＡＷＡＴＳ．ＭａｐＲｅｄｕｃｅ：ｓｉｍｐｌｉｆｉｅｄｄａ－

ｔａｔｈｅｐｒｏｃｅｓｓｉｎｇＡＣＭ，２００８，ｏｎｌａｒｇｅ５１（１）：ｃｌｕｓｔｅｒｓ１０７－［１１３．

Ｊ］．Ｃｏｍｍｕｎｉｃａｔｉｏｎｓｏｆ［２３］ＴＡＹＬＯＲＲＣ．ＡｎｏｖｅｒｖｉｅｗｏｆｔｈｅＨａｄｏｏｐ／ＭａｐＲｅ－

ｄｕｃｅ／ＨＢａｓｅｆｒａｍｅｗｏｒｋ［Ｊ］．ＢＭＣａｎｄｉｔｓｂｉｏｉｎｆｏｒｍａｔｉｃｓｃｕｒｒｅｎｔａｐｐｌｉｃａｔｉｏｎｓ，２０１０，ｉｎ１１（ｂｉｏｉｎｆｏｒｍａｔｉｃｓＳ１２）：Ｓ１．

［２４］ＳＣＨＡＴＺＭＣ，ＬＡＮＧＭＥＡＤＢ，ＳＡＬＺＢＥＲＧＳＬ．

ＣｌｏｕｄｃｏｍｐｕｔｉｎｇａｎｄｔｈｅＤＮＡｄａｔａｒａｃｅ［Ｊ］．Ｎａｔｕｒｅ［２５］ＫＡＳＳＯＮＢｉｏｔｅｃｈｎｏｌｏｇｙＰＭ，．２０１０，Ｃｏｍｐｕｔａｔｉｏｎａｌ２８（７）：６９１．

ｂｉｏｌｏｇｙｉｎｔｈｅｃｌｏｕｄ：

ｍｅｔｈｏｄｓＳｙｍｐｏｓｉｕｍａｎｄｎｅｗｉｎｓｉｇｈｔｓｏｎＢｉｏｃｏｍｐｕｔｉｎｇｆｒｏｍｃｏｍｐｕｔｉｎｇ，ＷｏｒｌｄａｔｓｃａｌｅＳｃｉｅｎｔｉｆｉｃ［Ｃ］．２０１２：Ｐａｃｉｆｉｃ４５１－４５３．

．［２６］ＤＵＤＬＥＹＪＴ，ＢＵＴＴＥＡＪ．Ｉｎｓｉｌｉｃｏｒｅｓｅａｒｃｈｉｎｔｈｅ

ｅｒａ２０１０，ｏｆ２８（１１）：ｃｌｏｕｄｃｏｍｐｕｔｉｎｇ１１８１－１１８５．

［Ｊ］．Ｎａｔｕｒｅｂｉｏｔｅｃｈｎｏｌｏｇｙ，［２７］ＫＲＡＭＰＩＳＫ，ＢＯＯＴＨＴ，ＣＨＡＰＭＡＮＢ，ｅｔａｌ．Ｃｌｏｕｄ

ＢｉｏＬｉｎｕｘｉｃｓｃｏｍｐｕｔｉｎｇ：ｐｒｅ－ｆｏｒｃｏｎｆｉｇｕｒｅｄｔｈｅｇｅｎｏｍｉｃｓａｎｄｏｎｃｏｍｍｕｎｉｔｙ－ｄｅｍａｎｄｂｉｏｉｎｆｏｒｍａｔ［Ｊ］．ＢＭＣ

－

　第１１期生物医学大数据处理的云计算解决方案

２００９，１０（１１）：Ｒ１３４．

・　１１９７・

［２８］ＡＦＧＡＮＥ，ＢＡＫＥＲＤ，ＣＯＲＡＯＲＮ，ｅｔａｌ．Ｇａｌａｘｙ

ＣｌｏｕｄＭａｎ：ｄｅｌｉｖｅｒｉｎｇｃｌｏｕｄｃｏｍｐｕｔｅｃｌｕｓｔｅｒｓ［Ｊ］．［２９］ＳＣＨ湣ＮＨＥＲＲＳ，ＦＯＲＥＲＬ，ＷＥＩ？ＥＮＳＴＥＩＮＥＲＨ，

ｅｔａｌ．Ｃｌｏｕｄｇｅｎｅ：ａｇｒａｐｈｉｃａｌｅｘｅｃｕｔｉｏｎｐｌａｔｆｏｒｍｆｏｒＭａｐＲｅｄｕｃｅｐｒｏｇｒａｍｓｏｎｐｒｉｖａｔｅａｎｄｐｕｂｌｉｃｃｌｏｕｄｓ［Ｊ］．ＢＭＣＢｉｏｉｎｆｏｒｍａｔｉｃｓ，２０１２，１３（１）：２００．ＢＭＣｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２０１０，１１（Ｓ１２）：Ｓ４．

Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２０１２，１３（１）：４２．

［３９］ＳＣＨＡＴＺＭＣ，ＳＯＭＭＥＲＤ，ＫＥＬＬＥＹＤ，ｅｔａｌ．Ｄｅ

ｎｏｖｏａｓｓｅｍｂｌｙｏｆｌａｒｇｅｇｅｎｏｍｅｓｕｓｉｎｇｃｌｏｕｄｃｏｍｐｕｔｉｎｇ［Ｊ］．ＣＳＨＬＢｉｏｌｏｇｙｏｆＧｅｎｏｍｅｓＣｏｎｆｅｒｅｎｃｅ，２０１０．［４０］ＬＡＮＧＭＥＡＤＢ，ＨＡＮＳＥＮＫ，ＬＥＥＫＪ．Ｃｌｏｕｄ－ｓｃａｌｅ

ＲＮＡ－ｓｅｑｕｅｎｃｉｎｇｄｉｆｆｅｒｅｎｔｉａｌｅｘｐｒｅｓｓｉｏｎａｎａｌｙｓｉｓｗｉｔｈ［４１］ＲＯＳＥＮＴＨＡＬＡ，ＭＯＲＫＰ，ＬＩＭＨ，ｅｔａｌ．Ｃｌｏｕｄ

ｆｏｒｍａｔｉｏｎｓｈａｒｉｎｇ［Ｊ］．ＪｏｕｒｎａｌｏｆＢｉｏｍｅｄｉｃａｌＩｎｆｏｒｍａｔ－ｃｏｍｐｕｔｉｎｇ：ａｎｅｗｂｕｓｉｎｅｓｓｐａｒａｄｉｇｍｆｏｒｂｉｏｍｅｄｉｃａｌｉｎ－Ｍｙｒｎａ［Ｊ］．ＧｅｎｏｍｅＢｉｏｌｏｇｙ，２０１０，１１（８）：Ｒ８３．

［３０］Ｏ＇ＣＯＮＮＯＲＢ，ＭＥＲＲＩＭＡＮＢ，ＮＥＬＳＯＮＳ．ＳｅｑＷａｒｅ

ｑｕｅｒｙｅｎｇｉｎｅ：ｓｔｏｒｉｎｇａｎｄｓｅａｒｃｈｉｎｇｓｅｑｕｅｎｃｅｄａｔａｉｎ１１（ｔｈｅＳ１２）：ｃｌｏｕｄＳ［２．

Ｊ］．ＢＭＣ

Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２０１０，

［３１］ＳＡＬＬＯＵＯ，ＢＲＥＴＡＵＤＥＡＵＡ，ＲＯＵＬＴＡ．Ｓｅ－

ｑｃｒａｗｌｅｒｆｏｒｍ［Ｊ］．：ｂｉｏｌｏｇｉｃａｌＢＭＣＢｉｏｉｎｆｏｒｍａｔｉｃｓｄａｔａｉｎｄｅｘｉｎｇ，２０１２，ａｎｄ１３（１）：ｂｒｏｗｓｉｎｇ１７５．

ｐｌａｔ－［３２］ＦＩＳＣＨＥＲＭ，ＳＮＡＪＤＥＲＲ，ＰＡＢＩＮＧＥＲＳ，ｅｔａｌ．

ｓｉｖｅＳＩＭＰＬＥＸ：ｃｌｏｕｄ－ｅｎａｂｌｅｄｐｉｐｅｌｉｎｅｆｏｒｔｈｅｃｏｍｐｒｅｈｅｎ－［３３］ＯｎｅＡＮＧＩＵＯＬＩ，ａｎａｌｙｓｉｓ２０１２，Ｓ７（８）：ｏｆｅｘｏｍｅＶ，ＭＡＴＡＬＫＡｅ４１９４８．

ｓｅｑｕｅｎｃｉｎｇｄａｔａ［Ｊ］．ＰＬｏＳＭ，ＧＵＳＳＭＡＮＡ，ｅｔａｌ．

ＣｌｏＶＲｓｅｑｕｅｎｃｅ：ａａｎａｌｙｓｉｓｖｉｒｔｕａｌｍａｃｈｉｎｅｆｒｏｍｔｈｅｄｅｓｋｔｏｐｆｏｒａｕｔｏｍａｔｅｄｕｓｉｎｇｃｌｏｕｄａｎｄｐｏｒｔａｂｌｅｔｉｎｇ［Ｊ］．ＢＭＣＢｉｏｉｎｆｏｒｍａｔｉｃｓ，２０１１，１２（１）：３５６．ｃｏｍｐｕ－

［３４］ＭＡＴＳＵＮＡＧＡＡ，ＴＳＵＧＡＷＡＭ，ＦＯＲＴＥＳＪ．Ｃｌｏｕｄ－

ｂｌａｓｔｔｒｉｂｕｔｅｄ：ｃｏｍｂｉｎｉｎｇｍａｐｒｅｄｕｃｅａｎｄｖｉｒｔｕａｌｉｚａｔｉｏｎＩＥＥＥ

ｒｅｓｏｕｒｃｅｓｆｏｒｂｉｏｉｎｆｏｒｍａｔｉｃｓａｐｐｌｉｃａｔｉｏｎｓｏｎ［Ｃｄｉｓ］．－ｅＳｃｉｅｎｃｅ，Ｆｏｕｒｔｈ

２００８．

Ｉｎｔｅｒｎａｔｉｏｎａｌ

Ｃｏｎｆｅｒｅｎｃｅ

ｏｎ

［３５］ＬＥＯＳ，ＳＡＮＴＯＮＩＦ，ＺＡＮＥＴＴＩＧ．Ｂｉｏｄｏｏｐ：ｂｉｏｉｎｆｏｒ－

ｍａｔｉｃｓｅｎｃｅｏｎｏｎＰａｒａｌｌｅｌｈａｄｏｏｐＰｒｏｃｅｓｓｉｎｇ．ＩＣＰＰＷＷｏｒｋｓｈｏｐｓ＇０９．Ｉｎｔｅｒｎａｔｉｏｎａｌ，２００９．

Ｃｏｎｆｅｒ－［３６］ＫＡＲＬＳＳＯＮＴＪＭ，ＴＩＲＡＤＯ湤Ｔ，ＲＡＭＥＴＤ，ｅｔａｌ．

ｉｃｓＢｉｏ－ａｐｐｌｉｃａｔｉｏｎｓｃｉｒｒｕｓ：ａｆｒａｍｅｗｏｒｋｗｉｔｈｃｌｏｕｄｆｏｒｒｕｎｎｉｎｇｃｏｍｐｕｔｉｎｇｌｅｇａｃｙｒｅｓｏｕｒｃｅｓｂｉｏｉｎｆｏｒｍａｔ［Ｊ］．－２０１３：Ａｄｖａｎｃｅｓ２００－２０７．

ｉｎＣｏｍｐｕｔａｔｉｏｎａｌＩｎｔｅｌｌｉｇｅｎｃｅ：Ｓｐｒｉｎｇｅｒ，［３７］ＳＣＨＡＴＺＭＣ．ＣｌｏｕｄＢｕｒｓｔ：ｈｉｇｈｌｙｓｅｎｓｉｔｉｖｅｒｅａｄｍａｐ－

２５（１１）：１３６３－ｐｉｎｇｗｉｔｈＭａｐＲｅｄｕｃｅ１３６９．

［Ｊ］．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２００９，［３８］ＬＡＮＧＭＥＡＤＢ，ＳＣＨＡＴＺＭＣ，ＬＩＮＪ，ｅｔａｌ．Ｓｅａｒｃｈ－

ｉｎｇｆｏｒＳＮＰｓｗｉｔｈｃｌｏｕｄｃｏｍｐｕｔｉｎｇ［Ｊ］．ＧｅｎｏｍｅＢｉｏｌ，

作者简介

ｉｃｓ，２０１０，４３（２）：３４２－３５３．

孙磊，１９８４年出生，２０１３年于中国矿业大学获得博士学位，现为扬州大学信息工程学院讲师，研究方向为信号与信息处理、生物信息学。Ｅ－ｍａｉｌｉｎｇｎｏｌｏｇｙ（Ｓｕｎ：ｌｅｉｓｕｎｃｕｍｔＤＥ）Ｌｅｉｄｅｇｒｅｅｗａｓｆｒｏｍｂｏｒｎ＠ｙａｈｏｏ．ｃｏｍ

Ｃｈｉｎａｉｎ１９８４，Ｕｎｉｖｅｒｓｉｔｙｒｅｃｅｉｖｅｄｏｆｄｏｃｔｏｒｏｆｅｎｇｉｎｅｅｒ－

ｍａｔｉｏｎｉｎ２０１３，ａｎｄｎｏｗｈｅｉｓａｌｅｃｔｕｒｅｒｉｎＭｉｎｉｎｇＳｃｈｏｏｌａｎｄＴｅｃｈ－ｓｅａｒｃｈｂｉｏｉｎｆｏｒｍａｔｉｃｓｉｎｔｅｒｅｓｔｓＥｎｇｉｎｅｅｒｉｎｇｉｎｃｌｕｄｅｏｆｓｉｇｎａｌＹａｎｇｚｈｏｕａｎｄｉｎｆｏｍａｔｉｏｎＵｎｉｖｅｒｓｉｔｙ，ｐｒｏｃｅｓｓｉｎｇａｎｄｏｆｈｉｓＩｎｆｏｒａｎｄｒｅ－－胡学龙，１９６０．

年出生，现为扬州大学教授，研究方向

为信号与信息处理。

Ｅ－ｍａｉｌ：ｘｌｈｕ＠ｙｚｕ．ｅｄｕ．ｃｎ

ｎａｌＹａｎｇｚｈｏｕＨｕＸｕｅｌｏｎｇａｎｄｉｎｆｏｒｍａｔｉｏｎＵｎｉｖｅｒｓｉｔｙｗａｓｐｒｏｃｅｓｓｉｎｇ，ａｎｄｂｏｒｎｈｉｓｉｎ１９６０，．ｒｅｓｅａｒｃｈａｎｄｉｎｔｅｒｅｓｔｓｈｅｉｓａｉｎｃｌｕｄｅｐｒｏｆｅｓｓｏｒｓｉｇｉｎ

－

张晓斌，１９７２年出生，现为扬州大学讲师，研究方向

为高性能计算、云计算。Ｅ－ｍａｉｌＺｈａｎｇ：ｚｘｂ＠Ｘｉａｏｂｉｎｙｚｕ．ｅｄｕｗａｓ．ｃｎ

ｉｎｂｏｒｎｉｎ１９７２，ａｎｄｈｅｉｓａｌｅｃｔｕｒｅｒ

ｈｉｇｈＹａｎｇｚｈｏｕ李云ｐｅｒｆｏｒｍａｎｃｅＵｎｉｖｅｒｓｉｔｙ，１９６５年出生ｃｏｍｐｕｔｉｎｇ，ａｎｄ，现为扬州大学教授ａｎｄｈｉｓｃｌｏｕｄｒｅｓｅａｒｃｈｃｏｍｐｕｔｉｎｇｉｎｔｅｒｅｓｔｓ，研究方向为

．ｉｎｃｌｕｄｅ概念格、数据挖掘、云计算。Ｅ－ｍａｉｌＬｉ：Ｙｕｎｌｉｙｕｎ＠ｗａｓｙｚｕｂｏｒｎ．ｅｄｕ．ｉｎｃｎ

１９６５，ａｎｄｃｅｐｔＹａｎｇｚｈｏｕｌａｔｔｉｃｅＵｎｉｖｅｒｓｉｔｙ，ｄａｔａｍｉｎｉｎｇ，ａｎｄａｎｄｈｉｓｃｌｏｕｄｒｅｓｅａｒｃｈｃｏｍｐｕｔｉｎｇｉｎｔｅｒｅｓｔｓｈｅｉｓａ．

ｉｎｃｌｕｄｅｐｒｏｆｅｓｓｏｒｃｏｎｉｎ

－

生物医学大数据处理的云计算解决方案

作者：

作者单位：刊名：英文刊名：年，卷(期)：

孙磊，胡学龙，张晓斌，李云， Sun Lei， Hu Xuelong， Zhang Xiaobin， Li Yun扬州大学信息工程学院扬州225127

电子测量与仪器学报

Journal of Electronic Measurement and Instrumentation2014(11)

引用本文格式：孙磊. 胡学龙. 张晓斌. 李云. Sun Lei. Hu Xuelong. Zhang Xiaobin. Li Yun 生物医学大数据处理的云计算解决方案[期刊论文]-电子测量与仪器学报 2014(11)

与《生物医学大数据处理的云计算解决方案》相关的范文

06-25 两岸生医产业交流合作计划草案(招商)

两岸生医产业交流合作计划草案一、合作机构︰ 1.台湾方面︰工业技术研究院生技与医药研究所和美国华肝基因股份有限公司（GeneHealthUSAInc.）。 2.大陆方面︰福建泉州绿谷基地生技产业孵化中心泉州华肝预防医学中心。 3.主要运作方面︰○○○○生物预防医学中心和○○○○健康小站。（§招募加盟对象）二、合作方式︰ 1.台湾方面︰ a.提供台湾生物科技产品、生医技术； b.提供和交换台湾、 ...

09-26 大学2014年迎新策划书

大学20XX年迎新策划书一.广东药学院简介广东药学院坐落在风光旖旎的岭南历史文化名城、改革开放的前沿-广州市，由位于广州的广州大学城校区、赤岗校区、宝岗校区和位于孙中山故乡的中山校区四个部分组成，其中大学城校区是主校区，校园占地面积190多万平方米。广东药学院是我国独立建制的三所高等药科大学之一，广东省热门高校，广东省培养药学、预防医学和临床医学人才的摇篮，广东省国家执业药师培训中心，广东省医 ...

08-29 2014年上海市"医疗质量万里行"活动实施方案

　为深入贯彻落实《卫生部办公厅关于印发<20XX年“医疗质量万里行”活动方案>的通知》（卫办医政发〔20xx〕82号）的精神，结合医院管理年活动和“平安医院”创建工作，根据本市实际情况，特制定本方案。　　一、指导思想　　深入贯彻落实党的十七大、十七届三中全会和中央经济工作会议精神，认真学习实践科学发展观，坚持以人为本，以病人为中心，保证医疗质量和医疗安全，保障患者合法权益，努力为 ...

12-11 辅修专业教学计划

《生物技术》辅修专业教学计划一、专业培养目标本辅修专业培养生物技术及其相关领域的应用型人才。二、专业培养要求本辅修专业的学生通过学习可获得以下几方面知识、能力和素质： 1、掌握生命科学和生物技术等方面的基本理论和基本知识，具有一定的生物工程原理的基础知识； 2、掌握生物技术方面的基本实验技能； 3、具有综合运用所掌握的理论知识和技能，从事生物技术及其相关领域产品研发、生产、管理的能力； 4 ...

03-24 各类奖学金.各种称号.各种职位中英文对照(个人简历用得上)

各类奖学金、各种称号、各种职位中英文对照(个人简历用得上) 一、国家及校级奖项、称号国家奖学金 NationalScholarship 国家励志奖学金 NationalEncouragementscholarship 三好学生标兵 PacemakertomeritStudent 三好学生 meritStudent 学习优秀生 modelStudentofAcademicRecords 突出才能 ...

02-25 药品生产质量管理制度

　　第一章总则　　第一条根据《中华人民共和国药品管理法》规定，制定本规范。　　第二条本规范是药品生产和质量管理的基本准则。适用于药品制剂生产的全过程、原料药生产中影响成品质量的关键工序。　　第二章机构与人员　　第三条药品生产企业应建立生产和质量管理机构。各级机构和人员职责应明确，并配备一定数量的与药品生产相适应的具有专业知识、生产经验及组织能力的管理人员和技术人员。　　第 ...

12-11 生产环保实习报告

生产环保实习报告一、实习目的：在大学学习了三年的基础和专业知识，在五月份迎来了为期三个星期的生产实习。在学校通过系统的理论学习，逐步掌握了水污染处理和大气污染控制的各种工艺和方法，但是，理性的认识有点抽象，为了更好的将我们的所学知识应用到实际中，也为了将来毕业后可以更好更快的融入环保类的工作中，我们也需要一定的感性认识，学院结合我们学生的实际，联系单位，组织我们进行生产实习。也为我们提供了一个 ...

06-02 相声:大学新变化

相声：大学新变化 -作者：姜博甲：在场的观众朋友们，相声演员姜博乙：阿宝。甲乙：大家晚上好！甲：今天是第二次来到垦区参加比赛，能够站在这个舞台上心里特别的高兴乙：这倒是！甲：在这里我想要特别的感谢一个人，就是我的搭档阿宝！乙：唉，客气客气！甲：为什么这么说呢，因为他今天是抱病演出乙：唉，小毛病，就是来时候一路上颠簸的甲：那是茶不思饭不想啊乙：我那是高兴的甲：大家瞧瞧这张脸都 ...

11-17 竞聘演讲稿(6)

竞争上岗是我国人事制度改革的重大举措，这一制度的推行，可以促进实行人才资源与工作职位的合理配置，有效推动各项工作的发展。基于这一认识，我报名竞争基础教研室主任岗位。不少同志对我不参与正科岗位竞争感到难以理解，我主要是考虑两个原因：其一我认为岗位是正科或副科并非最重要，重要的是这个岗位是否有利于个人专长和优势的发挥。任教24年，我与教学工作结下不解之缘，积累了一定的教学和管理经验，在最接近教学第一线 ...

05-26 老师竞聘演讲稿

尊敬的各位领导、评委、老师、同志们：你们好！感谢学校为我提供了这次演讲机会，向大家介绍自己，接受检验和挑战，希望大家信任我、支持我。竞争上岗是我国人事制度改革的重大举措，这一制度的推行，可以促进实行人才资源与工作职位的合理配置，有效推动各项工作的发展。基于这一认识，我报名竞争基础教研室主任岗位。不少同志对我不参与正科岗位竞争感到难以理解，我主要是考虑两个原因：其一我认为岗位是正科或副科并非最重 ...

生物医学大数据处理的云计算解决方案

·客运公司队长讲岗材料

·电子测量实训报告

·2013就业洽谈会议邀请函

·2013工程部年终总结及2014工作计划

·学校防溺水事故应急预案

·彼得林奇传读后感

·三年级语文暑假作业10

·半斤八两的歌词

·课本剧表演

·贵州省公路路政管理条例

·学校人防教育工作总结

·大学生三下乡心得体会400字

·公司专业骨干培训班培训心得体会

·节日期间加强消防安全讲话稿

·初中数学一元二次方程应用题

·高考体检肝功能标准

·员工合规教育心得

·职业行为准则

·三级安全生产培训测试题及答案

·有一种快乐叫"读书"