生物医学大数据处理的云计算解决方案
第28卷 第11期・ 1190・
电子测量与仪器学报
JOURNALOFELECTRONICMEASUREMENTANDINSTRUMENTATION
Vol畅28 No畅112014年11月
DOI:10.13382/j.jemi.2014.11.003
生物医学大数据处理的云计算解决方案
孙 磊 胡学龙 张晓斌 李 云
(扬州大学信息工程学院扬州225127)
倡
摘 要:随着二代测序、质谱分析、医学影像等生物医学技术的发展和应用,生物医学数据呈现爆炸性增长趋势,其处理面临数据量大、计算强度大、维度高等问题。云计算在资源分配、数据存储、计算、共享等方面具有优势,能够帮助解决生物医学大数据处理的相关问题。深入分析了云计算在生物医学大数据处理方面的特点,归纳总结了常见的生物云计算解决方案,对生物云计算的发展和挑战进行了展望。有望建立能够整合多源生物医学数据的新型计算方法,以解决复杂的生物医学问题。
关键词:生物医学技术;二代测序;医学影像;大数据;云计算
中图分类号:TP3;R318.04 文献标识码:A 国家标准学科分类代码:520.30;180.1410
Cloudcomputingsolutionsforprocessingbiomedicaldata
SunLei HuXuelong ZhangXiaobin LiYun
(SchoolofInformationEngineering,YangzhouUniversity,Yangzhou225127,China)
Abstract:Withthedevelopmentandapplicationofbiomedicaltechniquessuchassecondgenerationsequencing,massspectrometryandmedicalimaging,thebiomedicaldatahavebeengrowingexplosively.However,thebiomedicaldataprocessingisfacedwithmanyproblemssuchasbigdatavolume,highlyintensivecomputationandhighdimension.Cur-computingforprocessingbiomedicaldata.Thenseveralcommonlyusedsolutionsofbiomedicalcloudcomputingweresummarized.Thedevelopmentandchallengesofthebiomedicalcloudcomputingwerefurtherdiscussed.Itishopefultocreatenovelcomputingmethodsbycombiningmulti-sourcebiomedicaldataforsolvingcomplexbiomedicalproblems.Keywords:biomedicaltechniques;secondgenerationsequencing;medicalimaging;bigdata;cloudcomputing
rentbigdataproblemsaboutbiomedicalresearchcanbesolvedbycloudcomputing,whichrepresentsadvantagesonre-sourceallocation,datastorage,computationandsharing.Thispaperfirstcomprehensivelyanalyzedfeaturesofthecloud
1 引 言
近二十年来生命科学研究在生物医学技术的推动下得到了快速发展。特别是高通量测序技术(或称为二代测序、下一代测序)凭借其优良的测序性能和
[1]
低廉价格(每5个月价格降一半)在领域内得到了
[2]
广泛应用。二代测序同时衍生出了RNA-seq、ex-
[3][4][5]
ome-seq、ChIP-seq、DNA甲基化测序、染色质交
收稿日期:2014-11 ReceivedDate:2014-11
互分析等针对特定生物分子或靶标的测序方法。
[7]
另外,蛋白质质谱分析法被用于蛋白质组学研究,医学影像(如CT、核磁共振MRI)已成为医学研究及诊断的常用技术。在新型生物技术的协助下,大型生
[8][9]
物/医学项目(如1000基因组、ENCODE、modEN-
[10][11]
CODE、CancerGenomeAtlas、Humanmicrobi-[12]
ome等)得以完成或正在稳步推进。然而,在利用相关技术进行研究的同时也产生了规模庞大的数据,
[6]
倡基金项目:国家自然科学基金(61301220,61201408,61301111)、江苏省“六大人才高峰”高层次人才项目(2010-DZXX-149,2012-WLW-024)、江苏省产学研联合创新资金(前瞻性联合研究)项目(BY2013063-10)资助项目
其累积速度已超过了摩尔定律(Moore’sLaw)所标量
的计算机发展速度,形成了“生物医学大数据”(bio-
[1]
medicalbigdata)。当前,生物医学大数据处理的相关问题已成为生命科学研究发展的重要挑战。
云计算这种新型的计算模式在大数据背景下应运而生,并具有广泛的应用前景。云计算平台(云平台)供应商/供应方通过高速网络为云计算用户(云用户)提供可伸缩的存储和计算资源,而云用户可通过利用云平台的资源(计算、存储等)解决具体的大数据算机集群(cluster)可提供一定的数据存储空间。但在研究的过程中使用的数据不仅包括本地数据库中的数据,还可能需要依靠外部数据库中的数据,这会导致本地存储空间不足的问题。让问题更加恶化的是,为了提高现有数据的可靠性及高可用性,当前一般采用冗余备份的策略,即一份数据至少保持3个及以上的副本。如当前使用的比较普遍的基于AWS弹性云技术的计算平台,其数据存储即采用3个备份的策略。此外,数据处理过程也问题。用于生物医学大数据处理的云计算被称为“生物医学云计算”(biomedicalcloudcomputing,生物云)[13]
。本文将分析云计算在处理生物医学大数据方面的特点,归纳和总结常用的生物云解决方案,并对生物云的发展和挑战进行讨论。
2 生物医学大数据处理与云计算
由于生物医学研究问题的复杂性,对生物医学大数据的处理需要借助可靠的算法和高效的计算平台,而云计算恰能为生物医学大数据处理提供有力的平台支撑。2.1 数据存储
生物医学数据因其规模巨大而被归为生物医学领域的“大数据”。以高通量测序为例,单次测序产生
的数据量能达到gigabases(109
碱基)的量级,而一个实验室研究所需的测序数据量可以达到terabyte(TB,1012)甚至petabyte(PB,1015)[14]
的量级。除实验数据之外,课题组一般还需从公共数据库获取数据。公共
数据库一般分为两类[1]
databases:酸序列)。),常用的初级数据库有美国国立生物技术信
此类数据库存储了原始的生物数据一类是初级数据库(primary(如核息中心(NCBI)的GenBank[15]
、欧洲生物信息研究所
(EBI)[16]、DDBJ[17]、GEO[18]
等;另一类是二级数据库(secondarydatabases),这类数据库通过分析和处理初级数据库的数据,获得并存储了诸如二级结构、蛋白质结构域等数据信息bl。典型的二级数据库有Ensem-[19]、UCSC基因组浏览器[20]、Galaxy[21]
等。实验输出数据和数据库下载数据共同构成了数据处理环节的必要数据。
在进行数据处理分析之前,课题组面临的首要问题是如何存储数据。显然个人计算机无法满足存储要求,而一般所在研究机构的小型服务器和计
会产生各种类型的中间数据。上述问题的出现,对计算平台的存储容量、性能提出了更高的要求。
以往的计算集群往往采用集中存储的方案,多个计算节点共享/争夺同一个存储,如磁盘阵列等,而计算节点上空闲的存储空间几乎不使用(往往只用于存储少量计算过程中产生的临时数据),相对于存储能力有限的本地计算机集群,云计算供应商(如亚马逊、谷歌等)能够通过虚拟化技术,将所有节点上的资源,包括存储节点、计算节点等整合为各种资源池,以透明的方式为客户提供充沛的存储资源。云计算按照用户需求配给资源(如计算节点的个数、CPU、内存、操作系统、软件等),而用户在获取资源时可随用随付(pay-as-you-go)。如果选择采用云平台,生物/医学研究组织只需支付低廉的租赁费用,即可获得所需的存储和计算资源,而无须在购买、配置及管理存储空间上花费精力。另外,用户在数据处理过程中可对存储资源进行实时补充或剪裁。
云平台数据存储(云存储)为用户提供了良好的分布式数据存储环境。为了保证数据存储的可靠性,云存储系统通常采用冗余备份的方法,单个数据在存储系统中至少存在3个副本。在合适的算法支持下,数据可靠性至少可以达到zon99.Buckets'sS3即是一种可靠的永久性存储系统9999%(6个9)。Ama-Amazon参与构成备份[13]
。的多个数据中心S3文件系统。其中的另外,云计算程序会在存储节点或其附近执,且每个文件在多个位置有
,并按地理位置分布在行计算功能,有助于高效计算。正是由于云存储的可靠性,有分析认为将基因组等数据和信息转移到云平
台的时代已经到来[1]
。例如,AWS已存储了大量的生
物医学数据[13]
2zon.2. com数据处理
/cn,/publicdatasets并向公众免费开放/)。
(http://aws.ama-传统的计算平台除了存储能力不足外,计算能
力也难以满足大数据的处理要求。
云计算是当前生物医学大数据处理的主要平
[22]
台,其核心思想是一种称作MapReduce的可容
[23-24]
错(fault-tolerant)的并行计算策略。研究发现MapReduce的性能优于其他并行计算方式(如MPI、Dryad)。MapReduce最初由商业公司Google提出,其开源版本Hadoop(Apache项目)已在生物医学大数据处理领域得到了广泛应用。Hadoop具有以下优势:①源代码开放,便于传播;②提供开共享,用户可通过网络磁盘(NFS)共享;②组织内部共享,可采用集中式存储,则组织内部成员可采用一致性方式访问,如数据库方式。另外,用户可通过远程访问方式(如FTP、HTTP、SVN等)实现共享。生物云借助以上网络共享方式为用户提供灵活便利的数据共享服务。生物/医学数据的产生者可以向生物云平台发布数据,而其他用户可在云内
[26]
拷贝和处理数据。当前,大规模的合作项目要求在不同的研究机构间进行数据共享,这也是需要发接口,便于用户使用;③提供MapReduce计算框架,易于实现并行计算;④多个基于Hadoop的大数据处理系统已经实现。
MapReduce生物医学大数据处理中的许多问题可借助于
的并行计算策略[23]
加以解决。以高通量测序读段的映射为例,测序读段数据被分派到多个计算节点(Map),分别映射,最后将各节点的映射结果归并(Reduce)。由于分配在各计算节点上的数据具有低耦合的特性,在计算过程中无需进行同步、通信等操作,实现了粗粒度的并行,其加速比往往与计算节点的数量呈线性关系。另外,对于耦合度较高的数据,如个体医疗诊断相关的高维度的数据分析,以及生物系统模拟等,由于计算过程需要频繁通信、同步,目前一般采用传统的高性能计算方法解决。
对于选用商业云的用户而言,他们只需对运行
的任务或虚拟机付费即可[25]
,而不必考虑计算机硬件的配置以及系统运行所需的动力与冷却环境。而在使用MapReduce进行生物医学大数据处理时,生物信息学家需要考虑的仅是申请多少资源用于数据处理,以及如何配置MapReduce等,这也是生物云研究的重点。2.3 数据/方法/流程的共享
生物医学研究项目(特别是大型项目)一般需要由多个部门合作才能得以进行。例如,分子生物学、生物技术实验以及生物信息处理这3个部门/小组的合作最为常见。为了协同工作,项目成员间往往需要共享数据、方法以及流程等信息。
(1)数据共享
最直接的数据共享方式是通过移动存储介质进行拷贝。然而,这种共享方式受限于地理空间和数据规模。云平台由于配备了完善的网络服务,能够提供多样的基于网络的数据共享方案:①集群内
通过云计算实现数据共享的客观要求。
(2)方法共享
生物医学数据处理过程可能使用多种商业/开源的生物信息软件。这些软件可被添加到数字镜像(digitalimage)中,以便与项目成员或者其他的研究者共享。例如,CloudBioLinux是一个基于云计算虚
拟技术的生物信息处理专用系统[27]
,它包含了多种生物信息学软件、生物信息学代码库以及用于访问云存储的脚本。用户可以免费获取CloudBioLinux的虚拟机镜像,后在云平台上启动该镜像,再利用其中的生物信息处理软件进行相关研究。
(3)流程共享
对于公开发表的研究来说,其生物信息处理流程及参数也可被添加到虚拟机镜像中,并通过云平台发布。感兴趣的研究者可通过云平台获取镜像,后在启动该镜像后执行相关的处理流程,并重复相关实验。这一共享方式能有效重复并保存实验的过程信息。流程共享能够有效提高生物信息处理实验的可重复性(reproducibility)。
综上,云计算在数据、方法、流程的共享方面具有良好的禀赋,它为生物医学大数据处理提供了良好的共享平台。尽管传统的生物信息处理实验由于流程复杂、人为因素及数据驱动(data-driven)等特点因素而难以重复,但云平台多样的共享方式为实验重复提
供了有效的解决方法[26]。例如,文献[26]
提出了“整体系统快照交换(WSSE)”的概念,即将操作系统、应用软件、数据库等与研究结果产生相关的部件拷贝至一个数字镜像中,用于和其他研究者进行交换。
3 生物云解决方案
3.1 常见的生物云解决方案
当前常见的生物云解决方案如表1所示,主要涉及以下几方面如图1所示。
图1 生物云解决方案的基本模型
Fig.1 Abasicmodelofbiomedicalcloudsolutions
3.1.1 获取云计算资源
考虑到一般生物云用户(如生物学家)尚缺乏配置和控制云资源的专业知识,生物云一般
[28]
会为其提供相关接口。例如,GlaxyCloudMan向用户提供了配置和控制基于EC2云的计算环境。用户通过利用CloudMan提供的Web界面,可在几分钟内完成Cluster的配置。此外,它还提供云资源定制开发的自动化方法,以满足用
[29]
户的特定需求。Cloudgene也具有与Cloud-Man类似的功能。商业化生物云(如DNAnex-us)为用户提供了更加丰富的云资源及用户支持。
表1 生物云的解决方案
Table1 Biomedicalcloudsolutions
SeqcrawlerEngine
[30][31]
方法名称功能
加载和询问SNVs、indels、
translocations
1
云计算架构
Hbase、Hadoop/MapReduce
GenOuest
2
访问地址
http://seqware.github.io/http://sourceforge.net/projects/seqcrawler/
元数据的存储和搜索
序列比对
CloudBLASTBiodoopContrailMyrna
[34]
Hadoop/MapReduce、虚拟机
HDFS
3
[35]
MapReduce、序列比对(BLAST)、表型分析(GSEA)、Hadoop/数量性质基因关联分析(GRAMMAR)
基因组装配基因差异表达分析
[37]
http://sourceforge.net/projects/biodoop/http://contrail-bio.sf.nethttp://bowtie-bio.sf.net/http://cloudburst-bio.sourceforge.net/http://bowtie-bio.sourceforge.net/
4
[39]
Hadoop/MapReduceHadoop/MapReduceHadoop/MapReduceHadoop/MapReduceHadoop/MapReduce、S3
MapReduceMapReduce虚拟机虚拟机虚拟机EC2、EBS
5
[40]
myrna.CloudBurstcrossbow/Eoulsaneoulsan/GATKBio-CirrusSIMPLEX
[43]
序列比对
序列比对(Bowtie)+SOAPsnp序列比对、差异表达分析覆盖计算、SNPcalling序列比对(Dotplot、BLAST)
Crossbow
[38]
[41]
[42]
http://www.broadinstitute.org/gatk/
http://www.bitlab-es.com/http://cloudbiolinux.org/http://icbi.at/software/simplex/
http://clovr.org
CloudMan/AWS/GettingStarted
http://wiki.galaxyproject.org/http://cloudgene.uibk.ac.at/
http://transcriptome.ens.fr/
cloudCloudBioLinux序列比对、聚合、装配、系统发生树等
[27]
[32]
质量控制、序列比对、变体检测等
序列比对、序列分析、基因组装配、注释
构建和控制基于EC2的Cluster、以及BioLinux的处理方法
同CloudMan
simplex.shtmlCloVR
CloudMan
[28]
[33]
Cloudgene
[29]
EC2、Hadoop、S3
注:1.Hbase–HadoopDatabase,Hadoop项目下的分布式数据库(http://hbase.apache.org/);
2.GenOuest–生物信息平台(http://www.genouest.org/);
3.HDFS–HadoopDistributedFileSystem,Hadoop项目下的分布式文件系统;4.S3–SimpleStorageService,Amazon的简单存储服务;5.EBS–ElasticBlockStore,Amazon的弹性块存储。
3.1.2 存储和搜索数据
用户可通过云平台提供的付费系统租赁包括计算和存储在内的云资源。一旦获取成功,用户便可将需要处理的数据上传至云存储空间。SeqWare即提供了一种用于在云平台上存储和搜索序列数
[30]
据的引擎。SeqWare采用HBase作为数据库,向用户提供编程和交互询问的接口,以便用户进行SNVs、indels、translocations等变体的上载和询问。
[31]
Seqcrawler提供的是一种在云环境下存储和搜备以上PaaS的一般属性外,还向用户提供了更加专业化的系统平台和生物技术相关的计算模块,如Bi-oLinux、SIMPLEX、CloVR等。在PaaS下,生物云用户能够从事更加灵活的开发工作,如开发生物信息学软件、建立生物信息数据库、Web服务器等。
为了达到高效的云计算性能,用户需要对云平台的基础设施资源(如虚拟机镜像、存储、防火墙、负载平衡器、VLAN等)进行配置和操作,这就涉及到IaaS。例如,用户可租赁基础设施资源,再在其索元数据的方法。3.1.3 运行和共享系统镜像
生物医学大数据处理用户可以运行专用的生
物云BioLinux系统镜像(如CloudBioLinux[27]
)。以图形用户软件为例,Cloud、它为用户提供了预配置的命令行和截止至2013年12月底,提供了至少135种生物信息软件包,且数据处理软件包的数量还在不断增加中。用户也可通过虚拟机的图形界面直接访问每个工具的完整文档。另一类方法
(SIMPLEX[32]、CloVR[33]
等)则在数字镜像中封装相关的数据处理流程。3.1.4 配置和执行并行计算
基于MapReduce并行策略,多种生物医学大数据处理BLAST方法已经被开发并得到应用,如Cloud-
[34]Burst、Biodoop[35]、Bio-Cirrus[36]
、Cloud-
[37]、Crossbow[38]、Contrail[39]、Myrna[40]
等。相关研究结果表明MapReduce并行策略可以显著提高生物医学大数据处理的效率。3.2 生物云所涉及的云计算服务模型
商业化云计算主要向用户提供软件即服务(SaaS)、平台即服务(PaaS)和基础设施即服务(IaaS)这3种基本的云计算服务模型。同样地,商业化生物云在向生物云用户提供生物医学数据处理/软件开发的服务过程中也涉及这3种服务模型。
在SaaS概念中,供应商向用户提供各种基于云计算平台的软件。类似地,生物云服务提供商在云平台安装配置了各种生物信息处理软件,而用户只需通过网页界面进行访问,后选择使用相关的生物信息处理软件。这种服务模式一般按月/年进行计费。
在PaaS概念中,云计算供应商向用户提供特定的计算平台,诸如操作系统、编程语言处理环境、数据库、Web服务器、计算模块等。生物云除了已经具
上运行经过自行修改的BioLinux镜像;用户也可基于IaaS提供的资源,对相关算法进行并行化处理等,构建符合自己特定需要的专用生物云平台。
生物云是云计算在生物医学大数据处理领域的应用,主要通过软件和操作系统层面向用户提供服务(即SaaS和PaaS),而基础设施一般不需要变动。3.3 生物云的用户操作流程
生物云用户可根据图2所示的流程进行生物医学大数据处理的相关操作。3.3.1 生物医学项目规划
该阶段主要搜集与课题相关的数据存储、处理算法、网络带宽、数据安全、经费预算等信息。如果待处理的生物/医学数据的数量巨大,而实验室或研究所无法满足数据存储的要求,则必须寻求生物
云的帮助。文献[41]
就如何选择生物云介绍了一些参考方案。3.3.2 生物云的方案选择
一旦项目规划阶段决定采用生物云计算,则进入生物云的方案选择阶段。用户应该根据实际需要选择合适的云计算解决方案(表1)。例如,在没有任何硬件系统和软件平台的情况下,生物云用户可以直接选择采用商业化的DNAnexus作为生物医学数据处理平台。同时,DNAnexus还向用户提供了易操作的Web访问方式。如果用户需要的是一个进行生物信息处理软件开发的平台,则可直接选用相应的平台/操作系统。另一方面,生物云方案可能会涉及相关模块的组合和搭配。例如,生物云供应商在向用户提供基础设施资源时,会向用户提供与租赁资源相关的Web界面。而虚拟机镜像也是运行在一定的基础设施之上的。3.3.3 方案执行
在对生物云方案进行选择和确认之后,用户即
可开始执行方案。首先需要向生物云供应商租赁
云资源。具体的资源数量可参考项目规划阶段设定的需求。若采用商业云平台,数据存储则有相应的租赁价格(根据数据量的大小和存储的时间)。若要进行并行数据处理,则须申请一定数量的计算节点,以构成Cluster。在各计算节点,用户启动镜像/虚拟机(如BioLinux)。在计算处理阶段,用户可使用生物云中已有的生物信息处理软件或流程,也可使用自行开发的软件和脚本以解决具体的数据处理问题。如有必要,也可采用并行计算(如MapReduce)方法。最后,用户可以通过云平台对
结果进一步分析。
图2 生物云的操作流程
Fig.2 Scheduleforoperatingbiomedicalcloud
4 生物云面临的挑战
尽管生物云已在领域内得到应用,但其在资源
整合和有效利用方面仍然面临挑战。4.1 建立一致的生物云平台接口
现有的生物云主要包括商业化生物云、私有生物云及学术生物云这3种类别。其中每种生物云各有不同的机构予以实现,并面向各自的用户群。在数据存储方面,生物云之间存在着大量的冗余,且交互性不够好,这使得生物云的资源利用率达不到最优。因此,需要建立一致的生物云平台接口,以实现不同生物云之间的互联互访,使得生物云之间的资源能够充分共享,进而有助于生物医学大数据的处理。4.2 生物云的数据挖掘
生物云中存储了来源多样的生物医学数据,这
些数据能够帮助科学家揭示丰富的生命奥秘。当前的挑战即在于如何进行生物数据挖掘,即筛选出合适的数据、建立模型,进而通过高效的计算方法获得生物医学信息。
5 结论与展望
新一代生物医学技术的广泛应用使生物医学数据呈现爆炸性增长的趋势,生物医学研究由此进入大数据时代。相对于传统的生物医学数据处理环境,生物云在数据存储、计算处理、共享等方面具有优势,已经开始为生物医学大数据处理提供相关的解决方案,涉及序列比对、基因组装配及差异表达分析等生物信息处理的各个方面。未来有望建立能够整合多源生物医学数据的新型计算方法,以解决复杂的生物医学问题。
・ 1196・电子测量与仪器学报
2010,11(9):647-657.
第28卷
参考文献
[1] STEINLD.Thecaseforcloudcomputingingenome[2] MARIONIJC,MASONCE,MANESM,etal.
informatics[J].GenomeBiol,2010,11(5):207.
[15]BENSONDA,KARSCH-MIZRACHII,LIPMAND
2010,38(S1):D46-D51.
J,etal.GenBank[J].NucleicAcidsResearch,[16]BROOKSBANKC,CAMONE,HARRISMA,etal.
RNAandcomparison-seq:anassessmentwithgeneoftechnicalreproducibilitynomeresearch,2008,18(9):expression1509-1517.
arrays[J].Ge-[3] NGSB,BUCKINGHAMKJ,LEEC,etal.Exome
sequencing[4] disorderJOHNSON[J].identifiesthecauseofamendelianDNatureS,MORTAZAVIGenetics,2009,A,MYERS42(1):R30-M35.,et
al.Genome-widemappingofinvivoprotein-DNAin-
1497-teractions1502.
[J].Science,2007,316(5830):[5] EL-MAARRIO.Methods:DNAmethylation,peroxi-
somal2004:disorders197-204.
andregulationofgenes[J].Springer,
[6] LIG,FULLWOODMJ,XUH,etal.SoftwareChIA-
ysisPETwithtoolpairedforcomprehensive-endtagsequencingchromatin[J].interactionGenomeBioloanal--
[7] Bgy樿,NFAI2010,B,11(2):JIAH,RKHATUN22.
J,etal.Longnoncod-
ingRNAsarerarelytranslatedintwohumancell1646-lines[1657.
J].GenomeResearch,2012,22(9):[8] SIVAN.1000Genomesproject[J].NatureBiotech-[9] FEINGOLDnology,2008,E,26(3):GOODP256-,GUYER256.
M,etal.TheEN-
CODEScience(,ENCyclopedia2004,306(5696):ofDNA636-elements640.)project[J].[10]CELNIKERSE,DILLONLA,GERSTEINMB,et
2009,al.Unlocking459(7249):thesecrets927-930.
ofthegenome[J].Nature,[11]MCLENDONR,FRIEDMANA,BIGNERD,etal.
Comprehensiveglioblastomagenesgenomicandcharacterizationcorepathways[definesJ].Naturehuman2008,455(7216):1061-1068.,[12]TURNBAUGHPJ,LEYRE,HAMADYM,etal.
The449(7164):humanmicrobiome804-810.
project[J].Nature,2007,
[13]FUSAROVA,PATILP,GAFNIE,etal.Biomedic-
alcloudcomputingBiologywithAmazon,2011,web7(8):servicese1002147.[J].[14]SCHADTPLoSComputationalEE,LINDERMANMD,SORENSONJ,et
alment.Computationalandanalysissolutions[J].Naturetolarge-ReviewsscaledataGeneticsmanage,
-
TheresourcesEuropean[J].NucleicbioinformaticsAcidsResearchInstitute,'2003,sdata(1):43-50.
31[17]SUGAWARAH,OGASAWARAO,OKUBOK,et
alResearch.DDBJ,with2008,new36(systemS1):andD22-faceD24.
[J].NucleicAcids[18]EDGARR,DOMRACHEVM,LASHAE.Geneex-
pressionizationsearch,arrayomnibus2002,data:30(1):repositoryNCBIgene207-210.[Jexpression].NucleicandAcidshybridRe--[19]FLICEKP,AMODEMR,BARRELLD,etal.En-
40(sembleD1):2012D84-[JD].90.
NucleicAcidsResearch,2012,[20]FUJITAPA,RHEADB,ZWEIGAS,etal.The
UCSCNucleicgenomebrowserdatabase:update2011[J].[21]DGOECKS876-D882.
Acids
Research,
2011,
39(S1):
J,NEKRUTENKOA,TAYLORJ,etal.
cessibleGalaxy:research,ainreproduciblecomprehensivethelifesciences,andapproach[transparentforsupportingJ].Genomecomputationalac-11(8):R86.
Biol,2010,
[22]DEANJ,GHEMAWATS.MapReduce:simplifiedda-
tatheprocessingACM,2008,onlarge51(1):clusters107-[113.
J].Communicationsof[23]TAYLORRC.AnoverviewoftheHadoop/MapRe-
duce/HBaseframework[J].BMCanditsbioinformaticscurrentapplications,2010,in11(bioinformaticsS12):S1.
[24]SCHATZMC,LANGMEADB,SALZBERGSL.
CloudcomputingandtheDNAdatarace[J].Nature[25]KASSONBiotechnologyPM,.2010,Computational28(7):691.
biologyinthecloud:
methodsSymposiumandnewinsightsonBiocomputingfromcomputing,WorldatscaleScientific[C].2012:Pacific451-453.
.[26]DUDLEYJT,BUTTEAJ.Insilicoresearchinthe
era2010,of28(11):cloudcomputing1181-1185.
[J].Naturebiotechnology,[27]KRAMPISK,BOOTHT,CHAPMANB,etal.Cloud
BioLinuxicscomputing:pre-forconfiguredthegenomicsandoncommunity-demandbioinformat[J].BMC
-
第11期生物医学大数据处理的云计算解决方案
2009,10(11):R134.
・ 1197・
[28]AFGANE,BAKERD,CORAORN,etal.Galaxy
CloudMan:deliveringcloudcomputeclusters[J].[29]SCH湣NHERRS,FORERL,WEI?ENSTEINERH,
etal.Cloudgene:agraphicalexecutionplatformforMapReduceprogramsonprivateandpublicclouds[J].BMCBioinformatics,2012,13(1):200.BMCbioinformatics,2010,11(S12):S4.
Bioinformatics,2012,13(1):42.
[39]SCHATZMC,SOMMERD,KELLEYD,etal.De
novoassemblyoflargegenomesusingcloudcomputing[J].CSHLBiologyofGenomesConference,2010.[40]LANGMEADB,HANSENK,LEEKJ.Cloud-scale
RNA-sequencingdifferentialexpressionanalysiswith[41]ROSENTHALA,MORKP,LIMH,etal.Cloud
formationsharing[J].JournalofBiomedicalInformat-computing:anewbusinessparadigmforbiomedicalin-Myrna[J].GenomeBiology,2010,11(8):R83.
[30]O'CONNORB,MERRIMANB,NELSONS.SeqWare
queryengine:storingandsearchingsequencedatain11(theS12):cloudS[2.
J].BMC
Bioinformatics,2010,
[31]SALLOUO,BRETAUDEAUA,ROULTA.Se-
qcrawlerform[J].:biologicalBMCBioinformaticsdataindexing,2012,and13(1):browsing175.
plat-[32]FISCHERM,SNAJDERR,PABINGERS,etal.
siveSIMPLEX:cloud-enabledpipelineforthecomprehen-[33]OneANGIUOLI,analysis2012,S7(8):ofexomeV,MATALKAe41948.
sequencingdata[J].PLoSM,GUSSMANA,etal.
CloVRsequence:aanalysisvirtualmachinefromthedesktopforautomatedusingcloudandportableting[J].BMCBioinformatics,2011,12(1):356.compu-
[34]MATSUNAGAA,TSUGAWAM,FORTESJ.Cloud-
blasttributed:combiningmapreduceandvirtualizationIEEE
resourcesforbioinformaticsapplicationson[Cdis].-eScience,Fourth
2008.
International
Conference
on
[35]LEOS,SANTONIF,ZANETTIG.Biodoop:bioinfor-
maticsenceononParallelhadoopProcessing.ICPPWWorkshops'09.International,2009.
Confer-[36]KARLSSONTJM,TIRADO湤T,RAMETD,etal.
icsBio-applicationscirrus:aframeworkwithcloudforrunningcomputinglegacyresourcesbioinformat[J].-2013:Advances200-207.
inComputationalIntelligence:Springer,[37]SCHATZMC.CloudBurst:highlysensitivereadmap-
25(11):1363-pingwithMapReduce1369.
[J].Bioinformatics,2009,[38]LANGMEADB,SCHATZMC,LINJ,etal.Search-
ingforSNPswithcloudcomputing[J].GenomeBiol,
作者简介
ics,2010,43(2):342-353.
孙磊,1984年出生,2013年于中国矿业大学获得博士学位,现为扬州大学信息工程学院讲师,研究方向为信号与信息处理、生物信息学。E-mailingnology(Sun:leisuncumtDE)Leidegreewasfromborn@yahoo.com
Chinain1984,Universityreceivedofdoctorofengineer-
mationin2013,andnowheisalecturerinMiningSchoolandTech-searchbioinformaticsinterestsEngineeringincludeofsignalYangzhouandinfomationUniversity,processingandofhisInforandre--胡学龙,1960.
年出生,现为扬州大学教授,研究方向
为信号与信息处理。
E-mail:xlhu@yzu.edu.cn
nalYangzhouHuXuelongandinformationUniversitywasprocessing,andbornhisin1960,.researchandinterestsheisaincludeprofessorsigin
-
张晓斌,1972年出生,现为扬州大学讲师,研究方向
为高性能计算、云计算。E-mailZhang:zxb@Xiaobinyzu.eduwas.cn
inbornin1972,andheisalecturer
highYangzhou李云performanceUniversity,1965年出生computing,and,现为扬州大学教授andhiscloudresearchcomputinginterests,研究方向为
.include概念格、数据挖掘、云计算。E-mailLi:Yunliyun@wasyzuborn.edu.incn
1965,andceptYangzhoulatticeUniversity,datamining,andandhiscloudresearchcomputinginterestsheisa.
includeprofessorconin
-
生物医学大数据处理的云计算解决方案
作者:
作者单位:刊名:英文刊名:年,卷(期):
孙磊, 胡学龙, 张晓斌, 李云, Sun Lei, Hu Xuelong, Zhang Xiaobin, Li Yun扬州大学信息工程学院 扬州225127
电子测量与仪器学报
Journal of Electronic Measurement and Instrumentation2014(11)
引用本文格式:孙磊. 胡学龙. 张晓斌. 李云. Sun Lei. Hu Xuelong. Zhang Xiaobin. Li Yun 生物医学大数据处理的云计算解决方案[期刊论文]-电子测量与仪器学报 2014(11)