云计算和大数据趋势
云计算和大数据实践手册
调查显示,大数据已经走入组织内部,正在改变开发人员的工作方式。实际上,Gartner 的一项调查表明,超过70%的组织计划在2016年对大数据进行投资。谈到在云端实施大数据战略时,好消息是你会有很多选择。但是,这同时也是一个坏消息。来自Forrester Research最近的一份报告强调,尽管大数据云服务很强大,他们也有可能造成混乱,从而需要企业采用比传统的方式更加灵活,琐碎的方法。在这本技术手册中,我们将会具体看一看如何将云计算与大数据结合,为企业带来更多有效价值。
云和大数据结合趋势
云端的大数据就像科幻小说里对未来的描绘一样:它在这,只是不是很均匀地分布罢了。大数据和云计算的融合往往是互联网公司的首先项,尤其是初创的软件和数据服务供应商。但很多主流公司并不像互联网公司那样看重云端数据管理。一些公司担心云端的数据安全和隐私保护。
未来五年,大数据将与云计算更加融合
云计算:让大数据分析更任性!
最适合大数据项目的云模型是什么?
云端大数据存储
对于那些在管理他们数据备份工作中寻求更大灵活性的公司来说,云计算具有着不小的吸引力。但是,对于每一家公司来说,基于云计算的备份技术的成本优势并不会增加。根据一份IDC 的报告显示,数据备份/归档业务已成为最适合私有云云计算和混合云计算、较适合公共云计算的功能。在这部分中我们将关注企业是否适合云存储服务以及如何选择云存储服务。
云存储服务——数据存储新挑战的应对之道
如何实施和评估云存储的访问控制措施?
七问潜在公有云存储服务商
云存储系统选择底线
云端大数据分析
大数据项目挺吓人的,尤其是如果包含了设置和管理Hadoop 集群。当你已经准备好实施大数据,请仔细的评估云提供商提供的大数据功能,确保找到最合适的。
云端大数据平台评析
当心!大数据即服务(BDaaS )两大问题
Apache Sqoop:云端大数据分析的关键一环
未来五年,大数据将与云计算更加融合
云端的大数据就像科幻小说里对未来的描绘一样:它在这,只是不是很均匀地分布罢了。
高调的厂商,比如AWS 、谷歌、微软、IBM 和Rackspace 等,都提供云基础的Hadoop 和NoSQL 数据库平台来支持大数据应用程序。很多初创公司都引入了云平台上的管理服务,按需部署自己的系统。大数据和云计算的融合往往是互联网公司的首先项,尤其是初创的软件和数据服务供应商。
但很多主流公司并不像互联网公司那样看重云端数据管理。一些公司担心云端的数据安全和隐私保护。一些公司还在大型机和其他本地系统里运行大部分操作。存储在本地的数据量之大,让数据迁移充满挑战。
另外,现存数据中心可用的处理能力让AWS 和谷歌等公有云的成本优势不值一提,即使公司对于云系统所谓的降低成本、增加弹性有兴趣,最终也未必会选择它。
花旗集团就是一个例子。随着网络成为普及的应用界面,金融服务公司面对的是洪水般的非结构化数据。它还需要处理线上金融应用程序中不同的数据结构。这些挑战让花旗集团最后选择了MongoDB NoSQL数据库。MongoDB 获得了AWS 和其他云平台的支持。
花旗数据公司负责平台工程的全球领导者Michael Simone表示,花旗选择了在云端应用该软件。不过它应用的是私有云,应用限定在纽约公司的防火墙内,由它的IT 部门全权管理。
在纽约的MongoDB 大会上,Simone 告诉与会者:“目前,我们还没有扩展私有云或集成公有云的打算。花旗集团的数据中心很大,技术积累也很深厚,我们可以构建自己的内部部署的云就算。”
大数据云才刚刚开始
总体来看,在云端运行大数据系统仍然是小众行为。在数据仓库研究院开发的大数据成熟度模型中,十个月内有222名IT 和业务专家完成了线上测评,只有19%的人表示它们的组织在用公有云、私有云和混合云支持大数据应用程序。
另有40%的人表示正在考虑云部署,同时有超过三分之一的人表示它们没有使用云计算的计划。在企业管理协会和9sight 咨询公司开展的线上调查中,云计算使用比例略高:259名受访者中,39%的人表示他们的大数据安装包括云系统。
WeatherChannel 公司是采用了公有云的案例,Basho 技术公司在AWS 可用性区域的多个分区运行了Basho 技术公司的NoSQL 数据库Riak 的复制实例,处理和存储来自卫星、雷达系统、天气站等来源的混合数据。该数据库每五分钟就为预测引擎更新3万6千多地理天气网格的视图,它还用于归档历史数据。
美国TWC 公司执行副总裁兼CIO Bryson Koehler认为,Riak 的容错技术和同时支持内存和硬盘存储的功能特别好。经过比较,因为处理效果低,主流关系型数据库并不能适应高容量的云环境,至少不能以较低的成本适应高容量的云环境。
但是,在云端部署NoSQL 软件也是旨在扩大TWC 灵活性的更广泛的IT 战略的题中之义。公司在谷歌云和AWS 上运行应用程序,以免被任何供应商或技术锁定。
云计算:更多选择 更多可能
公有云供应商已经为了满足大数据需求,已经扩展了数据管理能力,不止包含关系型数据库。例如,亚马逊近几年拓宽了AWS 云选项,包含了很多新兴技术,比如NoSQL 数据库DynamoDB 、Hadoop 部署ElasticMapReduce 和ElastiCache 内存缓存服务、Redshift 数据仓库和Kinesis 流数据系统。
美国咨询公司Cloud Technology Partners高级副总裁DavidLinthicum 表示:“AWS和其他云供应商也创建了相当成熟的服务。一些可用的数据管理云平台已经发展到第五代第六代了。”
对于拥有强大的内部处理能力的大公司来说,给大数据管理池增加云基础的系统并不是必须的。美国云服务咨询公司Nimbo 的首席基础架构师Aaron Ebertowski表示:“为什么要企业定购它们已经有了的东西呢?企业已经在存储架构投了成百上千美元,不会轻易舍弃的。”
业绩要求也是公有云不受大数据用户青睐的原因之一。加拿大海洋网络(ONC )是一家非营利性机构,该机构管理着英属哥伦比亚的一对海洋气象台,计划建立一个公司内部私有云,为使用海洋传感器提供数据的应用模拟地震和海啸创造条件。
目标在于更加准确地预测可能发生的自然灾害带来的后果,为政府当局采取预防措施缓解自然灾害给人们带来的影响,Benoit Pirenne这样说道,他是ONC 的数字基础设施主管。
需求——充足的大数据力量
该机构位于维多利亚大学,去年春天得到了一项三年项目的批准和资金支持。计划进行的分析工作包括收集传感器的多次测定结果,运行预测模型以得出可能发生的所有情况集。但是完成这项工作需要大量数据和强大的计算能力,Pirenne 说道。
“要计算现实状况中的“模拟”几乎是不可能完成的任务,就算在非常高级的平行云系统中也不行。”他说。因此,ONC 正在与IBM 合作构建一个内部云加过来处理流程和分析工作。
新兴的管理服务供应商——例如Altiscale, BitYota, Qubole, Treasure Data和
Rackspace'sObjectRocket 附属公司等——称他们通过以低于云平台供应商的价格接管部署和管理任务,能够为用户企业将大数据云装置做的更方便、更划算。
美国的Sellpoints 公司是一个线上营销和分析服务供应商,使用Hadoop 和Spark 的流程工具迅速构建查询表格,查询数据量达到TB 用户网页活跃度数据,BennyBlum 如此说,他是Sellpoint 公司业绩营销和分析的副总裁。
Hadoop 实用工具
Blum 的公司首先将其自身的Hadoop 系统应用到了亚马逊弹性计算云(或EC2)平台上。但是现在该公司已经换成了Altiscal 的Hadoop 作为服务供应。这一服务也在亚马逊云上运行,但是Blum 表示将Hadoop 的构造和管理下线为Sellpoints 带来了红利。“
Altiscale 为我们管理了基础设施,这样我们就不必为维护集群而付运营费了。”但是至少迄今为止,该类服务的用户基本都是这些新兴企业自身。大多是服务供应商的顾客基础还维持在一位数或两位数。
RickSherman 是AthenaIT 解决方案这一美国咨询公司的创始人,他认为有理由相信基于云端的Hadoop 服务尤其能够在更广阔的基础上运行。“
人们在使用自给自足的Hadoop 时遇到了一堵墙,”他说。“这在时间和技巧上都需要付出很多。我认为最终Hadoop 作为服务会比公司内部Hadoop 更具吸引力。”
然而有些企业还完全没有准备好接受公有云中的Hadoop ,而且近期内也不会准备好接受。这就是Ayad Shammout 所面临的问题,他是美国Beth Israel Deaconess医学中心(BIDMC )的数据平台和商务智能主
去年他还是位独立咨询师的时候,就与另一位咨询师合作,为BIDMC 做了一个大数据和云计算定义证明项目。为了降低SQL 服务器数据库上的存储量和流程需求,他们使用了Azure HDInsight,Microsoft 的基于云端的Hadoop 发行,用以卸载应用审计日志的存档文件,这些日志用于微软的Azure 云管理报告。
Shammout 表示示范项目展示出了在云端云顶Hadoop 应用的潜力。他还认为像BIDMC 这种卫生保健型供应商最终能够将其实现。但是在未来几年之内,美国的联邦健康保险可移植性法案和问责制法案还阻碍着生产的展开。
“如果三四年前我跟你谈论云端,我会说‘这不会发生的。’”Shammout 说道。“现在我认为云端会在某些部门实现应用。我的期望是再过三四年,云数据隐私就不成问题了。”
本文原载于电子杂志《数据价值三月刊:云端大数据》,欢迎免费下载阅读。
(来源:TechTarget 中国 作者:Jack Vaughan 翻译:Eunice )
云计算:让大数据分析更任性!
众所周知,今年双11购物狂欢节的购买者再创惊人记录。淘宝双11交易额达到了惊人的571亿,特别在零点以后,支撑每秒7万笔的瞬时订单,相比于去年花6个小时完成100亿的战绩,今年只用了38分钟。我们都知道如此疯狂的数据量的支持,对后台数据库和数据处理都产生了极高的挑战。阿里淘宝双11的大获全胜,还要多亏了阿里云计算的大数据处理平台ODPS 。由此可见,云计算是让企业把大数据转化为价值不可或缺的一部分。
2015年大数据市值169亿美元
IDC 预测,2015大数据市值将从2010年的32亿美元增长至169亿美元。最近这两年所产生的数据比以往任何时候都多。尤其是当前物联网的高速发展,数据量更将以我们无法想象的速度增长。显然,分析师本身是无法处理如此巨大的数据量,那么企业要想从成堆的数据中挖掘价值,他们该怎么办?
云计算助大数据转化价值
其实,海量的数据中可用的部分很少,还是有大量的数据需要过虑,然后再关联并存储其有用性。但如果提取、处理和利用数据的成本超过了数据价值本身,那么这项工作也就没什么意义了。不过,还好有云计算技术的支持。对大量存储着临时信息的基础设施投资的利益几乎没用,因为这一临时数据大部分都会被丢弃。大数据过滤阶段,公有云是企业最适合的选择,它可以提供按需扩展的计算和存储资源。
当数据提取完成后,就进入到分析产生价值的阶段。混合云技术可在分析阶段提供帮助,原始分析阶段可以在公有云基础设施上执行,然后使用私有云组件把处理过的、可用的信息拿到企业内部,这样既保证了数据处理的速度,同时还保证了企业有价值信息的安全。
这一阶段过后,企业就获得了可用的信息,可以用来指导决策。我们可以看到,有了云计算技术,大数据的价值才能得到更好的转化。不得不说,对于在使数据转化为商用方面,云是一个相当完美的平台。
2015年大数据如何处理?
云计算的弹性扩展能力的确使它成为大数据分析的理想选择。惠普软件事业部大中华区总经理于志伟也同意,大数据与云计算的结合确实存在其真正的价值。但是需要注意的是并不是所有企业都适合这样的整合方案。惠普希望能够为客户提供更加灵活的解决方案,更加灵活的收费方式。
去年年底,惠普正式宣布进军大数据市场,针对2015年大数据发展状况,发布了基于Helion 云的 Haven OnDemand 大数据处理平台,把大数据分析和旗下 Vertica 和IDOL 平台的应用开发功能带到了云端。为了赢得今天的市场,企业必须能够高速利用所有类型的数据,快速捕捉到新兴的机会,以及更好的管理风险和成本,惠普软件业务负责人罗伯特·扬约翰斯如是说。
惠普的目的正在于此,通过把核心大数据工具转移到云端,它能够让企业在几分钟之内得到分析功能,在最短的时间内发掘出所有类型数据的价值,如业务数据、机器数据和自然数据等等。另外,开发者还可以充分利用这个创新的web 服务,并与充满活力、不断发展壮大的社区进行互动,以开发下一代应用和服务。
托管于Helion 云端的Haven OnDemand为企业提供了一个灵活的、可扩展的基础架构,为企业爆炸式增长的数据打造了坚实的基础。托物联网的福,2015大数据将以更强劲的势头爆发。俗话说,“早起鸟儿有虫吃,”早做准备的企业就可以吃到大数据这条巨型虫了!
原文链接:http://www.searchcloudcomputing.com.cn/showcontent_88603.htm
(来源:TechTarget 中国 作者:蒋红冰)
最适合大数据项目的云模型是什么?
组织可以在私有云、公有云或者混合云上部署大数据项目。然而,你的云环境选择会对成本、技术需求以及其他因素产生巨大影响。
为了提供一个业务所有且操作的专属云,私有云虚拟化本地存储和计算资源。组织需要直接的云环境控制,通常出于安全或者法规限制,典型地会选择私有云,由于私有云在本地的数据中心 内,这些环境需要额外的存储和计算资源,以及类似Hadoop 这样的软件支持大数据。企业必须承担所有的基础架构陈本,并且处理任何可能出现的技术问题或者架构问题。最终,业务无法在私有云上部署大数据。
第三方提供商创建且操作的公有云,共享了物理资源,比如网络、存储和计算。用户在云提供商的云中上传和操作工作负载,由于公有云提供商支持很多用户,计算基础架构要比私有云更加宽泛且可扩展。用户可以用分布式计算软件扩展治理大量的计算能力,只需要为所使用的资源付费即可。为了降低操作成本,一旦计算工作完成,不使用的资源就会被释放。公有云代表额一种“实用”计算模式,对于按需的大数据任务很适合。
混合云融合了私有云和公有云,可以让工作负载在二者之间迁移。当额外的计算需要时,混合云使用公有云资源,也就是我们所说的云爆发。私有云支持基础的工作负载,同时公有云资源按需临时调整。这个特性也支持大数据分析。然而,组织很少使用混合云进行大数据项目,因为公有云更加简单,且从长期的价格来看也更加有利。
随着组织需要更多的数据驱动来做出决策,大数据就会变得更加重要。但是这仅仅是开始。类似物联网这样的技术为业务提供了如同海啸般的新数据,科学家和政府正在分析。虽然大数据并不取决于云,但是云促进了大数据存储和分析,提供了可扩展性、按需的计算资源,且价格合理。
原文链接:http://www.searchcloudcomputing.com.cn/showcontent_88192.htm
云存储服务——数据存储新挑战的应对之道
随着云计算技术的不断成熟,以及国内最终用户对云计算理念以及其所带来的新的 IT 消费模式的认可,中国公有云计算服务市场在过去两年间快速发展。与此同时,以互联网应用引领的各行业的数字化和信息化浪潮也在近些年内方兴未艾,推动了新一轮对数据存储以及数据价值发掘需求的爆发性增长。正是在这两股浪潮的共同作用下,云存储服务迎来爆发性的增长机遇。根据 IDC 跟踪研究预测,2014 年中国云存储服务市场将达到 1.1 亿美元,并将持续高速增长。到 2018 年,市场规模将达到 5 亿美元,年均复合增长率为 54.5%。而这一增速也远远高于云服务 IaaS 市场中的其他子领域。云存储将成为带动未来公有云服务发展的核心动力。
IDC 认为,大规模数字化和信息化的进程会对数据存储带来新的挑战,集中反应于:如何存储海量高速增长的数据?如何应对因非结构化数据成为主流而带来的对现有技术的调整?如何更加深入地挖掘数据背后的价值?云存储服务,藉由其在技术、产品、服务及商业模式上的诸多创新,为最终用户应对数字存储新挑战,提供了一项重要的选择。IDC 研究认为,云存储服务带来的价值,主要体现在如下几点:
●
●
●
● 促进数据存储服务化,用户体验取代技术指标; 运维智能化与自动化,实现更紧密的用户响应; 网络化存储带来便捷的数据管理与传输; 融合大数据分析,助力数据生态建立;
除了助力最终用户应对存储带来的新挑战,云存储也将为云服务及云计算技术自身的发展注入新动力。IDC 认为随着云存储服务的不断发展,数据与云端将更为紧密地结合,云端服务和产品将向更加精细化与个性化的方向发展。而数据存储(云端资源)与数据分析(云端能力)的融合,也将推进 IaaS 与 PaaS 市场的融合。未来,公有云计算服务平台将成为社会数据的承载地,与数字化运营的策源地,成为社会中的一类基础类服务资源。
数据存储新特征
IDC 近年来的多项研究表明,随着数字化进程的不断深入,数据对 IT 应用,甚至整个社会的影响,变得越来越大。一方面体现在越来越多数据的产生,另一方面数据背后蕴藏的价值开始为人所知,并得到了更有效地利用。回顾过去 5 年内 IT 技术与应用的发展,围绕数据相关的技术与应用迅猛发展——大数据分析、高速数据传输、全闪存存储阵列、对象存储等等。展望未来,IDC 认为,数据本身的发展演变将为数据存储带来新的特征和挑战,从而深刻影响未来技术与应用的发展方向。
IDC 认为这一趋势将体现在如下三点:
●
●
● 数据爆炸性增长; 非结构化数据存储主导未来数据存储; 更加深入全面地数据价值挖掘。
数据爆炸性增长
IDC 观察到,随着互联网和个人终端设备的不断普及应用,数据增长成为了一种全民性行为。数据的增长不论从速度还是服务上都远高于过去。
如图 1 所示,IDC 数字宇宙研究对全球数据存储总量的追踪与预测结果,充分表明了巨大的数据增长幅度与爆炸性的增速。
图
1全球数据存储规模 2010–2020
来源: IDC, 2014
图 2 和图 3 展示了全球和中国语音及多媒体类数据的总量。可以看到,以此为代表的非结构数据增长迅速,占比在 2020 年将达到 90%。非结构化数据将主导未来的数字宇宙。
图 2 全球语音及多媒体类数据总量
来源: IDC, 2014
图 3 中国语音及多媒体类数据总量
来源
: IDC, 2014
未来数据增长的主要动力来自于个人。更具体而言,是个人的消费行为、娱乐行为和社交行为。在互联网不断发展并全面覆盖个人生活方方面面的大背景下,个体将成为 7x24 小时的数据产生源。每个个体消费的视频、创造的图片、产生的网络行为日志数据,都将贡献非结构数据的增长。个人产生的数据往往留存性更强,进一步推动了对数据存储的需求,使得非结构数据的存储成为未来的主导需求。
更加深入全面地挖掘数据价值
数字化的进程使越来越多的人类行为开始产生数据。当技术使不同数据之间的联系浮现出来,产生新的价值时,数据存储的价值与需求也得到进一步的发展。大数据以及其他数据分析技术与工具在进几年的长足发展,使得对数据价值的挖掘成为可能。未来,数据分析的规模将不断扩大,随之带来的对“大”数据的需求也不断增强。如何承载真正意义的大数据,为数据存储带来了新的挑战。
应对数据存储新挑战,云存储服务带来的价值
从上述章节中的描述中不难看出,数字时代下的数据存储,面临诸多挑战:海量数据的爆炸性增长,需要同样快速增长且高效的存储资源;数据结构加速向非结构化转型,要求有更新的存储方案以适应非结构化数据的特性;数字时代下对数据价值的深入挖掘,同样要求数据存储与数据分析的紧密结合;而面对未来全社会的数字化转型,数据成为社会生活的基本要素,将在社会不同层面中不断流转,这对数据的大规模高速传输同样提出了新的要求。正是在这些数字化进程中不断涌现出的新挑战的驱动下,云计算技术诞生并蓬勃发展。从 90 年代初期网格计算思想的提出,到 2006 年AWS 云计算服务的正式上线,云计算逐步从实验室中的前沿技术,转化为市场上成熟的商业应用,并开始颠覆人们对 IT 技术的传统观念。而直至今日,云计算更是快速发展成为一种主流的商业模式,并与互联网交相辉映,不断颠覆与重构信息时代下的商业 IT 应用。云计算发展至今日,已涵盖了从基础设施资源,底层系统管理,应用开发与部署,到终端应用的全部 IT 环节。并发展出公有云服务,私有云和托管云等多种部署模式。
作为 IT 基础设施中的重要组成,存储系统是整个 IT 系统正常运转的重要保证。在数字时代,围绕数据运营的价值愈发明显。而存储作为数据的实体承载,其支柱地位更加明显。IDC 认为,云计算为应对数字时代下的存储挑战带来的价值,主要体现在如下四点:
●
●
● 促进数据存储服务化,用户体验取代技术指标; 运维智能化与自动化,实现更紧密的用户响应; 网络化存储带来便利加捷的数据管理与传输;
● 融合大数据分析,助力数据生态建立;
什么是云存储服务
IDC 认为云计算服务是一项全新的 IT 资源交付与消费模式。云计算服务通过网络实现在线交付,集资源共享,自助服务与部署,高弹性与高可拓展性,灵活的消费定价模式,与一体化的用户解决方案等多种特性于一体。IDC 认为如下的八项,是定义云计算服务的主要特征:
1. 标准化的共享服务:基于多租户共享资源的消费模式;
2. 一体化的服务与产品解决方案:预集成的“交钥匙”方案,最终用户即买即用;
3. 自助服务:拥有自助服务与部署管理界面(机制),一般为基于 Web 的自服务界面;
4. 弹性的资源扩展:所提供资源可以实现实时、可收缩的动态部署;
5. 弹性安全的消费定价:提供精确的服务计量机制,并依照用量计费;
6. 全天候网络接入:基于网络的服务接入,一般通过公共互联网,也可选用更高安全等级的安全网络。
7. 支持标准的网络 UI 技术:采用标准的浏览器和因特网应用程序(RIA Clinet)技术,与互联网应用无缝对接。
8. 服务开发接口(API ):提供支持第三方开发的 API 接口和其他服务。
而对云存储服务而言,除以上云计算服务的共同标准外,IDC 认为如下几点也值得关注:
多种存储类型的支持:对块存储,特别是文件存储和对象存储的支持。
存储管理功能:云存储服务不是存储硬件,在存储空间(资源)之上,提供多种存储管理功能(备份、镜像、加密等),从而实现服务化;
网络传输服务:云存储服务通过网络进行数据传输,对传输能力的保障同样是云存储服务的核心。CDN 和其他网络加速服务将成为云存储服务的重要子服务。由于越来越多的数据产生于用户端,且分散于各种终端中,数据上传操作将愈发频繁。因此,上传加速的重要性将逐渐显现,并与下载访问加速一起,成为云存储服务重要的传输指标。
数据迁移解决方案:在未来大规模的数据流转过程中,除了优质的网络传输能力,有针对性的迁移方案也是重要因素。针对不同行业的数据规模、数据类型、以及客户属性,提供完善的数据迁移解决方案,将成为云
集成数据处理功能:移动互联网时代下产生了越来越多的与富媒体(图片、音视频)相关的产品模式。随着数据量的增大,企业需要自主建立处理集群的模式是不符合轻创业以及云发展的趋势的。因此,将通用的富媒体处理服务以及某些个性化定制的非结构化数据处理服务也集成到公有云存储上,企业不用自己构建处理集群,这也将会是云存储服务的标准配置。
促进数据存储服务化,用户体验取代技术指标云计算带来的最大的颠覆是:打破了最终用户直接面向 IT 系统进行操作的方式。通过虚拟化与分布式计算等技术途径,实施大规模的硬件设备虚拟化与资源池化,从而实现硬件设备向资源的转化。而进一步通过对资源池的封装管理,并融入专业化的产品与功能设计,则完成了资源向服务的转化。云存储服务,既是通过此种途径,实现从实体存储硬件系统,向虚拟存储服务的转化。
云存储服务相对于硬件系统,摆脱了生硬的技术指标和繁复的操作束缚,转而通过用户更易理解和操作的方式,达成用户对存储的各项需求。
第一,高度抽象化的存储资源。用户只需根据自身需求,选择所需的存储空间及相关的存储性能(吞吐速率、备份方式等),而不需要再考虑为达成这一需求采购怎样的硬件设备,以及采用怎样的系统设计。更重要的是,因为存储资源被抽象化,对其的利用可以实现完全的按需使用,用结即止。当用户需要面临大规模临时性的存储空间需求时,可以快速订购大量的存储资源,而在使用结束后释放这些资源。当用户存储需求稳定增长时,云服务则可帮助用户实现与之相应的稳定资金投资,而避免跳跃式的固定资产投入。
第二,用户友好的自助服务界面。基于 Web 的图形化操作界面更加贴近现代用户的交互习惯,并将过往复杂繁复的操作流程高度逻辑化与功能化,降低了用户的学习成本。无论从简单的数据上传操作,到大型数据库系统的建立,通过简单的键盘与鼠标操作,均可轻松完成。另外,自助服务的形式,使用户具有了更多的灵活性与支配力,用户可以随时随意便捷地更新自己的存储需求。
第三,贴近最终用户的服务接入途径。云存储服务是通过宽带网络实现服务交付的,与公共互联网天然地互联互通。采用云存储服务的应用时,其来自最终用户的数据将直接通过互联网上传,省去了经由应用内部系统传输的过程,从而节约传输时间成本的同时,增强传输效率,优化用户体验。
运维智能化与自动化,实现更紧密的用户需求响应
云计算服务带来的另一项创新是实现服务运维的智能化与自动化。在硬件设备被虚拟化与抽象化之后,由软件定义的资源管理机制,是构成云计算服务的又一项核心。这一管理层类似传统的存储管理软件,而它管理的资源规模更加庞大与复杂,并且可以实现更多的自动化功能。在这种管理机制的帮助下,一个存储空间或一
项存储功能的产生、调用、部署与最终释放变得高效可控,并可以快速迭代。任何复杂系统的资源需求,可以在短时间内部署完成。
在传统构架下,为存储系统进行简单的扩容升级,往往也需要长达数天的部署时间。而在云存储服务下,这一操作仅需要几秒钟时间。云存储实现了对需求变化的实时响应。在需求实时响应的基础之上,云存储服务通过提供开放 API 接口,进一步实现需求的智能化响应。
API 开发接口的实质是提供一套外部与云服务内部管理机制的通信机制,使用户能够通过编程语言操作内部的管理机制,从而实现对云服务和资源的调用与管理。当用户同样通过可编程的方式追踪并描述自身的实时需求,便可通过 API 接口将这一动态的信息传递至云计算服务内部,从而实现与之相对应的资源或服务调度。从整体上看,云计算服务会紧密跟随用户需求的动态调整而自动做出响应,最大程度上利用云计算服务的弹性实现用量成本的最优化。
云计算服务智能化的实现有着更长远的意义,它将推进原生云计算应用构架的发展。现在的应用大部分仍基于传统的竖井结构——从上层应用层到中间件,到底层的基础设施,是相互锁定的,形成一个至上而下的竖井。这种结构缺乏灵活性,底层的基础资源一旦锁定便无法改变,即不能在资源不足时进行扩展,也不能在资源利用率不足时动态弥补其他应用的不足。虚拟化的资源池使资源动态部署成为了可能。但是,虽然有一些应用是构建在虚拟资源池上的,但依然以相对固定的虚拟资源配置支持其运行。问题就在于缺乏有效的智能化与自动化实施机制。上述提及的资源管理机制与对外开放的 API 接口则提供了一套完整可行的实施办法。
总而言之,云计算在将存储由硬件设备转化为服务之后,还为其提供了完善的管理调度功能,使云存储服务智能化,能够更加密切地响应用户的各类需求。
网络化存储带来便捷的数据管理与传输
云计算的基础是大规模的硬件设备集群,采用网络化的系统构架。具体到云存储服务,其内部的架构是一套网络化横向扩展的存储体系。目前主流的云计算服务(包括专门的云存储服务)都是采用网络化的系统架构,将数十万的硬件设备整合成一张大型的计算或存储网络。这些硬件设备并不一定在物理上集中于一地,它们往往分布在数个距离遥远的数据中心内,通过相互之间的网络建立联接。这种结构为云存储服务带来了如下几个特点:
第一,原生分布式架构实现原生的数据冗余,备份与镜像等基本功能。数据在云存储网络中,可以轻易被复制或以 RAID 模式进行备份,而每一个备份都会被存放在不同的物理设备中,甚至是不同的地理位置。这样,
可以说云存储服务网络中的每一个物理设备都可以轻易成为其他实体的备份。在传统的存储构架中,需要专门设立备份设备,数量也往往十分有限。云存储服务甩掉了在确保数据安全方面的硬件束缚,仅需要软件功能的实现,这也使得云存储服务有更大的发挥空间来提升自身的数据安全管理机制。
第二,横向拓展的结构更加适合非结构化数据的存储。横向拓展的结构确保了云存储服务的可拓展性。从理论上讲,云存储网络依靠横向拓展可以实现无限扩容,不断扩展自身的存储空间,而且可以快速实现。而非机构化数据最明显的特征便是体量大、产生快。无论视频或图像文件,单体文件的体量在不断增大。面对将持续长期且幅度巨大的非结构数据存储增长,可以横向拓展的云存储服务无疑是最为合适的选择。
第三,与 CDN 加速网络更紧密的结合。数据的大规模流通与传输成为未来发展的必然,而与之相应的数据传输能力也成为任何存储系统(或服务)需要解决的问题。CDN 网络是目前主流的数据传输加速服务。其本身的系统构架也是基于分布式的网络结构—利用地理上分布部署的加速节点,加速数据在局部区域范围内的传输。可以看到,云存储网络和 CDN 网络是十分相似,甚至有所重叠的。这也使得两者的融合更为便利,从而实现两种服务的优势互补。事实上,目前主流的云存储服务都开始提供 CDN 服务或类似的网络加速功能。如AWS 的 CloudFront 服务,阿里云的 CDN 服务。
融合大数据分析,助力数据生态建立
在未来的数字化大潮下,数据背后蕴藏的价值逐渐成为驱动社会和产业发展的核心要素。如果数据是未来社会的血液,那么云计算就是驱动血液循环的心脏。IDC 认为云计算与大数据分析将越来越紧密地结合,相辅相成,共同推进未来 IT 技术的发展与应用,并对社会和产业的转型产生深远影响。
存储作为数据的实体承载,对数据分析起到了基础性的支撑作用。而在云计算与大数据不断融合的背景下,云存储服务同样在实现大数据分析方面,起到了决定性的作用。IDC 认为有如下三个方面:
第一,针对大数据的数据量大:云存储服务提供对海量数据存储的支撑。面对正真意义上的大数据,其对存储量的需求将是惊人的(IDC 对大数据定义为大于 100T 的数据量)。而无论从技术性能,经济成本到用户体验,云存储服务都是海量存储的最好选择。
第二,针对大数据的数据类型多样性。如第一章节中所述,未来非结构化数据将占据主流。而非结构化数据的显著特征是之一就是数据种类的多样。视频,图片,日志,语音等多种类型的、不同特质的数据,将需要在一个整合的平台上存储。
第三,需要处理规模巨大的数据,运行大规模的数据运算算法,同样也需要来自云主机服务提供的海量运算能力支撑。云存储与云主机相辅相成,共同构成了云计算的核心能力。
中国云存储服务市场综述——IaaS 成为云服务发展主题,为云存储市场发展奠定坚实基础
在经过 2009-2012 年间云计算概念热潮之后,中国云计算服务于 2013 年开始逐渐落地,进入实质发展落地阶段。最终用户逐步认可云计算这种新的 IT 使用模式,云服务的采用率稳步快速增长。根据 IDC 云计算最终用户调研显示,19.2%的企业客户已经采用了公有云服务,另外有近 40%的受访用户表示会在未来一年内部署公用云服务。IDC 数据显示,中国公有云服务整体市场规模在 2014 年预期将达到 7.17 亿美元。而进一步深入到公有云细分领域,IaaS 市场是拉动公有云服务市场增长的主要动力。进入 2014 年,IaaS 市场保持高于市场平均水平的增速,预期全年将达到 3.54 亿美元,占据全部公有云服务市场份额的 46.7%。而根据 IDC 的预测,这一比例还将进一步提升,在 2015年将超过 50%。IaaS 将成为公有云服务市场未来几年内的发展重点。
云存储引领 IaaS 未来增长
随着数据的价值不断被发掘,承载数据的存储同样成为了 IT 市场中的热点。与之相对应,在公有云服务市场中,云存储作为构成一项基础性的云服务,逐渐成为了市场发展的热点。云计算服务往往始于虚拟化和云主机等计算类服务产品,而市场中早期的服务商也确实多以云主机为切入点,开始构筑自身的公有云服务体系。而最近两年内,进军云存储成为了云服务商的一致选择,作为完善自身产品体系和巩固市场地位的重要战略,如三大运营商在 2014 年内均在云存储领域有颇多举措。另一方面,市场中也同时出现了一批专注于存储及相关数据服务的云服务商。这些新兴的创业型服务商,更加贴近几年来兴起的互联网创业大潮,他们或是专注于某些细分领域(如视频,图像处理等),或是专精于某类型云存储技术,或是强于完善的用户产品体验。他们为云计算市场注入了更多的创新性与个性化元素,突显了用户体验的地位,促进了市场中的良性竞争。从市场规模来看,中国云存储市场一直保持着高于 IaaS 市场平均水平的增长速度。如图 4 所示,2014 年上半年度,云存储市场达到 47.3 百万美元,同比增长 98%。(同期 IaaS 市场整体增长52%)
图 4中国云存储市场规模,1H13–1H14 (百万美元)
来源: IDC, 2014
然而,目前云存储占 IaaS 市场份额依然较少。2014 年度上半年度云存储所占比重为 30.8%,低于云计算发达国家及地区的水平(如美国,2013 年云存储占 IaaS 的比重为 45%)。这一数字意味着中国云存储市场依然具有巨大的增长潜力,未来将成为引领 IaaS 市场增长的主要动力。如图 5 所示,IDC 预测截止 2018 年,中国云存储服务市场的市场规模将达到 5 亿美元,年均复合增长率54.5%。而其占 IaaS 市场份额,也将稳步提升至近 40%(如图 5 所示)。
图 5中国云存储市场规模预测 2014-2018
来源: IDC, 2014
图 6中国云存储市场在 IaaS 市场份额中的占比,2014–
2018
来源: IDC, 2014
数据汇聚云端,数据类云端服务渐成核心,IaaS 与 PaaS 不断深入融合
未来,数据将更多地聚合于云端。而云端的价值也将超越单纯的计算能力与存储空间,成为数据价值的策源地。当更多的数据被不断置入云端,对云服务的需求将会变得日益复杂。围绕数据展开的功能将成为未来云计算服务的热点需求:数据的管理、传输、备份、聚合、处理、分析等等。一方面作为 IaaS 层的云存储服务,其服务产品体系需要不断丰富来满足新的需求。另一方面,以云存储服务作为链接,IaaS 将与 PaaS 进行深入的融合,将云端丰富的资源能力与数据处理能力进一步地整合,为用户提供更多简便快捷而高价值的融合服务。用户需要数据背后的价值,而云端一方面具有丰富的数据存量,另一方面又具有强大的价值挖掘能力。两者的融合,将在未来顺理成章。
数据化运营需求将推进 IaaS 产品体系的精细化发展
如上所述,数据的大量涌入将推动云服务产品的多元化与复杂化。无论从服务产品的数量,到产品的功能,都将快速发展,并变得错综而复杂。而作为公有云服务的一大特点,便是完善易用的自服务体系。如何在产品体系变得日益繁杂的条件下,依然保持良好的自服务体系,使用户可以简便地理解各项产品功能,价格和使用方法,进而自由地选择搭配形成符合个性化需求的云服务,成为了绝大多数服务商面临的挑战之一。目前,国内依然有大部分的云服务商采用类似过去硬件销售的产品体系:将云主机,存储以及带宽打包销售。这样的体系缺乏扩展性,并且很难做到精确的按需付费模式。未来,云服务的产品体系将走向精细化,完善的产品分类与目录管理体系,以及与之相匹配的计量体系,将成为云服务商的一项发展热点。
七牛云存储成立于 2011 年,是一家面向企事业单位及独立应用开发者,提供基于公有云模式的数据存储,处理与加速服务的技术型公司。目前,七牛云存储已拥有近 20 万用户,来自互联网与移动互联、在线教育、O2O 、车联网、智能硬件等多个领域,包括陌陌、豌豆荚、知乎、唱吧、沪江网、汽车之家、海康威视等多家国内知名公司。
作为以技术为第一驱动力的成长型公司,七牛在云计算,存储及富媒体数据处理领域,有着深厚的技术积累和实战经验。从 2011 年底第一代云存储服务上线以来,七牛不断通过技术提升,来完善自身的服务品质。至 2014 年 6 月第二代七牛云存储服务上线,其可靠率已达到 16 个 9。与此同时,七牛不断发展丰富所提供服务的品类,致力于提供一站式云端数据管理服务。除基础存储与富媒体处理服务外,七牛于 2014 年 12 月,发布全球加速服务,开始为用户在海内外 42 个国家和地区内提供 CDN 加速服务。在未来,七牛将持续丰富服务品类,强化开发者支持能力,打造从基础存储服务到高性能数据处理能力为一体的数据管理平台。
而对云存储技术的积极实践,也促使七牛云存储一直倡导“对开发者深度支持”的发展理念。从服务上线之初,七牛就提供完善的开发者 API 支持,无论从 API 产品开发,到技术文档分析,到开发者培训与互动,七牛建立了完善的开发者支持体系。面对未来,七牛提出了建立更加“智能化”的开发者支持能力。七牛将致
力于提高产品自服务的自动化率,并提供开放平台,支持用户基于七牛平台,定制化实现所需的功能。目前,七牛已向用户提供 UFOP ,允许用户上传并运行自己的数据处理算法。七牛将在这一方向上,持续完善相关的产品支持。
除了在技术和产品层面为用户提供更好的服务体验和支持,七牛同样关注如何通过创新的服务模式,助力用户在业务层面取得成功。七牛自身的定位并不局限于云存储技术的提供者,而是致力成为海量数据的管理者。在移动互联的时代下,七牛认为云存储服务应该为客户解决完整的海量数据管理模式。从数据的产生,传输,托管,到数据处理以及分发,在数据全生命周期上的每一个节点,都应通过云存储服务的技术和产品,加以支持。同时,云存储服务应该成为强有力的支撑平台,支持各类围绕数据的第三方服务的接入,或用户自定义的数据服务开发,以形成围绕数据管理展开的生态体系。而在此模式的基础之下,从服务质量的维度展开,服务的可靠性、可用性、响应速度、自动化运维水平,以及成本的控制体系,都将成为公有云存储标准体系所考虑的一部分。云存储服务驱动下的数据生命周期管理模式,如图 6 所示。
图 6云存储服务驱动下的数据生命周期管理
(来源:IDC 作者:Charlie Chen )
如何实施和评估云存储的访问控制措施?
不管是对于商业还是家庭用户来说,云存储正成为一种流行产品。如亚马逊S3、Box 、Copiun 和Thru 等服务拥有功能丰富的产品,使用户可以轻松地备份、同步和存储文档和文件。
尽管普通消费者在使用这类服务时,不需要有太多的顾虑,但是,在选择云存储服务时,从加密到数据生命周期管理,组织需要解决很多安全方面的问题。企业的新兴领域关注于定义和控制访问方法以及定义实现基于云存储的控制 。
在本文中,我们将解释为什么云存储访问控制是一个重要问题,以及在制定和实施云存储访问控制和架构时,企业应考虑哪些问题。 我们还将讨论,在云提供商情境下,如何评估访问控制。
云存储访问控制措施
无论是云提供商管理员还是企业用户,管理访问控制应该是首要考虑的问题。 例如,Jacob Williams在2013年的Black Hat Europe会议上介绍关于Dropbox 恶意软件交付、指挥和控制问题,以及说明了自由访问云存储库是危险的,可能会导致数据泄露。
在2012年,Mat Honan的icloud 帐户被劫持,在这次泄漏事件中,使用了社会工程技术,并可能涉及键盘侧录。同时,由于该事件,许多以消费者为中心的例子,访问控制问题仍然放在第一和中心的位置。限制哪些人可以访问云存储,如何访问云存储,以及从哪里访问云存储,在评估云存储方案时,这些问题都应该作为重点问题考虑。
•
• 以下是企业在实施云存储服务时,关于访问控制机制,企业应该关注的一系列问题: 管理工具和其他管理应用存储的用户密码使用加密格式吗? 如果使用了加密格式,是什么类型的?加密格式经过定期测试吗? 此外,存储管理应用程序允许的密码长度、类型和持续时间的设定与执行?
• 云存储基础架构支持什么类型的安全连接?支持一般的安全通信协议吗?如SSLv3 、 TLS 和SSH ?
• 活动用户的会话是否超时? 如果没有一个合理的超时时间,在空闲客户端的端点,就会存在会话劫持的风险,是相当糟糕的。
管理工具支持多个管理员配置,来提供细粒度的安全水平? 管理应用程序的访问和配置云存储应该根据时间、日期和功能来配置选项,从而限制管理员的访问。 所有管理员的操作应该被记录下来,用于审计和报警,并且这些记录应提供给企业的安全团队。
云存储管理应用程序是否有能力定义细粒度角色和特权? 为了保持适当的职责分离,以及执行最少权限原则, 这种能力应该被认为是强制性的。
除了这些关键问题,应该仔细审查云存储基础架构访问方法的整体设计和架构。 企业可以考虑的一种方法是“CloudCapsule,”是一种全新的云存储访问控制方法,由乔治亚理工大学信息安全中心(GTISC )在“ 2014年新兴网络威胁报告 ”中提出。 CloudCapsule 利用本地安全虚拟机,用户可以利用访问云存储,数据被发送之前会自动加密。 这样的话,用户的本地系统与云服务数据交换之间在一定程度上分离开,同时也使得发送到云环境中的任何数据都会自动加密。 继GTISC 开发的模型之后,目前很多组织要求所有的云存储服务,通过虚拟桌面基础架构的虚拟机,可以访问,可以使用数据丢失防护(DLP )策略进行控制与扫描 。
与云存储提供商直接对接的加密网关,也越来越受欢迎。 例如,CipherCloud 代理可以自动加密发送到Amazon 的S3、RDS 和EBS 存储服务的数据,并且,可以自动加密发送到存储提供商的数据,如Box 。 端点安全工具,如whitelisting 和DLP 代理也可以用来限制云存储客户端的安装,并且,新的基于网络的监控工具,比如Skyhigh 网络公司可以监控、控制云存储服务的访问。
提供商控制
我们已经明确了组织如何审视云存储访问控制,但是,在云提供商环境内部的访问控制措施,也应该进行仔细评估。 当评估云存储提供商时,注意一些已经设置得当的访问控制和数据保护策略:
首先,管理用户,特别是存储管理员,在访问存储组件和内部区域时,应按规定,利用强大的身份验证方法。 提供商存储环境下,应充分利用隔离和分割技术,比如安全分区,交换机和主机的结构身份认证,超过全球通用名或者iSCSI 单独限定名的值,以及单独的交换机和整个结构的安全管理。
云服务提供商也应确保,每位客户的服务系统,与其他网络区分开,不论是在逻辑上还是在物理上,互联网接入、生产数据库、开发和中转区、以及内部应用程序和组件创建了单独的防火墙区域。
结论
尽管基于云的存储为企业提供了许多优势,但是,在将宝贵的数据传输到云存储提供商之前,有很多不能忽略的安全隐患。 值得庆幸的是,越来越多的安全厂商可以保证组织对云存储进行适当的访问控制。 只要企业事先做好准备,并且确保很好地解决了上述问题,云存储对企业来说,是一个很大的优势。
原文链接:http://www.searchcloudcomputing.com.cn/showcontent_80752.htm
(来源:TechTarget 中国 作者: Dave Shackleford 翻译:皮红 )
七问潜在公有云存储服务商
尽管他们可能看起来非常类似,但是在主要的公有云存储服务商的产品之间还是有所不同,因此你需要提前认真评估这些服务,而且要根据具体的存储需求进行评估。
开始着眼于服务条款和功能,不同的服务商可能存在差异。为了熟悉服务商希望维护的服务水平承诺,回顾一下服务水平协议(SLA )以及每一个服务商网站上的常见问题解答。随后可以根据最符合你的工作负载和服务水平需求的条件,缩小服务商候选的列表。
你还可能会进行一个粗糙的成本分析。存储服务成本可以分成数个类别,主要取决于你是否需求块存储或者对象存储。例如,在亚马逊Web 服务(AWS )弹性块存储(EBS )的情况下,你需要为其所提供的标准存储每月每GB 支付一些零钱,比如几美分,而相反标准的EBS 容量则会根据I/O需求收取上百万。“预分配IOPS 容量(旨在低延迟和最小化IOPS )”相对应的费用会更高。如果你选择定期快照你的EBS 容量到亚马逊简单对象存储服务(S3),你还要为所存储的数据按月每GB 支付一些钱。
对象存储价格的例子可参照亚马逊对于每一类S3存储(标准vs 减少的冗余)的不同收费。会根据存储对象的数量和规模有具体的按月成本,对象操作需求的类型和数量(Get 、Put 等)通过REST 应用编程接口实现,传输的数据量也有所限制。这些存储的成本一开始看起来无关紧要,但是却会快速增加你的AWS 存储安装的增长。
如果你考虑在公有云中运行关键应用和/或数据集,你应该尝试同每一个云存储服务商的客户对话。在这个实例中,强烈建议为支持服务付费,由于你的额工作负载和相关的存储无法忍受过多的宕机时间或者其他的服务问题。比如,亚马逊现在为数个层次的高级支持,服务面向开发者、中型企业和企业级客户。你可以同专业技术人员对话,他们来阐述保证的响应时间,得到最佳实践的知道,而且访问诊断工具和架构以及操作咨询资源,从而支持你自己的AWS 基础架构开发,或者扩展支持。云存储支持服务有点贵,尤其是对于高容量的客户而言更是如此,但是如果你在公有云网站上运转重要的工作负载或者管理关键基础架构,就会物有所值。
一旦你琢磨好基础成本和每一个云服务商的服务的条款,就可以开始探索整个存储服务功能的更多细节了。为了辅助这份工作,这里提供七个问题,在你同服务提供商进行调查对话时可能会用到:
2. 如何确保我的数据的安全,不管是在运行中还是处于休息状态?(关注物理/设备安全,以及防火墙、数据加密和访问控制)。
3. 如果可能的话,如何分配空间保护和维护我的数据,比如跨可用区域复制?术语有效性是如何定义的,在宕机事件中我会得到哪些补偿?
4. 服务商的SLA 保证是多少个九的有效性?术语有效性是如何定义的。在宕机事件发生时,我会得到哪些补偿?
5. 传统的数据保护是什么?是否提供快照和/或备份服务?
6. 我每月的总费用可能是多少,包括所有的提供商定价?
7. 如果我决定终止云存储服务,流程是什么,将我的数据转移回我的数据中心或者其他不同的服务商的网站上成本是多少?我如果确保之前所有的数据都会被完全删除?
在和一个具体的云存储服务商和服务做出决定之前,你应该对这些问题都要得到满意的大幅。如果你预先做了预习,你可能会得到更加满意的公有云存储体验。
原文链接:http://www.searchcloudcomputing.com.cn/showcontent_81694.htm
(来源:TechTarget 中国 作者:Arun Taneja 翻译:张培颖 )
在过去的十年中,IT 企业一直努力打破存储孤岛。而且随着企业开始拥抱混合云部署,由于缺少云存储的可视化,存储孤岛再次出现。然而一家云存储提供商提供了稳固的管理功能,另一个却提供了差不多的功能。下面我们将探讨在考虑公有云或者混匀存储部署时可能需要关注的地方。
所谓“知识解放劳动力”并不适用于存储管理,但也没错。一方面,要密切关注存储位置、成本是多少、发生了什么以及预测趋势,这些都很重要,做起来也很难。就像存储管理者在数据中心中处理存储,云存储出现了,而且掩盖了大量数据。在新兴的混合数据中心中,存储管理工具对于提供密切管处数据的知识仍旧很重要。反之,这样我们也可以将数据转移到更适合的位置上,减少对于提供商的使用。
最简单(而且最便宜)的云存储提供商可能提供了极少的存储管理门户或者控制面板。在一些案例中,这些都受限于磁盘层级和文件目录的窗口视图。从用户访问简单文件注册库的观点来看,这可能已经足够了。但是,这并没法为IT 群组提供一种成熟的数据类型、增长率和成本控制的观点。尽管这些提供商可能说自己的服务是为企业提供的,但可能更加时刻消费者。
企业级厂商会提供报告机制或者门户,为客户提供了存储注册库的洞察力。大多数时候,这些都受限于物理级别的度量,比如消耗(容量、带宽等)、运行时间或者其他的服务水平协议度量。这些都是账单和治理所需要的关键度量因素,但是对于更加有效的管理存储作用微乎其微。
在数据中心中,很多IT 组织已经实施了大量的存储管理制度,从而巩固存储、预测需求、优化容量并交付性能。因此,在云提供商交付的存储管理和内部功能管理之间存在明显的代沟。从实践的角度看,这也导致了存储孤岛,管理者被迫处理每一种独立的存储类型。这些隐藏了公有(混合)云部署背后的业务案例成本。
混合存储管理功能还处于发展初期,但是其发展速度突飞猛进。直到这些功能成熟为止,IT 组织应该在选择云存储提供商进行评估标准指定是时,增加管理集成。初期的集成点关注身份认证和全球访问控制,但是会逐渐发展,直到涵盖混合物理身份的统一观点。这种集成可以通过第三方软件厂商提供应用程序接口(API ),进行收集和报告云相关的数据。
在未来的云厂商评估中,IT 经理可以采用如下的功能作为探讨的重点:
• 身份验证集成(如Active Directory、Lightweight Directory Access Protocol)
•
•
•
• 密钥加密管理(如果异地数据属于机密数据就很重要) 第三方存储管理提供商的API 可用性和采用度 存储管理面板、SLA 监控和关键性能指标 容量预测和优化、成本分析和数据保护分析
短期内,很少云提供商能够交付这些基础之上的内容。然而,提供商应该有一个稳定的路线图,可以清晰地描述出来。市场可能会发展,但是市场领导者还是期待客户的需求。
原文链接:http://www.searchcloudcomputing.com.cn/showcontent_80330.htm
(来源:TechTarget 中国 作者:Phil Goodwin 翻译:张培颖 )
云端大数据平台评析
当谈到在云端实施大数据战略时,好消息是你会有很多选择。但是,这同时也是一个坏消息。来自Forrester Research 最近的一份报告强调,尽管大数据云服务很强大,他们也有可能造成混乱,从而需要企业采用比传统的方式更加灵活,琐碎的方法。该报告的结论是:在云计算领域中没有一种服务是适合所有状况的。
最大的三家公有云平台—亚马逊Web 服务(AWS)、微软的Azure 和Google--提供了范围广泛的大数据服务,但每一种服务又完全不同。由于每个公司的大数据需求不同,技能集也不同,评估所有的平台来确保你获得的是正确组合的服务非常重要,Kirk Borne,乔治梅森大学的数据科学家,天文物理和计算科学教授同时也是一位知名的大数据专家这样建议道。
“任何大数据的实施都必须从你试图解决的问题开始,”Borne 说。“你需要在花大把资金之前先了解企业的情况,确保你从可用的服务中选择正确的那个。”下面来看下这三大主流云平台提供的大数据产品,以及第四家Altiscale ,这是一家比较新的公司,有自己的Hadoop 云平台。
AWS :选择和机遇
在每一项迁移到云的决策中,一个平台的“生态系统”,即服务、合作伙伴、专家和系统集成师扮演了重要的角色。根据Ouoble ,一家在AWS ,Google 和Azure 平台提供大数据即服务公司的联合创始人兼CEO Ashish Thusoo的观点,AWS 的生态系统要比其他的云平台更大、发展得更好。AWS 生态系统使得这个平台对于想要将大数据迁移到云中的企业客户来说非常引人注目和令人感到安心,他说。这种吸引力的一部分原因是因为各种可用的服务。亚马逊的一整套大数据服务包括了Hadoop 的弹性MapReduce 即EMR ;用作数据流处理的Kinesis ;基于集群的数据仓库RedShift ;面向亚马逊关系型数据库RDS 的Aurora 和My SQL(等其他);NoSQL 数据库DynamoDB ;超简单存储或者S3;还有全新的Amazon Machine Learning。
“AWS 能够提供过去的历史报表和仪表盘,现有的数据流处理和分析,和现在未来预测的建模工
具,”Mike Gualtieri,一名Forrester Research的分析师,Forrester 大数据研究报告合著者说。他认为AWS 的RedShift 对那些已经厌倦了很慢的传统数据库环境中的报表的企业客户来说尤其诱人。“RedShift是AWS 服务中发展最快的,将你的数据迁移到那里运行所有的分析非常合理,”他说。“这真的是一种云的合理使用
Google BigQuery:开发者之梦
Google 的大数据平台BigQuery ,是为流数据和持续分析而设计的。该平台有一个预测性的数据API ,一些其它的Google 专属API 和标准的Java 产品。“关于Google 的问题是它是非常面向开发人员的,比其他平台更加如此,”Gualtieri说。“在Google ,你必须接受他们专有的技术和API ,并且足够聪明到可以搞清楚。”Google平台提供了Hadoop 作为一个大数据的选项,但是Gualtieri 提醒公司企业如果想在Google 上运行Hadoop 的话需要具备企业内部的专业技能。“它就在那里,但你最好自己要知道如何获得,具体到命令行的级别,”他说。但对于某些公司,Ouoble 的Thusoo 说,Google 则是最完美的选择,尤其当价格和性能决定一切的时候。“我们对Google 在价格和性能上做了基准测试,Google 在这块绝对是佼佼者,”他说,“性价比通常对创业公司非常重要,因此谷歌是他们的最佳选择。”
Azure :Hadoop 之力
Azure 平台的大数据产品HDInsight ,和SQL 数据库以及存储一起,旨在能够同微软流行的Excel 电子表格无缝工作。这对于客户来说是一个巨大的卖点,因为根据Forrester 的报告表明,在大数据所在的地方处理大数据(也叫数据重力)会让整个过程更轻松。“我真的认为Azure 在混合领域里有其优势,”Thusoo说,“很大部分是因为微软可以利用自己本地应用的影响力。”HDInsight 是由Apache 的Hadoop 支持的,这也是一大吸引力,Forrester 的Gualtieri 说。“微软有许多不同的工具,包括机器学习和预测分析,”他说。“而对于任何想要用Hadoop 做大数据分析的人来说,Azure 是一个非常好的选择,因为它很容易获得并且具有强大的控制面板。”
Altiscale :一直都是大数据
成立3年的Altiscale 最开始是在自己的云里推出Hadoop 即服务。这家公司的创始人,Raymie Stata,在创建Altiscale 之前曾是雅虎的CTO 并且为这家网络巨头开发了Hadoop 即服务。“Altiscale的设计从本质上是独一无二的,”Altiscale的COO Mike Maciag解释道。用户可以从三大云服务供应商获得“通用的”大数据服务,但Altiscale 的云是从硬件以上都进行了定制可以更高效地运行大数据,Maciag 说。“大型云供应商为很多的纵向处理提供了良好的计算密集型的功能,但大数据更多的是大规模并行处理,这意味着它是横向的。Altiscape 是专为Hadoop 构建的来避免吵闹邻居的问题。”
原文链接:http://www.searchcloudcomputing.com.cn/showcontent_89287.htm
(来源:TechTarget 中国 作者:Valerie Silverthorne 翻译:谈翔 )
当心!大数据即服务(BDaaS )两大问题
受用户希望在平板电脑和智能手机上运行应用程序的需求驱动,移动计算应用已得到了长足的发展,它迫使相关关键技术和控制数据的人都发生了深刻的变化。就传统而言,数据都是处于IT 部门的绝对控制之中的,但是现在IT 部门正在给营销部门让位,这就是对于基于云计算的大数据分析所存在着的一个起反作用的不利影响,不过业内很多人在很大程度上都忽略了它,总部位于马萨诸萨州Milford 的市场研究公司企业战略集团(ESG )大数据与分析资深分析师Nik Rouda说。
“在过去,数据库都是由IT 部门来管理的,但是现在我们经常看到营销部门或销售部门都对等待项目上马感到了非常的厌倦,因此他们往往会撇开IT 部门而自行组织项目实施,”Rouda说。“越来越多的项目都是由数据科学家启动的,他们将这类项目作为一个基于云计算的DaaS 来运行,而且其运行成本较低运行速度更快。”
这正是其中的关键,一家总部位于澳大利亚悉尼的DaaS 供应商 Contexti 公司的创始人兼CEO Sidney Minassian 说。“BDaaS或DaaS 是实施的最佳切入点,企业可以在这样的平台上进行概念验证和试运行,且无需大规模的前期投资、不必等待六个月或以上的时间以求一个内部开发的解决方案。”
在项目成功之后,还有另一个不利影响稍晚还是会起作用的。“这些DaaS 项目总是能够达到一个回归IT 部门的极点。营销部门的人会说,”我们开发了这个项目,而且它运行非常良好,那么你们IT 部门何时会在整个公司范围内推广这个项目呢?”ESG的Rouda 说。“IT部门会驻足表示,他们既不会支持也不会确保解决方案的实施,并且还会质疑这个项目的成本以及这个项目是否符合安全性的要求。”其结果就是针对营销部的不利影响“当IT 部门表示‘我们都不是Hadoop 专家,也许你最好使用第三方DaaS 供应商提供的服务,”他说。就是如此这般,IT 部门是不会把这类项目置于他们的控制范围之内的。
虽然在云计算中驻留的数据的安全性仍然还是一个问题,但是当谈及BDaaS 时IT 部门还有着其他的担心。 “客户们需要考虑他们是否希望受制于数据存储的位置或服务托管的所在、他们受制于什么样的开放或专用解决方案,以及如果他们决定把服务迁会企业内部或迁至另一家供应商那么应用程序将会面临些怎样的问题,”Contexi 的Minassian 说。总部位于马萨诸萨州Cambridge 的Forrester 研究公司的分析师Brian Hopkins
表示,一个关键的问题就是,如果这个服务是归营销部门所有的,那么一旦发生了什么样的问题,将由谁来承担责任。他问,“如果出现了问题,那么谁会来买单?”
ESG 的Rouda 表示,针对敏感数据的业务容忍度也应该是一个受关注的问题。他指出在欧盟中,数据驻留的位置是受到法律法规严格监管的,这类数据通常是无法跨越国家边界的。
但是,Rouda 还是看好DaaS 的。“几乎每个人最终都会在云计算和分析中用到大数据。用户离裸机的距离越近,用户就越能对裸机进行定制,这样的解决方案让用户能够更简便地上手。”
最后,它转了一圈又回到了理解大数据组成部分的阶段。“根据数据量和数据速度,应选择一个符合实际情况的解决方案,”IBM 公司云计算服务总经理Jim Comfort说。“此外,也有必要理解实时性、准确性和综合处理等方面的情况。”
原文链接:http://www.searchcloudcomputing.com.cn/showcontent_89117.htm
(来源:TechTarget 中国 作者:Joel Shore 翻译:滕晓龙 )
Apache Sqoop:云端大数据分析的关键一环
Hadoop 正成为企业用于大数据分析的最热门选择,但想将你的数据移植过去并不容易。Apache Sqoop正在加紧帮助客户将重要数据从数据库移到Hadoop 。
正当大数据变得越来越重要,而越来越多应用都在云上部署时,云管理员也面临了不断增长的将数据从源系统转移到分析系统——其中最热门的就是Hadoop ——的需求。ETL 工具的自定义脚本在过去辅助了这种数据迁移,现在Apache Sqoop正崛起成为更好的选择。
随着Hadoop 和关系型数据库之间的数据移动渐渐变成一个标准的流程,云管理员们能够利用Sqoop 的并行批量数据加载能力来简化这一流程,降低编写自定义数据加载脚本的需求。
Apache Sqoop是一个将数据在关系数据库及Hadoop 之间转移的命令行工具。对于某些NoSQL 数据库它也提供了连接器。Sqoop ,类似于其他ETL 工具,使用元数据模型来判断数据类型并在数据从数据源转移到Hadoop 时确保类型安全的数据处理。Sqoop 专为大数据批量传输设计,能够分割数据集并创建Hadoop 任务来处理每个区块。
Sqoop 有一个非常小的命令集,里面包括导入和导出,列出数据库和表信息,生成Java 类来操纵数据,解析SQL 命令以及其他一些更专门的命令。生成Java 类的命令对于在Hadoop 里编写Java 应用来进行数据操作特别有用。SQL 解析命令可以显示执行SQL 语句的结果,这在搜索新数据库或产生复杂逻辑的查询时非常有用。
使用Sqoop 比自定义脚本有一定的优势。其一就是,Sqoop 被设计成具备容错性。你也可以自定义脚本来监控你的工作状态,然后从故障中恢复,但是那有可能难以置信的耗时。
使用Sqoop 需要注意的地方
尽管有以上的优点,在使用Sqoop 的时候还有一些事情需要注意。首先,对于默认的并行机制要小心。默认情况下的并行意味着Sqoop 假设大数据是在分区键范围内均匀分布的。这在当你的源系统是使用一个序列号发生器来生成主键的时候工作得很好。打个比方,当你有一个10个节点的集群,那么工作负载是在这10
台服务器上平均分配的。但是,如果你的分割键是基于字母数字的,拥有比如以“A”作为开头的键值的数量会是“M”作为开头键值数量的20倍,那么工作负载就会变成从一台服务器倾斜到另一台服务器上。
如果你最担心是性能,那么可以研究下直接加载。直接加载绕过通常的Java 数据库连接导入,使用数据库本身提供的直接载入工具,比如MySQL 的mysqldump 。但是有特定数据库的限制。比如,你不能使用MySQL 或者PostgreSQL 的连接器来导入BLOB 和CLOB 类型。也没有驱动支持从视图的导入。Oracle 直接驱动需要特权来读取类似dba_objects和v_$parameter这样的元数据。请查阅你的数据库直连驱动程序局限性的相关文档。
进行增量导入是与效率有关的最受关注的问题,因为Sqoop 专门是为大数据集设计的。Sqoop 支持增量更新,将新记录添加到最近一次的导出的数据源上,或者指定上次修改的时间戳。
由于Sqoop 将数据移入和移出关系型数据库的能力,其对于Hive —Hadoop 生态系统里的著名的类SQL 数据仓库—有专门的支持不足为奇。命令“create-hive-table”可以用来将数据表定义导入到Hive 。
原文链接:http://www.searchcloudcomputing.com.cn/showcontent_86735.htm
(来源:TechTarget 中国 作者:Dan Sullivan 翻译:谈翔)