面向云平台的集群运维管理方法研究_罗芸
···························
O运营关注·
perationFocus
面向云平台的集群运维管理方法研究
罗芸张晓川朱建中
中国移动广东公司业务支持中心工程师
中国移动广东公司业务支持中心高级工程师中国移动广东公司业务支持中心工程师
摘要:介绍一种适应当前通用云平台的运维管理
复杂软件服方法,主要适用于在大规模计算集群、
务场景下的云计算平台。该方法遵循自动化的思路,通过分布式部署,集中管理、监控以及维护整套平台,实现精简运维设施及人员,简化运维复杂度,推动服务流程化、自动化。关键词:云计算,大规模集群,自动化,运维管理Abstra ct :This paper describes an operation and maintenance management methods adapted to the current generic cloud platform, which is mainly used in large-scale computing clusters, complex software service scenarios cloud computing platform. This method is the use of automated ideas, through dis -tributed deployment, centralized management, moni -toring, and maintenance of the entire platform, to streamline operation and maintenance of facilities and personnel, simplify the operation and mainte -nance, and promote service processes and automa -tion.
Keywords:cloud computing, large -scale clusters, automation, operation and maintenance management
1引言
随着云计算技术的发展,越来越多的IT服务系统逐渐向云平台迁移。但是,作为一种新的业务模式及技术平台,旧的运维管理系统已经管理不了成千上万的集群硬软件设备。
针对云平台的架构和特征,本文提出一种适应云平台的运维管理方法,采用集中管理和分布式部署技术,可以对上千个集群系统进行统一配置和管理,并对每个集群进行自动化监控和智能报警,实现大规模云平台的自动化、统一化、规范化及简易化管理。
该方法主要关注云集群的集中配置和自动化监控。其中,针对集中配置管理,提出云平台配置相关的分解式应用的集中管理操作事务,实现云平台的硬/软件系统、和简易配置,以及配置后自动化实施的能力;针对自动化监控,提出一种分层的分布式监控架构,通过采用分布式计算技术,实现大规模集群的从系统到业务的全面监控,以及故障的报警管理。
54
MSTTJuly2013
····························
M
现代电信科技
ODERNSCIENCE&TECHNOLOGYOFTELECOMMUNICATIONS
2云平台集群运维管理方法概述
所谓云平台,就是利用云计算技术和思想构建起来的系统平台,提供公用/私有的计算/存储服务,或集成特殊应用的私有云平台。一般分为三种服务模式:基础架构即服务(IaaS)、平台即服务。(PaaS)和软件即服务(SaaS)
而针对云平台的运维管理就是对提供以上三种服务的云平台的监控和管理(如图1所示)。
随着电信等各种公共服务业务对IT系统整体运算性能要求的提高,以及云计算技术的普及,企业IT系统的基础设施规模也随之不断扩大,甚至有些互联网企业可能会在两个星期内增加上千台服务而对运维团队而言,通过传统的方法一个一个手器。
工搭建的方法不仅繁琐,效率低下,而且不容易管理和监控,非常不利于IT系统的维护和扩展,直接影响到企业业务的正常运行。
同时,IT系统日常的备份、服务器状态监控和日志,通过手动的方式来实施的效率也很低,这样,IT系统也没有真正发挥提升企业效益的作用。因高效率、易扩展升级、适应当前云计此,高度自动化、算平台化趋势的的运维系统将成为未来发展的趋势。
根据现实需求以及发展趋势,本文提出一种适应云平台的集群运维管理方法(图2)。针对云平台的IaaS、PaaS和SaaS三种服务的特点,通过对系统资源采用agent方式分布式部署,并在控制中心默虚拟机配置认集成流程管理模块集(包括流程引擎、
流程管理等模块),全面覆盖三种服务的管理监控,实现基础平台的嵌入,实现与控制中心的通信交互。其中,针对IaaS的管理集包括自动装机、自动配置、虚拟机监控模块;针对PaaS的管理集包括分布式智能监控、系统自动配置、安全管理以及用户管理模块;针对SaaS的管理集则包括
图1匹配云平台的运维管理模式
应用自动配置、SOA系列模块以及日志分析管理模块。同时针对运维平台的内部通信,采用分布式通信协调模块实现优化,增设负载均衡模块实现对运维平台的负荷进这样控制行优化。中心就可以利用定制的流程或者指令集发布的控制指令分布式发
2013年7月第7期现代电信科技
图2适应云平台的集群运维管理方法
55
···························
O
运营关注·
perationFocus
给agent实现本地并行执行,而系统信息以及各系统应用的运行状况通过a-gent集中上报给控制中心,并通过告警规则过滤器的信息按照预配置规则触发预定指令或者直接告警,实现自动化监控。
该方法主要采用流程引擎定制集中自动化配置模板,实现对IaaS层系统装机/PaaS层系统和软件、应用业务的统一流程化配置,以及自动更新管理;同时采用集中-分布式通信模式,分布式监控管理I-PaaSaaS系统硬软件资源、系统软件以及业务相关功能/性能指标,实现各单位分布式计算,独立自监控、
而控制中心则统一对数据进行管理,实现监控的全面覆盖。
下面对该方法中主要应用的集中自动化配置管理及分布式监控管理技术进行详细介绍。
数的设置、告警动作的定制等。
基础的自动化配置包含集中自动装机(图4)、集中自动软件管理等功能(图5)。集中自动装机通过一个服务器管理不同配置集群,各集群内的硬件配置相同,通过预装PXE环境,实现相应远程管理
集中自动化配置管理,涉及从任务的模板定制、发布、到命令传送至实体运行单位,并通过预配置自动发布对实体运行单位进行管理,所有原始配置数据集中于配置管理数据中心(CMDB),而监控数据。通过流中心集中存储集群监控和状态数据(图3)资源、监控以及告警的程管理规则,任何涉及应用、任务,均被定制为模板,该模板为有序执行单位序列,在定制发布后根据CMDB数据作用于相应模软件的更新、以及监控参块,例如目标系统的安装、56
MSTTJuly2013
图3集中自动化配置管理
图4集中自动装机
3集中自动化配置管理技术原理
任务的接受,并从服务器上取得指定配置进行系统安装,达到统一自动化安装功能。
图5集中自动软件管理
····························
M
现代电信科技
ODERNSCIENCE&TECHNOLOGYOFTELECOMMUNICATIONS
集中自动软件系统则通过自定义或者预设置模板,促使指定的任务派发到指定集群具体设备,而各设备自身agent通过获取CMDB配置数据,并根据实际情况从软件服务器获取软件或者更新软件包。软件的安装或者更新配置是通过软件管理服务器的控制来实现,同时各设备自身的更新结果上报给管理服务器,并最终反馈给任务派发端。
-存储节点的一对多模式。这样多个client配合proxy,有效缓解数据传输带来的带宽以及速度瓶颈,将数据缓存至proxy后统一上发至server,备份服务器backup作为容灾备份设施。同时proxy无任何独立配置信息,client也可直接由server获取各自配置信息。
对于复杂集群,由于监控项数目调整,需要统一采集的数据会成比例增长,这对数据存储具有强大压力。这就要求数据存储系统具有极大弹性,能够在提供稳定I/O效率的同时,还能按需要自由伸缩其规模,达到整体集群性能自由升降的目的。因此,基于分布式云计算思想,数据存储采用引擎-存储节点的一对多集群模式,利用分布式引擎作为集群调度/任务分派控制器,存放与数据结构信息相关的元数据信息,并将该信息映射到其控制的所有存储一方节点,而具体的原数据直接存储于各存储节点。面,通过存储引擎,存储节点信息对外部访问者来说是透明的,而外部访问者面对的是同一数据结构信息,其实际存储位置及大小等情况都直接由存储引通过调度算法,外擎通过算法均衡配置。另一方面,
部数据请求都通过存储引擎服务来定位到具体存储节点物理位置,然后由目标存储节点直接对外部提供数据服务。
4分布式监控管理技术方案
自动化监控主要实现对整个云平台的监控以及上层业务应用的功能/性能监控,保证业务服务的正常运转。针对云平台的三层结构和不同结构体系功能的特点,该模块根据实际应用场景可抽象出两类监控类型。
一是基础监控类型:包括磁盘、网络、CPU等硬件及系统相关基础设施的项目监控。同时,根据可配Web服务、ftp服置原则,常规的基础软件如数据库、务等都纳入到默认基础监控类型中。
二是定制化监控类型:包括实际的业务软件相关的性能参数、子功能项等,这类涉及应用内部运行细节、流程或中间运行结果的项目,通过自定义消息机制实现此类数据的采集编码发送监控数据中心。
4.1分布式监控系统设计
如图6所示,分布式监控是适应被监控云平台的规模庞大、数据繁杂、以及实际应用中弹性设置等特性,利用分布式处理的技术,实现可扩展的监控体系。通过采用serv-er-proxy-client方式实现监控端构架,并在分布式存储方面采用分布式引擎
图6分布式监控系统设计
2013年7月第7期现代电信科技
57
···························
O运营关注·
perationFocus
由此,理论上存储系统的性能为:整个问题处理过程的跟踪。
P Â??ÄP $Ä?y Ä(1)ÃÂ
Á
其中i为设备类型,i ?I ,为设备类型总数。P $Á
为i类型单设备对外提供数据性能,yi为i类型设备对于类型单一的设备,整体系统的性能与设备数目。数目近似正比。
而理论上的成本为:
(2)Cost Á−Cost Å?Cost ÂÁÃÄÆÇÈÉÆÃÈ ÁÃÈ
Cost Á其中Cost Á为设备投入,为建设维护ÂÃÄÅÂÂÃÄÅÂÃÄ
成本。
而由于
图7自动报警方案
Cost Á−Cost Ã?Cost È(3)ÂÃÄÅÂÃÄÄÆÅÂÇÇÉ ÈÈÃÄ 5测试与结果分析
其中Cost Á为安装费用,Cost Á为因调整性ÂÃÄÁÁÅÆÇÂÃÄÅÂ
能,伸缩整体系统而产生的改造费用。
因此:
该实验采用基于标准三层架构的私有云平台,96G集群20台电脑配置如下:2×E5606的CPU,
Cost Á−Cost Å?Cost È?Cost (4)DDR31333MHz的内存,2T×2+SSD300G×1的硬ÂÁÃÄÆÇÈÉÆ ÁÃÄÄÆÉ È
配有存储服务器2台,每台容量为26TB。盘。另外,,yi为该类对于类型为i的单独设备费用为D $Á
型设备数目,则设备费用为:
总费用为
根据公式(1)和(5),可以按照图6的方法进行分析,整体系统的成本主要为设备添置费用,由于采用统一自动化管理,系统配置改动产生费用几乎可忽略。而整体系统的性能则与设备数目近似成正比。
4.2自动报警系统设计
自动报警系统是指通过对监控数据的分析判断,并根据实际故障进行相应的处理以及问题跟踪(图7)主要分为数的全过程。本文的自动报警方案
据源、数据处理、以及报警反馈。其中,数据源来源于原始运行系统数据和被探测服务端口、性能等数据;数据处理包括复杂计算,数据的阈值判断以及按业务组合进行的智能分析;而报警反馈则根据预先的故障规则,和报警策略,进行应对问题的联动处理和58
MSTTJuly2013
其中每台物理机虚拟化为4个虚拟机,基础配置统为CentOS6.2,共80台虚拟机。运维平台为2台
为2.0GHz双CPU,4G内存,80G存储空间,操作系Cost Â??ÅD $Å?y ÅÃÄÅÆÃÁÁ
Cost Â−?ÆD $Æ?y Æ?Cost Æ?Cost É物理机和4台虚拟机,其中一台物理机部署监控系(5)ÃÂÄÅÇÈÂÄÅÅ ÉÉÆÇ ÁÁ
Á
Á
统,另一台作为备份服务器,此外,2台虚拟机作为数据集群。整个系统配置如图8所示。
对该系统的系统资源及业务进程等总计100个项目标实现监控。图9显示了对系统资源的实时监控状况,图10显示了入库业务进行的实时入库速度监控情况。按数据采集间隔3分钟,7天产生数据17.8GB,实际一天数据平均增量为2.54GB,每个监控项产生0.317MB左右数据。按照每数据节点3MB/s的I/O吞吐量,每台数据节点组合最少能支撑4542个监控项目数据。实验结果表明,本方法适合于对大型集群系统的监控。
6结语
本文提出的面向云计算架构的运维管理方法,
····························
M
现代电信科技
ODERNSCIENCE&TECHNOLOGYOFTELECOMMUNICATIONS
能够规范化地管理目标云平台。而根据实际成本和性能扩展模型,可以确定该方案以其自由的伸缩性和可控的成本特性,非常适应于常用结构的云平台管理。
采用本文方法进行的测试显示,对于中型规模的集群完全可以无压力
图8资源配置设置
监控。但对大规模集群的应用场景依然对性能提出诸多苛刻要求,当监控项目突破到上万个时,系统内部数据通信机制、数据传输的冗余数据策略等都需要针对大型的云平台做特定研究和优化。根据云技术的发展,未来新需求催生的大型IT系统都倾向于采用云计算结构,而更多基于旧有业务的IT系统面临着云计算改造或者向云平台迁移的趋势。这些现实需求都会推动实际的传统集群与云平台混合系统的出现,届时对于混合系统的监控,运维管理将会是一个极有挑战的课题。
图9云平台运行实时监控状况
图10以5秒为周期,100M 为单位,
监控GMCC 应用入库速率一天分布情况
(上接第53页)
0.5倍波长间距的双路单极化天线、4倍波长间距的10倍波长间距的双路单极化天线双路单极化天线、
方案相对非MIMO的单路单极化天线的方案吞吐量提升基本相同,约80%左右。
参考文献
[1]StefaniaSesia,ISSamToufic,MatthewBaker.LTE-UMTS长期演进理论与实践[M].马霓等译,2009.
[2]高精,吕江伟,张静.LTE系统中多用户MIMO容量分析[J].电信工程技术与标准化,2013(01).
[3]吕召彪,李新中,杨军.LTEMIMO室内场景解决方案研究[C].《2011全国无线及移动通信学术大会论文集》.人民邮电出版社,2011.
[4]3GPPTS25.996:TechnicalSpecificationGroupRadioAccessNetwork;SpatialchannelmodelforMultipleInputMultipleOutput(MIMO)simula-tions(Release10).
案间进行对比,有利于灵活改造现有室分系统,实现成本与收益的均衡。
3结语
LTE室内分布系统中采用MIMO方案,可以有效实现数据量的分流,对提高用户速率,改善传输质量,增加系统容量方面具有重要意义,对影响MIMO性能的参数进行理论分析以及对不同MIMO改造方
2013年7月第7期现代电信科技
59