系统运维(公司IT管理)工作规范
XXXXXXXX 有限公司工作规范
目录
一、 系统运维管理的维护职责 二、 系统运维管理职责的划分
1、 2、
系统管理员职责 系统工程师职责
三、 系统运维管理具体工作内容
1、 2、 3、 4、 5、 6、 7、
资产统计管理
网络、安全系统运维管理 主机、存储系统运维管理 应用服务系统运维管理 数据系统运维管理 信息保密管理 日常运维
一、 系统运维管理职能
运维管理人员具体承担全公司网络系统的设计、规划、建设和管理。网络管理人员的主要职责有:
1.根据网络运维特点和运维需求,拟定公司网络运维管理的方针、政策、保障计划等提供决策,并组织实施;
2.承担网络执勤、监控工作,掌握网络运行状况,及时处理网络故障; 3.掌控网络的各项资源,如IP 地址、域名分配等;
4.定期分析讨论网络运行状态与运行质量,对比各项参数,排除潜在故障隐患,提出网络改进意见;
5.保障公司网络系统的正常运行,并提供网络应用的技术支持; 6.对服务器数据及其他重要数据的备份管理; 7.公司网络技术文档资料的管理;
8.收集和反映公司网络使用人员的意见和建议,完善网络功能、改进网络性能,为全公司人员提供满意的服务。
二、 系统运维管理职责的划分
运维管理保障人员包括:系统管理员、系统工程师。 1、系统管理员职责:
1)组织制定公司网络运维的方针政策、管理制度,并组织各部门积极落实; 2)完成公司网络运维的日常行政管理工作,负责检查、督促、考核系统执勤情况;
3)组织技术力量,及时、准确地处置网络发生的故障;
4)检查系统运维工作,定期(或不定期)讲评运维人员业务工作情况,安排网络管理的相关工作。
2、系统工程师职责:
1)掌握我公司网络总体性能指标,系统拓扑结构、设备连接关系、信息流程以及各系统设备功能和工作状态;
2)熟练掌握系统设备的硬件安装、线缆连接、系统设置;熟悉软件的安装、测试、升级等管理工作;完成网络系统的资源调整、配置等任务;
3)掌握系统常用故障的检测手段与排除方法,迅速准确定位故障部位,积极和其他专业技术人员密切配合,排除系统故障;
4)熟悉公司网络设备及系统定期维护方法和步骤,负责分管设备的安装调试与维护工作;
5)随时监控计算机病毒在公司网络上的流行,定期检查公司计算机病毒库升级工作,做好计算机病毒的防范工作;
6)掌握电工技术、配电设备组成及工作原理,熟悉电源设备的技术指标、机房配电线路及供电情况,定期检查设备线路的安全状况,确保人员及各项设施的用电安全,提出合理的预防处理措施;
7)掌握机房安装配置的空调机工作原理和空调系统技术性能指标。熟悉空调系统设备的定期维护方法与步骤;在相关技术人员的配合下排除设备疑难故障;保障设备稳定可靠运行;
8)具备良好的工作作风和严谨的工作态度,服从管理,认真负责,坚守岗位,出现问题要冷静分析、沉着处理;
9)提高自身素质,加强学习,努力钻研,收集整理技术资料,提高分析问题、解决问题的能力。
三、 系统运维管理工作内容
1、
固定资产管理
企业对固定资产的管理,主要体现在固定资产购置、管理、使用、折旧、转让等方面。部门主要负责实时记录固定资产变动情况和定期统计本部门固定资产使用使用并提交资产统计表。
运维部固定资产包括三个部分:办公自动化设备、机房内部设备、库房资产。 1)办公自动化设备使用人员不得擅自拆装更换设备,并且有妥善保管义务,定期对设备进行维护、检查其使用情况。设备添加、更换、升级、和故障,使用人员应及时更近资产统计表信息,并注明事由。
2)机房设备应有固定人员进行维护管理,非工作人员未经许可不得进入。机房设备如出现变更,要及时汇报给上级部门和相关部门,协同处理问题,尽快的恢复正常运营。
3)库房存储的资产应及时做好进出库记录,并定期对库房进行盘点核实库房资产统计。
附表:
固定资产清单统计表
库房资产统计表
2、
网络、安全系统运维管理
1)网络系统的运维管理从三个方面实现:网络的连通性、网络的性能、网络的监控管理。
网络系统运维的前期准备,需要有整个网络拓扑图,机房网络拓扑图,核心设备端口平面详图,接入设备端口平面详图,办公区域端口平面详图,并且需要对网络设备、网络端口、连接线路做与拓扑和平面详图相对应的标示。前期准备工作,可以做为公司的技术文档的一部分,也可以为公司运维管理带来更加准确的网络基础依据。
网络连通性需归纳到每天的主干网络日常巡检工作范畴内,连通性测试可以确认网络平台的正常运作,并可以及时检查出网络的连通故障,缩小问题出现时间差,根据的网络基础数据和测试得到的数据,更快更准确的确定网络的故障点,排除故障,恢复网络的正常运行。
工程师定期通过日常网络巡检,网络安全硬件日志,对网络问题、网络运行状况进行周期性检查和数据分析后,总结出网络的性能。
日常运维工作中,除去网络的连通性和网络性能的监测,还需要对终端使用
网络的情况有定的掌控,如服务器的日常访问量、网络数据传输峰值、工作用机日常对网络的使用情况等。
对网络负载能力、网络畅通性、网络运行瓶颈、网络常见问题根源等方面有一定了解后,针对性的提出解决建议方案,提早预防发现的网络隐患,降低公司运营风险,保障网络的稳定运行。
2) 计算机网络安全运维可分为物理安全和逻辑安全两方面。
保护网络系统中相关设备(机房设备,日常工作设备)的物理保护,以免予破坏、丢失等。机房设备应有固定人员进行维护管理,非工作人员未经许可不得进入。机房日常巡检时要注意机房环境和周边设备的检查,如机房温度、机房适度、有无异味异响、机房异常痕迹、UPS 、空调、消防等,为机房设备提供良好运作环境保障。日常工作设备要严格按照公司相关固定资产管理规定方法进行使用和管理。
物理设备连接,以最小化连接原则,根据业务服务响应需求,将不必要的物理网络连接去掉,必要时将不同的服务需求群体划分VLAN ,细化防火墙访问控制,减少服务端口数量,对端口加以控制,做好信息物理隔离,以免内部信息有不必要外泄。
操作系统安装系统补丁软件和网络版杀毒软件,定期扫描系统漏洞,安装系统补丁,定期检查病毒库更新情况和发布情况,杜绝病毒的感染、传播和发作,提高系统的主动防御能力。系统管理员要注意账户密码的强壮度,并避免账户和密码的大众性和常规性,在创建系统用户时,要严格控制,对系统进行多角色、多等级管理,出现问题可方便确认责任人和问题根源。对系统定期进行查看,关闭不必要的系统组件和应用服务,检查系统日志,检测是否出现异常。
规划网络ip 地址和MAC 地址,限制连入局域网的上网计算机,对网络终端连入状况有清晰的了解。对网络终端上网行为管理规则进行规划,规则添加如屏蔽与工作无关的网站、屏蔽某些关键词、监控p2p 流量等,并将相关条款体现在公司规章制度中,以加强管理力度。
3、
主机、存储系统运维管理
日常巡检要对硬件运行状态仔细检查,从设备硬件提示信息及时发现问题,防止影响扩大化,及时解决故障,恢复系统的正常运作和系统冗余性,外部提示包括面板指示灯、电源指示灯、网卡指示灯、磁盘指示灯,以及各种硬件故障提示和报警信息。
定期监控cpu 性能,内存使用情况,硬盘利用情况,硬盘运行状态,网卡状态,系统日志,交换分区,进程状态,存储交换机端口状态,存储传输情况,通过监控数据对主机和存储系统的性能进行评估。发现隐患,先将问题确定到点,进行一段时间的问题信息数据监控,根据搜集的更多更高密度的数据对问题原因做出判断,如果属于一般应用系统问题,就将相应问题的应对工作加入工作日程,及时排除系统隐患,如果是由于硬件瓶颈导致,就对相关数据做出整合报表并附加解决提案提交公司上级,最终拟定解决方案,以确保服务系统的高可用性和高冗余性。
4、
应用服务系统运维管理
应用服务系统是公司对外业务的信息平台,也是公司信息化能力的体现,同时也承载了公司内部工作平台,所以平台的持续稳定运行显得十分主要。管理人员要对不同应运服务的服务需求和服务人群有一定的了解,以便于规划网络构架,划分网络资源,定位应运服务的性能。
应运服务的运维管理,除了要结合机房硬件日常管理,还要对服务的配置信
息进行维护管理。日常巡检是有条件的话要从不同的网域检测服务响应能力,并要定期进入服务操作系统检查应用系统服务配置是否正常、检查日志文件是否有异常报错、检查服务平台操作系统是否流畅。通过对配置信息、故障报错、服务性能的管理,提高服务平台事件的分析处理能力。
5、
数据系统运维管理
数据系统承载了服务平台的数据功能,它的正常运行和应用服务系统是同等重要的,数据系统运维主要体现在数据服务维护和数据备份两个主要方面。 数据库运维服务管理包括主动数据性能管理,快速发现、诊断、解决性能问题,在发现问题是,及时找出性能瓶颈,解决数据库性能问题,并要注意数据库系统的变化,主动预防可能发生的问题,保证数据访问响应能力。
数据备份对服务冗余性有着重要的作用,对数据文件做好日常数据增量备份和定期全备份,对重要文件做光盘或移动存储等介质的数据备份,有条件的话将数据进行异地数据备份。在日常工作中要监控备份服务进程、备份情况(起止时间、是否成功、出错告警),出现问题及时处理,恢复数据服务。当用户业务数据需要更新时,要记录更新日期,以便故障发生后尽快恢复数据。
备份应用系统数据的同时,也要对运维检修工作进行数据备份,如网络设备配置参数备份、网管系统备份等,当在运维工作中出现配置错误时,可以通过相关备份恢复参数,短时间内恢复网络系统正常运行。
6、
信息保密管理
运维人员有责任对网络、主机、系统软件、应用软件等的密码、核心参数、业务数据等涉及公司机密、运营管理、近期规划、发展规划的信息负有保密责任,不得随意复制的传播。在进行日常运维工作时,未经上级或相关部门批准,无关人员不得进入机房,如已得到许可的,需由相关人员陪同。
7、 日常运维
公司日常运维工作分两部分:日常巡检、日常维护。
1)日常巡检主要体现在:机房环境巡检、设备巡检、网络传输巡检。 机房环境日常检查可以通过机房监控服务器进行远程检查,但同时也要进行人员现场检查和管理。机房应保持整洁并进行定期打扫,不准存放食物,禁止存放杂物和私人用品,严禁存放易燃、易爆、具腐蚀性危险品。机房内设备设施和物品不准任何人随意乱动,配置的常用仪器仪表、工具、资料不得外借带出机房。机房温度应控制在20℃~25℃之间,湿度为40%~60%,密闭防尘。检查机房周边设备,如UPS 、空调、消防等设备的正常运行。机房出入应有登记,非工作人员未经许可不得随意进入机房,得到许可方可进入,进入机房不准喧哗、不准吸烟、不准用餐。机房内应配置事故照明装置,以备应急使用。
设备日常巡检包括:设备外观检查(硬件完好性、稳定性、告警系统、面板参数标识);接续连线检查(接地线、电源引接线、架间连接电缆、负载连接电路的接续可靠性等);机架内部简单清洁,接续端子除尘、加固等;设备内部软件设置参数检查核对,历史告警信息阅读;设备运行资料核对记录;应用系统日志;设备、线缆标识是否清晰、完整;应用系统磁盘空间、CPU 占用情况;各应用系统服务运行状态;数据备份是否正常进行。
日常巡检还需要对网络传输设备运行进行状态和网络传输信息进行监控管理。通过对网络设备的外部信息、运行日志、负载状态、配置参数、通信状况、服务功能等信息确保设备正常工作,并实时监控网络计算机接入数量、终端用户上网行为、网络端口传输流量等数据保证网络传输畅通,最终达到保障网络系统正常运作的目的。
7.2)日常维护分为应用服务维护、网络维护、办公设备维护。
在日常工作中要定期对系统进行优化,检查系统补丁安装情况,查看防毒系统的病毒库升级状态,关闭无用的系统组件和系统服务,检查并修复服务系统错误日志,管理账户密码及用户权限,应用服务配置修改和参数更新,数据系统性能维护,监控备份服务,保障应用服务系统随着公司业务的增涨和改变做出相应的服务更新,并负责网络传输设备的安装、调试、测试,排除网络故障,优化网络性能,预防网络隐患,保障网络畅通稳定的运行。
维护工作站出现操作系统、办公软件、软件客户端、病毒入侵、数据误删除、漏洞补丁缺失、网络通断、常见硬件错误等故障现象;打印机、扫描仪、传真机、数码存储产品等出现驱动程序错误、不能打印、扫描、收发传真、数据存储错误、共享错误等影响正常工作的软件故障,最大程度的提供技术支持工作,以保障公司业务的顺利进行。
附表:
机房巡检表
重要参数维护记录表
非机房维护人员进入申请表
外来维护登记表