服务器机房点检标准
服务器点检标准:
一、点检的目的
在系统运行时期,需要每日定时检查各设备的运行状况,提早发现问题和解决问题,确保整个系统持续、稳定地运行。
二、点检的内容
需要点检的设备清单如下:
1. 机房环境的温度和湿度
2. 2台IBM P650服务器
3. 1台IBM 7133-D40磁盘阵列机
4. 1台CISCO PIX 515E防火墙
5. 2台 CISCO catalyst 4500 三层交换机
6. 1台 APC UPS不间断电源
7. 2台 海尔空调
三、点检规程
1.机房温、湿度情况
查看并记录机房的温、湿度情况。
• 当发现空调机故障或计算机机房环境温度、湿度超出允许范围时(温度大于24度,湿度小于20%)或空调机发生报警时,应及时向空调维修部门报修。 • 当计算机机房环境温度达摄氏26度或湿度小于20%时,工作人员再次向公司相关部门报告并紧急呼叫空调维修部门要求组织紧急抢修,同时做好停机前的各项准备工作。并密切注意机房环境温、湿度的变化。
• 一旦计算机机房环境温度达摄氏28度或湿度大于85%或小于15%时,且在短期内无修复的可能并温度在继续上升时,由工作人员实行强制关机并报公司相关部门。
2. P650服务器
2.1文件系统点检
用root用户登录两个服务器的控制台或仿真终端上,检查所有文件系统的使用率,键入如下命令:
>df -k
Filesystem 1024-blocks Free %Used Iused %Iused Mounted on /dev/hd4 163840 10864 94% 1502 2% / /dev/hd2 1703936 7892 100% 49574 12% /usr /dev/hd9var 32768 13300 60% 674 9% /var /dev/hd3 557056 474016 15% 158 1% /tmp /dev/hd1 32768 31640 4% 70 1% /home /dev/ptf_lv 3276800 597408 82% 1377 1% /ptf …
检查%Used一栏,如果有文件系统使用率超过90%,则需要适当放大此文件系统。命令如下:
>chfs -a size=+100M /usr 将/usr放大100M空间
将所有使用率超过90%的文件系统信息收集,并通知系统工程师。
2.2错误报告的点检
用root用户登录两个服务器的控制台或仿真终端上,检查所有错误信息报告,键入如下命令:
>errpt | more
IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION
AFA89905 0422205503 I O grpsvcs Group Services daemon started
192AC071 0422201003 T O errdemon ERROR LOGGING TURNED OFF 864D2CE3 0422195603 P S topsvcs NIM thread blocked
A6DF45AA 0422093103 I O RMCdaemon The daemon is started. 2BFA76F6 0422090403 T S SYSPROC SYSTEM SHUTDOWN BY USER 9DBCFDEE 0422093103 T O errdemon ERROR LOGGING TURNED ON 625E6B9A 0422090403 P H ssa1 ADAPTER DETECTED OPEN SERIAL LINK
625E6B9A 0422090303 P H ssa0 ADAPTER DETECTED OPEN SERIAL LINK
499B30CC 0422083203 T H ent0 ETHERNET DOWN
当T一栏出现P,C一栏出现H时,可能有硬件出现问题,需执行如下操作
>errpt -a > /tmp/errpt.out
然后将errpt.out文件下传,并发给系统工程师进一步分析、查找错误原因。
2.3网络状况的点检
检查两个服务器IP地址是否能够PING通网关。
3. IBM 7133磁盘阵列
1)打开机柜前门, 检查机柜中磁盘阵列的状态灯, 如果两排共10个磁盘状态灯均为绿色, 表示磁盘状态正常。如果出现黄灯,表示磁盘有硬件故障,应紧急报告相关工程师处理。
2)用root用户登录两个服务器的控制台或仿真终端上,用操作系统命令检查磁盘情况,键入如下命令:
[utsp01][root][/]>lsdev -Cc disk
hdisk0 Available 1Z-08-00-8,0 16 Bit LVD SCSI Disk Drive
hdisk1 Available 1Z-08-00-9,0 16 Bit LVD SCSI Disk Drive
hdisk2 Available 1Z-08-00-10,0 16 Bit LVD SCSI Disk Drive
hdisk3 Available 14-08-L SSA Logical Disk Drive
hdisk4 Available 14-08-L SSA Logical Disk Drive
硬盘状态为Available,表示磁盘正常。
4. 数据备份点检
用root用户登录两个服务器的控制台或仿真终端上,检查数据备份完成情况,键入如下命令:
[utsp01][root][/]>tail -f /home/scripts/log/tar_fs.out
Wed Aug 17 13:15:05 BEIST 2005应用程序备份到硬盘成功!
Wed Aug 17 13:16:11 BEIST 2005应用程序备份到磁带成功!
5. 防火墙点检
看防火墙前面板指示灯三个POWER,ACT一直亮黄灯,NETWORK一直闪黄灯,为正常情况。
6. 三层交换机点检
看交换机前面都亮黄灯,INPUT OK、FAN OK、FAN STATUS都亮黄灯。如果OUTPUT FAIL亮起红灯,就是三层交换机出问题了,需要报修。
7. UPS点检
看UPS显示面板,负载一般为26%,报警灯为绿色,如果变红就是有警报,需要按*按键,查看报警信息。
8. 空调点检
看空调显示面板,为室温,一般在20摄氏度左右,并且空调模式应为制冷状态。伸手在出风口处,看是否有冷气。如果温度不对可按键查看设定温度是否正常(停电后初始化为24摄氏度)。