软件系统部署应急预案 初稿
系统
应急预案
目 录
1. 目的 ........................................................................................................................... 3
2. 适用范围 .................................................................................................................... 3
3. 涉及服务器列表 . ......................................................................................................... 3
4. 危险因素分析 ............................................................................................................. 3
5. 危险事件等级定义分类 ............................................................................................... 4
6. 应急响应流程 ............................................................................................................. 4
6.1. 事件报警与确认 ............................................................................................... 4
6.2. 对系统进行检查 ............................................................................................... 4
6.3. 安全审计及事故分析 ........................................................................................ 4
6.4. 消除隐患、恢复正常运行 ................................................................................. 5
6.5. 重新启动系统 . .................................................................................................. 5
6.6. 安全报告、归档 ............................................................................................... 5
7. 应急处理措施 ............................................................................................................. 5
7.1. 一般故障 . ......................................................................................................... 5
7.2. 重大故障 . ......................................................................................................... 5
7.3. 特大故障 . ......................................................................................................... 5
7.3.1. 系统无法登录 ........................................................................................ 5
7.3.2. 系统应用连接数据库超时 . ...................................................................... 6
7.3.3. 满意度调查系统应用服务启动正常,却无法访问系统 . ............................ 6
7.3.4. 数据库出错导致系统无法使用 . ............................................................... 6
7.3.5. DB2数据库程序异常 .............................................................................. 7
7.3.6. 操作系统故障 ........................................................................................ 7
7.3.7. 系统收集调查问卷失败 .......................................................................... 7
8. 系统环境要求 ............................................................................... 错误!未定义书签。
8.1. 硬件环境 . ........................................................................... 错误!未定义书签。
8.2. 网络环境 . ........................................................................... 错误!未定义书签。
1. 目的
为妥善应对和处置甘肃省零售客户满意度网上调查系统信息安全突发事件、确保满意度调查系统的运行安全和数据安全,结合满意度调查项目实际情况,特制定本应急预案。 本预案主要立足防范和消除以下危害情况的出现:
1、 满意度系统运行过程中数据库异常,导致数据丢失,系统不能正常运行;
2、 满意度系统运行过程中,应用服务程序异常,导致系统异常系统不能正
常运行;
3、 满意度系统运行过程中,服务器间网络连接异常,导致系统异常系统不
能正常运行。
2. 适用范围
本预案适用于甘肃省烟草公司零售客户满意度网上调查系统正在发生或可能发生的系统安全和数据安全突发事件。
3. 涉及服务器列表
4. 危险因素分析
客户满意度网上调查系统是作为应用组件部署在信息中心数据和业务两个平台,而并非单独孤立的应用系统,且该系统直接部署在生产环境中,所以引发
零售客户客户满意度网上调查系统潜在危险的因素主要包括:部署环境的硬件设备故障、部署软件系统故障、网络故障及满意度系统本身的程序错误。
5. 危险事件等级定义分类
1、一般故障:指系统出现轻微错误或瑕疵,具体包括:个别图片无法显示、个别信息内容出现明显错误、个别服务和功能无法正常使用等。
2、重大故障:指出现系统出现异常,但不影响系统日常使用,具体包括:局部页面错误、部分功能无法使用,部分信息内容出现明显错误等。
3、特大故障:指系统崩溃,应用服务停止,导致大规模用户无法使用系统,出现数据丢失,具体包括:系统服务无法启动、数据库无法连接、系统程序异常和数据库文件损坏等。
6. 应急响应流程
6.1. 事件报警与确认
工作人员对数据库服务器、应用系统的运行状况以及网络情况进行监测,及时发现系统的异常和网络故障,一旦发现异常情况需及时通知项目维护相关人员进行原因的排查和故障的处理;
6.2. 对系统进行检查
1、 检查网络连接:需要相关网络管理人员配合检查;
2、 检查应用服务器性能指标,检查的内容包括:Web Sphere进程是否
正常、CPU 使用率、内存使用率;
3、 检查后台数据库服务器性能指标,检查内容包括:数据库服务器双
机状态、数据库进程是否正常、数据库服务是否启动、CPU 使用率、
内存使用率。
6.3. 安全审计及事故分析
通过系统日志、网络设备日志、数据库访问日志等,对事件进行审计,对损失进行评估,追查事件的发生原因;
6.4. 消除隐患、恢复正常运行
根据审计结果,排除系统隐患,恢复系统正常运行;
6.5. 重新启动系统
启动数据库服务器->启动应用服务器;
6.6. 安全报告、归档
提供故障分析报告,分析故障原因,修正预案处理流程并归档。
7. 应急处理措施
7.1. 一般故障
工作人员第一时间迅速准确判断事件原因,提交甘肃省烟草公司零售客户满意度网上调查系统项目组进行处置。
7.2. 重大故障
按规定及时向信息中心报告。报告内容主要包括故障范围、影响范围、事件性质、事件发展趋势和采取的措施等。信息中心召集相关责任部门共同协商解决。必要时可以停止系统运行。
7.3. 特大故障
按规定及时向甘肃省烟草公司信息中心办公室报告,并要实行报告势态进程。甘肃省烟草公司信息中心办公室根据系统故障发展态势,现场指导,组织派遣应急支援力量。具体措施如下:
7.3.1. 系统无法登录
系统无法正常登录一般由于应用服务器与数据库服务器之间网络连接异常或数据库服务未启动导致,现场处理措施如下:
检查应用服务器与数据库服务器之间网络连接是否正常,若应用服务器
与数据库服务器之间网络连接异常,恢复应用服务器与数据库服务器网络解决,重新启动系统;
应用程序后台服务是否运行正常;
检查数据库服务器数据库服务是否运行正常,如数据库服务器服务未启
动则启动数据库服务器数据库服务,重新启动系统;
若以上方案均无法解决系统无法登录问题,抓取并保存系统出错信息及
日志文件,简单判断异常部位,通知系统维护相关人员,保留现场,分析查找原因。
7.3.2. 系统应用连接数据库超时
数据库连接超时,一种情况是应用服务器与数据库服务器网络连接异常;另一种情况是系统数据源出错,现场处理措施如:
应用服务器与数据库服务器网络连接异常,排除网络连接异常故障,
重启数据库服务器和应用服务器。
系统数据源出错,重新配置系统数据源。(详情参照《甘肃省烟草
公司零售客户满意度网上调查系统部署方案》5.3配置文件说明配置
数据源)。
以上方案无法解决系统故障时,应停止系统后台服务,防止不知情
用户继续投递数据。抓取并保存系统出错信息及日志文件,简单判
断异常部位,通知系统维护相关人员,保留现场,分析查找原因。
7.3.3. 满意度调查系统应用服务启动正常,却无法访问系统
如果满意度调查系统应用服务启动正常,无法访问系统。现场处理措施如下:
系统应用程序包出现故障,需重新部署满意度调查系统应用程序包; 系统数据源出错,需重新配置数据源。(详情参照《甘肃省烟草公
司零售客户满意度网上调查系统部署方案》5.3配置文件说明配置数
据源)。
7.3.4. 数据库出错导致系统无法使用
数据库出现故障系统数据文件损坏,以系统管理员用户登录在应用服务器10.52.4.161上的DB2客户端,创建新的表空间,导入最近的一个时间点
的系统数据库备份文件到新建的表空间里,重新添加部署系统数据源,进行恢复操作。操作过程中,应停止系统后台服务,防止不知情用户继续投递数据。
7.3.5. DB2数据库程序异常
BD2 数据库出现故障无法继续使用,需重新安装DB2 数据库程序,安装完成后,创建新的数据库和表空间,导入系统数据文件到新建的表空间里,重新添加部署应用系统数据库,进行恢复操作。操作完后重新启动应用服务及数据服务。
7.3.6. 操作系统故障
应用服务器或数据库服务器系统故障,导致系统无法正常运行,需重新安装操作系统。
应用服务器操作系统故障,重新安装操作系统,重新部署满意度系
统。具体操作参照《甘肃省烟草公司零售客户满意度网上调查系统
部署方案》,部署完毕启动数据库服务和应用服务。
数据库服务器操作系统故障,重新安装操作系统,以系统管理员用
户登录在应用服务器10.52.4.161上的DB2客户端,创建新的表空
间,导入最近的一个时间点的系统数据库备份文件到新建的表空间
里,重新添加部署系统数据源,进行恢复操作。
7.3.7. 系统收集调查问卷失败
系统收集调查问卷失败一般由于网络连接故障、数据库异常或系统程序导致,现场处理措施如下:
检查应用服务器与数据库服务器之间网络连接是否正常,若应用服务器
与数据库服务器之间网络连接异常,恢复应用服务器与数据库服务器网络解决,重新启动系统;
检查应用服务器与新商盟平台网络连接是否正常,若应用服务器与新商
盟平息之间网络连接异常,排除网络故障,重新启动系统;
应用程序后台服务是否运行正常;
检查数据库服务是否运行正常,如数据库服务未启动则启动数据库服务,
重新启动系统;
若以上方案均无法解决系统系统故障,应停止系统后台服务,防止不知
情用户继续投递数据。抓取并保存系统出错信息及日志文件,简单判断异常部位,通知系统维护相关人员,保留现场,分析查找原因。