浅议计算机系统的可靠性技术措施
信息科学
浅议计算机系统的可靠性技术措施
安录平
(吉林省四平市审计局经济责任审计中心,吉林四平136000)
摘
要:随着计算机技术的发展及普及应用,对其稳定可靠的运行要求越来越高,它关系着整个系统的工作状态和工作效率。因而,提高和保证
计算机系统的可靠性十分必要。
关键词:计算机系统;可靠性;技术目前, 计算机已广泛应用于各行各业, 并且其规模越来越大, 正在形成当今社会全面依赖
这种局面的形成, 在给现代人带计算机的局面。
来极大便利的同时, 使人们对各类计算机应用系统的可靠性要求也越来越高。在许多应用领域, 如果计算机系统不能在规定的时间内稳定可靠地工作, 将会造成巨大的损失和严重的后果。
1计算机系统可靠性概念
计算机系统可靠性的定义:在给定的时间内, 计算机系统能实施应有功能的能力。由于计算机系统由硬件和软件组成, 它们对整个系统的可靠性影响呈现完全不同的特性:硬件和一般人工产品的机件一样, 时间一长就要出毛病。软件则相反, 时间越长越可靠。因为潜藏的错误陆续被发现并捧除, 它又没有磨损、氧化、松动等问题。所以, 计算机的可靠性是指分别研究硬件的可靠性和软件的可靠性。
硬件故障主要和零部件制造工艺、组装质自然损耗、易维护性有关。它和产品设计有量、
关系但不直接。硬件的可靠性度量在计算机界
如一比较统一, 用平均两次故障相隔时间度时。
台机器每78小时左右出一次故障, 另一台200小时左右, 则后者比前者可靠。
软件故障表现为程序计算结果有时正确
例如, 某些输入组常常出错, 其余的有时不正确。
则没有问题。这些缺陷的原因往往可追溯到软件设计上, 是软件的内在缺陷。如果能够排除则软件可靠性增加。但往往排除了一个缺陷又引发了另外几个潜藏故缺陷, 这就引起可靠性降低。
软件的可靠性和正确性虽然都以运行结果是否正确来考察, 但测试正确交付验收的软件不一定可靠。例如, 某子程序取值随运行次数偏移, 在忽略对其超值的警戒条件时, 会导致实际使用中出现失败, 如同若干小时后出病毒-样。同样, 可靠的程序不一定正确。例如, 每当一组数进去必然出错非常稳定, 一改就消除了。我们说它是可靠的, 但改前却是错误的。
软件工程强调在软件设计开发当中注意提高可靠性, 具体措施包括:增强模块的局部性、内聚性, 减少数据关联(耦合); 多用重用件、标准库例程; 改进测试分析, 找出更多潜藏错误等等。
2. 提升硬件系统可靠性的方法
硬件系统的设计主要是在系统元器件级别
系统的布局等方上的设计, 包括元器件的选取、
面。
2.1元器件的合理选用
可以说, 系统的彻底失效都是以元器件的失效而告终的。所以, 在设计和研制嵌入式系统的时候, 合理地使用元eS 件, 是保障系统可靠性的基本技术。合理地使用一方面是指设计阶段, 根据应用条件, 选择合适的器件及其工作点; 另
一方面是指研制阶段对器件进行筛选, 使用可靠的器件。在系统设计中选用高级别的芯片, 能够有效的提高芯片的可靠性和减少外部干扰, 如温度等对芯片的干扰。系统设计在元器件的选择上遵循了选取功能能够满足系统要求的最高可靠性元器件。
2.2电阻和电位器的选择
固定电阻和电位器可按照其制造材料分类, 如合金型(线绕、合金箔) 、薄膜型(碳膜、金属
合成薄膜、玻璃釉) 等, 随膜) 和合成型(合成实芯、
着电子技术的发展, 新型品种也不断出现。在使用固定电阻和电位器时, 应考虑阻值的稳定性、工作频率、功率负荷、噪声等。由于电位器无论是性能指标还是可靠性, 都比同类的固定电阻要差很多, 一般其失效率比固定电阻要大10~100倍。所以, 在电路中要尽量少用电位器, 同时对某些可能因电位器失效造成严重故障的
短路保护电路应采取相应的容错措施, 如开路、
等, 以减少系统的不可靠度。
2.3电容器的选用
电容器根据其介质材料的不同可分为无机有机介质和电解介质三类, 若考虑具体的介质、
材料则种类众多、性能各异, 电容器的选用可从以下方面考虑:频率范围、容量稳定性、噪声性电压负荷、承受功率。对于用于电源滤波这能、
类场合的电容器, 应该考虑其承受功率负荷的问题, 当电流脉动较大时, 的温度也会升高, 性能指标下降, 最终导致被击穿失效。系统中在集成芯片的电源和地之间设计滤波电路, 所使用大量的电容器; 同时对于电源稳压时候也需要滤波电容但是由于系统电源采用电池供电, 所以不会产生太大的尖峰和浪涌输出(即脉动不大), 所以电容不太容易被击穿, 电源滤波电容宜选取0.33.f 和0.Oluf 的无极性电容, 芯片滤波宜选用0.1uf 无极性电容。
3利用WDT 技术提高计算机系统可靠性软件的可靠性一直是一个关键问题。任何使用软件的人都可能会经历计算机死机或程序跑飞的问题, 这种情况在嵌入式系统中也同样存在。常会由于电压不稳、电弧干扰等造成死机。在无人看守的情况下, 也会因系统遭受干扰而无法重启。为了保证系统在于扰后能自动恢复正常, 看门狗定时器(WatchdogTimer)的利用是很有价值的。
看门狗计时ge 电路英文名为WatchDog-Timer 简称WDT, 其作用是监测计算机的运行, 一旦发现程序出错就发出复位信号恢复程序的正常运行, 使单片机可以在无人状态下实现连续工作,WDT 电路种类很多, 但基本原理相同。其工作原理是:看门狗芯片和单片机的一个I/0引脚相连, 该I/0引脚通过程序控制它定时地往看门狗的这个引脚上送人高电平(或低电平), 这一程序语句是分散地放在单片机其他控制语
句中间的, 一旦单片机由于干扰造成程序跑飞后而陷入某一程序段进入死循环状态时, 写看门狗引脚的程序便不能被执行, 这个时候, 看门狗电路就会由于得不到单片机送来的信号, 便在它和单片机复位引脚相连的引脚上送出一个复位信号, 使单片机发生复位, 即程序从程序存储器的起始位置开始执行, 这样便实现了单片机的自动复位。
4使用容错备份技术提高计算机可靠性容错和备份是指对计算机进行容错, 并采取完善的备份措施。有备无患, 保证计算机的正常运行和数据安全、正确、有效, 可以将灾难的损失减小到最低程度。对于计算机系统来说, 在硬件上有磁盘镜像、磁盘阵列、双机容错等备份措施; 在软件上有热修复、数据拷贝等备份措施。
4.1计算机硬件措施
磁盘镜像/硬盘双工:可以防止单个硬盘的物理故障, 但无法防止逻辑故障, 而且当一个硬盘出现故障时, 系统无法工作。现在的操作系统均支持软件硬盘镜像, 但运行时系统资源被大量占用, 且不稳定, 系统盘的镜像往往不能正常启动。
磁盘阵列:磁盘阵列(RAID)是一项非常优秀的容错技术, 可以防止单个硬盘的物理故障。不但满足了容错的要求, 容量可以很大且性能得以极大提升。支持各种操作系统, 磁盘阵列的应用解决了磁盘上的数据安全问题, 对于系统级物理故障可以采取双机容错的方式。
4.2计算机软件措施
热修复:可以防止硬盘的区域性损坏, 但无法防止逻辑故障, 当出现故障时, 系统予以修复后, 可以继续工作。
数据拷贝:可以防止系统的物理故障, 在一定程度上防止逻辑故障。
总之, 完善的计算机系统和可靠性的系统数据应有完备的容错、严格的备份和灾难恢复计划。
结语
随着计算机技术的发展, 其应用越来越普及, 且对其稳定可靠的运行要求越来越高。一旦计算机系统出现故障, 可能会影响生产、生活, 并造成重大的经济损失。因此, 采取各种手段, 提高计算机系统的可靠性, 保证其正常工作就显得十分的必要。
责任编辑:孙兆杰