使用高可用性系统时,一种良好的习惯是,认真细致地进行故障监视以便尽可能防止故障发生,或至少在发生故障时,可以快速作出反应。应监视下列设备以便发现各种错误或警告:
可以通过简单的物理检查完成一些监视任务,但要全面完整地进行监视,则需要定期检查系统日志文件
(/var/adm/syslog/syslog.log),获取全部已配置的高可用性设备的报告。与设备相关的错误将说明该设备需要进行维修。
使用事件监视服务 |
 |
使用事件监视服务 (EMS) 可以配置特定设备和系统资源的监视器。出现问题时,可以将警报发送到管理工作站,操作员在管理工作站上可获知应进一步采取何种操作。例如,可以配置一个磁盘监视器,使其在非
RAC 程序包中使用的镜像卷组丢失某个镜像时给出报告。有关其他信息,请参考手册《Using the Event Monitoring Service》。
使用
EMS 硬件监视器 |
 |
可以通过一组硬件监视器监视和报告内存、CPU 和其他一些系统值。有关详细信息,请参考《《EMS
Hardware Monitors User's Guide 》》(B6191-90020)。
使用
HP Predictive 监视 |
 |
除了报告实际设备故障的消息之外,日志还累积严重程度较低的消息,如果这类消息反复出现,就可能说明不久将发生故障。HP
Predictive 产品可以在某种程度上实现监视过程的自动化,它从被监视系统的状态队列中收集信息,查看反复出现的是哪些错误。此工具将报告发生的故障,并基于反复出现特定非致命性错误的设备的统计信息来预测故障。在 Serviceguard 群集中,HP
Predictive 应运行在所有节点上。
HP Predictive 同时向 HP 响应中心直接报告错误状态,提醒技术支持人员注意可能发生的问题。可以通过多种技术支持合同获得
HP Predictive。有关详细信息,请与您的 HP 代表联系。