| 中国 |
|
|
|
![]() |
管理 MC/ServiceGuard > 第 3 章 了解
MC/ServiceGuard 软件组件故障响应 |
|
MC/ServiceGuard 将以特定方式响应各种不同的故障。对于大多数硬件故障,其响应都是用户不可配置的,但对于程序包和服务故障,您可以在有限程度上选择系统的响应方式。 MC/ServiceGuard 群集当中最有特色的故障响应是 HP-UX TOC(转移控制),即 SPU 的立即暂停,而不是从容地关闭。执行 TOC 是为了保护数据的完整性。 如果某个群集节点在预定时间内无法与大多数群集成员通信,或出现内核挂起、内核轮选、失控实时进程,或者 MC/ServiceGuard 的群集守候进程 cmcld 出现故障时,就会发生 TOC。在此事件过程中,将完成系统转储且下列消息将发送到控制台:
在特定环境下也可由 MC/ServiceGuard 本身启动 TOC。如果在程序包配置文件中启用了 service failfast(服务故障快速转移)参数,则只要该服务出现故障,整个节点都将出现故障并发生 TOC。如果程序包配置文件中的 NODE_FAIL_FAST_ENABLED 设置为 YES,则只要出现导致程序包控制脚本退出(退出代码值为 0 或 1 以外的值)的超时或故障,整个节点都将出现故障,并发生 TOC。心跳线丢失、群集守候进程 (cmcld) 或其他关键守候进程的丢失都将导致节点出现故障,即使当节点的程序包和它们的服务都运行正常时也是如此。 在某些情况下,发出 TOC 前会先尝试重新引导系统。如果能够在安全定时器到期之前完成重新引导,则 TOC 将不会发生。无论如何,程序包都可以迅速地移动到另一个节点。 如果发生严重的系统问题(如系统混乱或 SPU 供电电路的物理破坏),MC/ServiceGuard 会识别节点故障并将当前运行于该节点上的程序包转移到群集中别处的代管节点上。每个程序包的新位置由程序包配置文件决定,在此文件中列出了该程序包的主节点和备用节点。虽然程序包转移到了另外一个节点上,但程序计数器并不转移。被转移的程序包中的进程将从头开始重新启动。为使应用程序能够在发生故障后迅速重新启动,它必须是“容忍崩溃”的;即必须编写程序包中的所有进程以便它们可以检测到这样的重新启动。这与发生正常的系统崩溃后重新启动时所需要的应用程序设计是相同的。 在 LAN 接口出现故障的情况下,如果存在备用 LAN 接口,就会发生向备用 LAN 接口的本地切换。如果心跳线 LAN 接口出现故障且未配置备用或冗余心跳线,则节点将出现错误,并发生 TOC。如果一个受监视的数据 LAN 接口出现故障,且没有备用接口,则仅当程序包的 NODE_FAILFAST_ENABLED(在“规划”一章的“程序包配置规划”一节中进一步说明)设为 YES 时,节点出现故障时才会发生控制转移。 由单独的产品提供磁盘保护,如 VxVM 中的 MirrorDisk/UX 和 VERITAS 镜像,以及 CVM 中的 VERITAS 镜像。另外,可独立使用的 EMS 磁盘监视器也可使您在发生特定的故障(如锁磁盘故障)时通知操作人员。有关详细信息,请参阅《《Using High Availability Monitors》》手册(HP 部件号 B5736-90025)。 MC/ServiceGuard 不直接响应电源故障,虽然单个群集组件掉电对于 MC/ServiceGuard 来说就象是该组件发生故障并将导致相应的切换行为。电源保护由 HP 支持的不间断电源 (UPS)(如 HP PowerTrust)提供。 缺省情况下,程序包故障或程序包内服务的故障会导致通过运行带 'stop' 参数的控制脚本关闭程序包,并在备用节点上重新启动该程序包。如果程序包管理器收到 EMS 监视事件报告显示存在不符合条件的已配置资源附属件,则程序包将出现故障并尝试在备用节点上重新启动。 如果愿意,您可以通过指定节点在发生转移之前应该崩溃 (TOC) 来修改此缺省行为。如果指定了此行为,MC/ServiceGuard 将尝试在 TOC 之前重新引导系统。如果有足够的时间来刷新缓冲区高速缓存中的缓冲区,则重新引导将成功进行,且 TOC 不会发生。无论哪种方式,系统都将肯定在预定的时间(秒数)内停止。 在程序包关闭时可能挂起,使节点处于一种未知状态时,使用 Failfast 选项可以提供快速的故障切换,这之后节点就将在重新引导时得到清理。但是请记住,节点崩溃时,该节点上的所有程序包都将立即暂停。 程序包配置过程中的节点和服务的 failfast 参数的设置将决定在出现故障时程序包和节点的确切行为。“规划”一章中的“程序包配置参数”一节包含有关如何选择适当的故障切换行为的详细信息。 |
||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||