MC/ServiceGuard 的版本是辅助发行版。
虽然
EMS(产品编号 B7609BA) 仍然可靠并且必须与 ServiceGuard 一起安装,但是已将
Event Monitoring Service fileset (EMS-CORE) 从 ServiceGuard 的产品
B3935DA 中去除。
100BaseT 及 1000BaseT 网络接口卡完全支持自动端口聚合。
MC/ServiceGuard A.11.01 至
A.11.08 版本的内容已经合成一体且包括 A.11.08 的修补代码段。
当获得群集锁定的尝试失败时,新诊断的错误信息就被写入系统日志文件(/var/adm/syslog/syslog.log)。现在返回内部错误代码可帮助进行问题诊断。请参考下面“修补软件和修复”中的
JAGab13473 修补描述。
通过 HP-UX 11i 的 OLAR 支持,可提供对
PCI 卡的联机添加和替换支持。这可使您添加或更换某些 LAN 卡和海量存储
I/O 卡而不必使节点停止运行或从群集中删除该节点。有关在支持的平台上使用该功能的详细信息,请参考
《HP-UX 11i 发行说明》 和手册 《Configuring
Peripherals for HP-UX》。
MC/ServiceGuard A.11.09 继续支持旧版本的配置,但具有如下限制:
HP-UX 11i 不支持
FiberLink 磁盘驱动器。因此,使用 FiberLink 的 MC/ServiceGuard 客户必须换用一种受支持的磁盘技术。请注意用户手册中
《Managing MC/ServiceGuard》,HP FiberLink 作为支持驱动器列出。此声明只对
HP-UX 10.X 有效。
MC/ServiceGuard A.11.09 版每个群集最多支持
200 个可重定位的程序包 IP 地址。
在以太网上,MC/ServiceGuard
支持使用 Ethernet 协议配置的网络接口与使用封装在 IEEE 802.3 内的
SNAP 协议配置的网络接口之间的本地故障切换。您不能在同一种接口上使用这两种协议,也不能在使用不同接协议的接口之间进行本地故障切换。
在包含 A-、L-、N- 或 V- 系列系统的群集中,不能将
PCI 和 NIO F/W SCSI 适配器用于共享的 SCSI 总线。
下列配置支持 HyperFabric
产品 (B6257AA) 的使用:
通过 HyperFabric 交换机链接的
HyperFabric LAN 接口的双节点、三节点和四节点配置。
多于 4 节点的配置测试正在进行中。有关详细信息请与您的
HP 支持代表处联系。
有关详细信息,请参考 《HyperFabric
Release Notes》 (B6257-90006)。
手册中的新增章节:“ServiceGuard
守侯进程” |
 |
下面的信息将加入以后版本的《管理 MC/ServiceGuard》:
共有七个守候进程与 ServiceGuard 有关。它们分别是:
/usr/lbin/cmclconfd — ServiceGuard 配置守侯进程
/usr/lbin/cmcld — ServiceGuard 群集守侯进程
/usr/lbin/cmlogd — ServiceGuard 系统日志记录守侯进程
/usr/lbin/cmlvmd — 群集逻辑组管理器守侯进程C
/usr/lbin/cmsnmpd — 群集 SNMP 代理(有选择地运行)
/usr/lbin/cmsrvassistd — ServiceGuard 服务助理守侯进程
/usr/lbin/cmtaped — ServiceGuard 共享磁带守侯进程
该守候进程是 ServiceGuard 命令和 SAM 接口用来收集群集中所有节点信息的。它收集配置信息,如关于网络或卷组的信息。它还给群集中所有节点分配群集二进制配置文件。此守候进程由函数
init(1M) 启动。在 /etc/inetd.conf 文件中有对应的多个条目。
通过向 ServiceGuard 群集内其它节点上的 cmcld 守候进程发送心跳信息,守候进程可以用来确定群集成员资格。它按照实时优先级运行且锁定在内存中。该
cmcld 守候进程使用内核安全定时器在内核中设置可检测内核挂起的定时器。如果内核中的定时器没有复位,该内核将引起系统控制转换 (TOC)。cmcld
进程退出或异常中止时,这种情况就会发生。如果这样,消息就会写入 /var/adm/syslog/syslog.log。 如果 cmeld 不能长时间运行或无法更新内核定时器(内核挂起),这种情况就会发生。此守候进程也可检测系统上的网络是否正常运行,及执行本地的局域网故障切换。最后,此守候进程处理
ServiceGuard 程序包的管理,确定在何处运行它们及何时启动它们等等。
cmcld 用 cmcld 将信息写入系统日志。任何通过 cmcld 写入 syslog 的信息都用 cmlogd 来写。这样就会避免向系统日志的写入延迟对 cmcld 的定时造成影响。
该守候进程负责跟踪所有已成为可由群集识别的卷组的状况。当卷组被群集检测到,它只能以独占方式在服务器上激活。这样可避免卷组在多个节点上被激活。
该守候进程是 ClusterView 用来获取群集信息的。此守候进程产生群集
MIB。有关群集 MIB 的详细信息可以在 URL http://docs.hp.com/hpux/ha
中的 Frequently Asked Questions(常见问题解答)区域下找到。只有在 /etc/rc.config.d/cmsnmpagt 文件被编辑成自动启动此辅助代理程序时,它才可运行。
该守候进程按照群集守候进程的要求衍生并执行任何脚本或进程。该守候进程执行两种类型的衍生指令:
就服务而言,cmcld 可监视服务进程,并且,根据服务进程重试次数的多少,cmcld 或者通过 cmsrvassistd 重新启动服务进程,或者暂停程序包并将该程序包移到一个可用的备用节点。
共享磁带守候进程负责跟踪群集中所有的共享磁带设备。共享磁带设备可由 stapplyconf 命令设置。
手册中的新章节:“自动端口聚合” |
 |
下面的信息将加入以后版本的《管理 MC/ServiceGuard》:
MC/ServiceGuard 支持通过 HP-APA(自动端口聚合,HP 产品 J4240AA)。HP-APA
是一种新的网络技术,它将多个物理快速以太网或多个物理千兆比特以太网端口聚合成逻辑链路基群。以多重
100 Mbps 快速以太网链路或多重 1 Gbps 以太网链路(或分别为 200 Mbps
和 2 Gbps 全双工)为基础,HP-APA 可提供灵活的、可升级的带宽。它的其他优点包括物理链路的负荷平衡、自动故障检测、为需要高可用性的环境进行恢复。端口聚合能力有时称为链路聚合或主干线。
一旦启动,每个链路聚合都可以看作多重物理端口中只有一个 IP
和 MAC 地址的单个逻辑链路。HP-APA 最多可以在一个链路聚合中聚集四个物理端口;每个系统允许五个链路聚合。空链路聚合将有零个
MAC 地址。
可以在多端口网卡内(现在可用最多两个端口卡)聚合端口。或着,可以从不同的卡聚合端口。图
1-1 说明了着两个例字。
非聚合配置中的单端口和双端口 LAN 都有四块 LAN 卡,每块都与独离的非聚合
IP 地址和 MAC 地址相联,并且都有自己的 LAN 名称 (lan0、lan1、lan2、lan3)。当端口聚集后,四个端口都各与一个
IP 地址和 MAC 地址关联。此例中,聚合的端口全体以 lan100 命名,这是在群集配置过程中所知的基群名称。
不同以太网卡类型(单个或两个端口)和聚合组的组合都有可能,但极其重要的是记住在任何
APA' 的联结时必须至少用两个物理卡以避免心跳连接单点失败。
HP-APA 当前支持自动和手工配置链路聚合,但由于 MC/ServiceGuard
使用随机链路分配,所以它不支持自动配置。因此,必须手工配置与 MC/ServiceGuard
一起使用的链接聚合,以便在出现节点 TOC '或在链路聚合恢复后永久保留其配置。手动配置需要您指明要组合到逻辑链路集合中的端口。有关如何手动配置链路集合的详细信息,请参考《HP
Auto Port Aggregation Release Notes》。
手册中的新章节:“允许非
root 用户运行 cmviewcl” |
 |
下面的信息将加入以后版本的《管理 MC/ServiceGuard》:
MC/ServiceGuard cmviewcl 命令通常要求有对系统的 root 用户的访问权限。然而,可以很容易地修改 cmclnodelist 文件,以允许非根用户运行 cmviewcl 命令。
如果要让特殊用户运行 cmviewcl 命令,那么在 /etc/cmcluster/cmclnodelist 文件中增加主机-用户名对。如果想让每个用户运行命令,那么在 /etc/cmcluster/cmclnodelist
文件末尾添加“+”。作为例子,下面二节点群集的条目允许用户 1 和用户
2 在 system1 上运行 cmviewcl 并且允许用户 3 在 system2 上运行 cmviewcl:
system1 root system1 user1 system1 user2 system2 root system2 ser3 |
下面的例子允许任何非根用户运行 cmviewcl 命令:
system1 root system2 root + |
手册中的新章节:“配置
EMS 资源的参数” |
 |
下面的信息将加入以后版本的《管理 MC/ServiceGuard》:
MC/ServiceGuard 提供两个新参数,RESOURCE_START 和 DEFERRED_RESOURCE_NAME,用于配置 EMS 资源。RESOURCE_START 参数添加到程序包配置文件,并且 DEFERRED_RESOURCE_NAME 添加到程序包控制脚本。
RESOURCE_START 选项用于确定 ServiceGuard 何时应启动对 EMS 资源的资源监视。RESOURCE_START 选项可以设置成 AUTOMATIC 或 DEFERRED。
如果指定 AUTOMATIC,ServiceGuard 群集守侯进程在节点上启动时,ServiceGuard
将自动对这些资源启动资源监视。如果资源配置为AUTOMATIC,就不必在程序包控制脚本中定义DEFERRED_RESOURCE_NAME。
如果选择 DEFERRED,在节点启动过程中,ServiceGuard 将不尝试为 DEFERRED 资源启动资源监视。但是,必须在程序包控制脚本中通过设置 DEFERRED_RESOURCE_NAME 参数指定 DEFERRED 资源,这样程序包运行时可通过程序包控制脚本启动 DEFERRED 资源。
下面是如何设定 DEFERRED 和 AUTOMATIC 资源的例子。在程序包配置文件中,请按如下所示指定资源:
RESOURCE_NAME /net/interfaces/lan/status/lan0 RESOURCE_POLLING_INTERVAL 60 RESOURCE_START DEFERRED RESOURCE_UP_VALUE = ONLINE RESOURCE_NAME /net/interfaces/lan/status/lan1 RESOURCE_POLLING_INTERVAL 60 RESOURCE_START DEFERRED RESOURCE_UP_VALUE = ONLINE RESOURCE_NAME /net/interfaces/lan/status/lan2 RESOURCE_POLLING_INTERVAL 60 RESOURCE_START AUTOMATIC RESOURCE_UP_VALUE = ONLINE |
程序包脚本控制中,使用 DEFERRED_RESOURCE_NAME 参数可只指定延迟的资源:
DEFERRED_RESOURCE_NAME[0]="/net/interfaces/lan/status/lan0"DEFERRED_RESOURCE_NAME[1]="/net/interfaces/lan/status/lan1" |
下面是程序包配置文件中修改的部分:
# The keywords RESOURCE_NAME, RESOURCE_POLLING_INTERVAL,
# RESOURCE_START, and RESOURCE_UP_VALUE are used to specify Package
# Resource Dependencies.To define a package Resource Dependency, a
# RESOURCE_NAME line with a fully qualified resource path name, and
# one or more RESOURCE_UP_VALUE lines are required.The
# RESOURCE_POLLING_INTERVAL and the RESOURCE_START are optional.
#
# The RESOURCE_POLLING_INTERVAL indicates how often, in seconds, the
# resource is to be monitored.It will be defaulted to 60 seconds if
# RESOURCE_POLLING_INTERVAL is not specified.
#
# The RESOURCE_START option can be set to either AUTOMATIC or DEFERRED.
# The default setting for RESOURCE_START is AUTOMATIC.If AUTOMATIC
# is specified, ServiceGuard will start up resource monitoring for
# these AUTOMATIC resources automatically when the node starts up.
# If DEFERRED is selected, ServiceGuard will not attempt to start
# resource monitoring for these resources during node start up.User
# should specify all the DEFERRED resources in the package run script
# so that these DEFERRED resources will be started up from the package
# run script during package run time.
#
# RESOURCE_UP_VALUE requires an operator and a value.This defines
# the resource ’UP’ condition.The operators are =, !=, >, <, >=,
# and <=, depending on the type of value.Values can be string or
# numeric.If the type is string, then only = and != are valid
# operators.If the string contains whitespace, it must be enclosed
# in quotes.String values are case sensitive.例如,
#
# Resource is up when its value is
# --------------------------------
# RESOURCE_UP_VALUE = UP "UP"
# RESOURCE_UP_VALUE != DOWN Any value except "DOWN"
# RESOURCE_UP_VALUE = "On Course" "On Course"
#
# If the type is numeric, then it can specify a threshold, or a range to
# define a resource up condition.If it is a threshold, then any operator
# may be used.If a range is to be specified, then only > or >= may be used
# for the first operator, and only < or <= may be used for the second operator.
# For example,
# Resource is up when its value is
# --------------------------------
# RESOURCE_UP_VALUE = 5 5 (threshold)
# RESOURCE_UP_VALUE > 5.1 greater than 5.1 (threshold)
# RESOURCE_UP_VALUE > -5 and < 10 between -5 and 10 (range)
#
# Note that "and" is required between the lower limit and upper limit
# when specifying a range.The upper limit must be greater than the lower
# limit.If RESOURCE_UP_VALUE is repeated within a RESOURCE_NAME block, then
# they are inclusively OR’d together.Package Resource Dependencies may be
# defined by repeating the entire RESOURCE_NAME block.
#
# Example :RESOURCE_NAME /net/interfaces/lan/status/lan0
# RESOURCE_POLLING_INTERVAL 120
# RESOURCE_START AUTOMATIC
# RESOURCE_UP_VALUE = RUNNING
# RESOURCE_UP_VALUE = ONLINE
#
# Means that the value of resource /net/interfaces/lan/status/lan0
# will be checked every 120 seconds, and is considered to
# be 'up' when its value is "RUNNING" or "ONLINE".
#
# Uncomment the following lines to specify Package Resource Dependencies.
#
#RESOURCE_NAME <Full_path_name>
#RESOURCE_POLLING_INTERVAL <numeric_seconds>
#RESOURCE_START <AUTOMATIC/DEFERRED>
#RESOURCE_UP_VALUE <op> <string_or_numeric> [and <op> <numeric>]
下例为程序包控制脚本的修改部分:
# DEFERRED_RESOURCE_NAME
# Specify the full path name of the ‘DEFERRED’ resources configured for# this package.Uncomment DEFERRED_RESOURCE_NAME[0]=”” and fill in the
# full path name of the resource.
#
# DEFERRED_RESOURCE_NAME[0]=””
手册中的新章节:“使用 NODE_FAILFAST_ENABLED 选项” |
 |
下面的信息将加入以后版本的《管理 MC/ServiceGuard》:
可在程序包配置文件中,为每个程序包配置NODE_FAIL_FAST_ENABLED 选项。
如果NODE_FAIL_FAST_ENABLED 设置成 YES,当发生下列故障之一时,将暂停程序包运行的节点:
然而,如果中断脚本在“exit 1”失败, ServiceGuard 为程序包设置 NO_RESTART 并将禁止程序包在任何采用的节点上运行。
手册中新的段落:“Remote
Switching” |
 |
下列段落将被添加到《管理 MC/ServiceGuard》的下一版的第
3 章“远距离切换”的章节里:
注意仅在同一类型的局域网之间支持远程切换。例如,不支持某台机器上的以太网与故障切换机器上的
FDDI 接口之间的远程切换。
手册中更改的章节:“使用串形
(RS232) 心跳线” |
 |
下面这段替代了《管理 MC/ServiceGuard》第二章中的同名部分:
MC/ServiceGuard 仅支持对心跳使用串行 (RS232) 通信的双节点配置。可选择它作为备用心跳接口以提供冗余的心跳数据。
 |
 |  |
 |
 | 注释:只有在双节点群集配置中才支持使用串行 (RS232) 心跳线。在仅拥有一个心跳
LAN 双节点群集中,串行心跳线是必需的。如果有至少两个心跳局域网或一个心跳局域网和一个备用的局域网,则不应使用串形
(RS232)心跳线。 |
 |
 |  |
 |
如果一个节点上的心跳网卡出现故障,则拥有串行心跳线可以使群集保持较长时间运行,刚足以检测
LAN 控制器卡状态并使具有不正常网络连接的节点停止运行,而同时正常的节点将仍然运行并运行所有程序包。
即使具有为冗余心跳配置的串行 (RS232) 线,仍需一个 LAN 来传输心跳信号。串行线心跳可防备网络饱和,但不能防备网络故障,因为 MC/ServiceGuard
需要 TCP/IP 在群集成员间进行通信。
与运行 TCP/IP 协议(比如以太网或 FDDI)的网卡相比,串行 (RS232)
线从本质上不可靠。不像 TCP/IP,串行线协议没有错误更正或重试机制。同时由于缺乏一定的标准,串行线可能会很复杂且配置困难。
图 1-2 中列出了串形(RS232)心跳线。
此版本提供的手册 |
 |
下列手册是随 MC/ServiceGuard A.11.09 一起提供的:
《管理
MC/ServiceGuard》,第六版(HP 部件号 B3936-90026)。本手册对于 A.11.09
发行版尚未经过修订。
《Clusters for High
Availability:A Primer of HP-UX Solutions》 (HP Press:Prentice
Hall, ISBN 0-13-494758-4).此指南描述了群集的基本概念。
《Advanced Tape
Services User's Guide》(HP 部件号B3936-90032)。此指南说明共享的磁带配置和管理。
关于 HP-UX 11.0的一般信息,可参见:
《Managing
Systems and Workgroups》(HP 部件号 B2355-90701)
《Managing SuperDome
Complexes》 (HP 部件号 B2355-90702)
有关高可用性 NFS 的信息,可参考:
《Managing
Highly Available NFS 》(HP 部件号 B5125-90001)
有关“事件监视服务”的信息,可参考:
《Using
the Event Monitoring Service》(HP 部件号 B7612-90015)
《Using High Availability
Monitors》(HP 部件号 B5736-90025)
《Writing Monitors
for the Event Monitoring Service 》 (HP 部件号 B7611-90016)-可从网址http://docs.hp.com上的
“High Availability” 区域中得到。
要想了解 ClusterView Plus 以及它与 IT/Operations 和 Network
Node Manager 的关系,可参考:
《HP
ClusterView Plus Version B.03.10 Release Notes》(HP 部件号
B5174-90016)
有关 HP 自动端口聚合的信息,可参考:
《HP
Auto Port Aggregation Release Notes》(HP 部件号 J4240-90004)
进一步信息 |
 |
要想了解 MC/ServiceGuard 以及有关的高可用性问题的其他信息,可访问惠普的
HA 网页:
高可用性产品的用户指南的联机版本及白皮书,在惠普的 HP-UX 文档网页上有提供:
http://docs.hp.com/hpux/ha |
支持信息可由惠普电子支持中心获得:
http://us-support.external.hp.com(美国和亚太地区)
http://europe-support.external.hp.com(欧洲)