只要受管节点引导,该节点的 gWLM 代理就会尝试在其 SRD 中自动重新加入该节点,从而可以提供高可用性。要实现此行为,只需要执行如下配置步骤:
确保在每个受管节点上,/etc/rc.config.d/gwlmCtl 文件(对于 HP-UX)和 /etc/sysconfig/gwlmCtl
文件(对于 Linux)将 GWLM_AGENT_START 设置为 1。您可以在每个正在运行 gwlmagent 的系统中运行以下命令来进行此更改:
# /opt/gwlm/bin/gwlmagent --enable_start_on_boot
同样在该文件中还需要对正在运行 gwlmcmsd 的系统设置 GWLM_CMS_START=1。
不过,在安装过程中运行 /opt/vse/bin/vseinitconfig
时,会自动进行此更改。
(可选)在 /etc/opt/gwlm/conf/gwlmagent.properties 文件中编辑属性
com.hp.gwlm.node.HA.minimumTimeout
以便设置受管节点确认自身与其 SRD 隔离所需的最小秒数。设置该属性可确保受管节点不会由于较小的网络问题而过早地认为自身已隔离。
仅在该值比 gWLM 的分配时间间隔的 10 倍时间长时,gWLM 才使用该值。例如,以 15
秒为分配时间间隔,则在某个节点的 gWLM 代理尝试重新联系 SRD 之前,该节点可在
2.5 分钟内不与其 SRD 通信。
当丢失一个受管节点或所有受管节点都丢失时该功能将发挥最佳作用。
如何自动重新启动 |
 |
当受管节点引导时,如果在 HP-UX
的 /etc/rc.config.d/gwlmCtl 文件和 Linux 的 /etc/sysconfig/gwlmCtl 文件中将 GWLM_AGENT_START 设置为 1,则 gWLM 代理 (gwlmagent) 会自动启动,然后该代理将检查 /etc/opt/gwlm/deployed.config
文件来确定其 CMS。随后,它会尝试与 CMS 联系以使 CMS 重新部署其 SRD
视图。如果无法联系 CMS,则只要所有节点接受,将部署 deployed.config
文件中的 SRD。
一般来说,当 SRD 由于节点关闭或网络通信问题而受到破坏时,gWLM
会尝试重组 SRD。gWLM 会为 SRD 中的节点保持群集的结构。在群集中,只有一个节点是主节点,其他的节点都是非主节点。如果主节点与
SRD 的其余节点失去联系,SRD 的其余节点可以在没有主节点的情况下,通过一致接受一个新的主节点而作为部分群集继续工作。如果非主节点与
SRD 的其余节点失去通信,则生成的部分群集会在不存在该丢失的节点的情况下继续操作。主节点仅忽略丢失的节点,直到它重新变为可用。
相关事件 |
 |
可以针对该自动重新启动功能配置下列 SIM 事件:
有关启用和查看这些事件的信息,请参考 gWLM 的“Configure Events”菜单。
然后可以通过使用 SIM 左侧窗格中的 Event Lists 项查看这些事件。
下面几节说明如何处理其中一些事件。
如果出现该事件:
在受影响的 SRD 中的每个受管节点上停止 gwlmagent:
# /opt/gwlm/bin/gwlmagent --stop
在上述每个受管节点上重新启动代理:
# /opt/gwlm/bin/gwlmagent
通过监视 SIM 中的 Shared Resource Domain 视图或通过使用 gwlm monitor 命令,
来验证重新加入 SRD 的代理。
如果问题仍然存在,请检查 /var/opt/gwlm/gwlmagent.log.0
文件和 /var/opt/gwlm/gwlm/gwlmcmsd.log.0 文件中的其他诊断消息。
“SRD
通信问题”事件和(或)“使用部分节点集重组 SRD”事件
 |
 |  |
 |
 | 注释:使用部分节点集进行重组至少需要 SRD 中的三个受管节点。缺省情况下,不显示“SRD 通信问题”事件。要查看这些事件,请通过在
VSE Management 菜单栏中使用 Tools → Global Workload Manager → Events,在 SIM 中配置事件。 |
 |
 |  |
 |
如果有一个包含 n 个节点的 SRD,且收到n -
1 个“SRD 通信问题”事件
但在收到第一个“SRD 通信问题”事件的 5 分钟(假设分配时间间隔为
15 秒)内没有收到“使用部分节点集重组 SRD”事件
您可能需要执行下列步骤:
在受影响的 SRD 中的每个受管节点上停止 gwlmagent:
# /opt/gwlm/bin/gwlmagent --stop
在上述每个受管节点上重新启动代理:
# /opt/gwlm/bin/gwlmagent
手动清除
SRD |
 |
如果 gWLM 无法重组 SRD,可以手动清除 SRD,如下所述。
清除
A.02.50.00.x(或更高版本)代理的 SRD
下述命令是一个用于清除 SRD 的高级命令。通常,要从管理中删除主机,推荐使用 gwlm undeploy 命令。
从 A.02.50.00.x 代理开始,可以使用以下命令手动清除 SRD:
# gwlm reset --host=主机
其中主机指定含有要清除的 SRD 的主机。
如果上述命令不起作用,请按照下一节介绍的步骤操作。
无论 SRD 中的代理是什么版本,通过下列步骤都可以清除 SRD:
在每个受管节点上删除 deployed.config 文件:
# rm -f /etc/opt/gwlm/deployed.config
强制取消部署 SRD(下文中名为 SRD),以确保 CMS 和受管节点一致接受 SRD 的
状态。在
CMS 上运行以下命令:
# /opt/gwlm/bin/gwlm undeploy --srd=SRD --force
在每个受管节点上停止 gwlmagent 守护程序:
# /opt/gwlm/bin/gwlmagent --stop
在每个受管节点上启动 gwlmagent 守护程序:
# /opt/gwlm/bin/gwlmagent
 |
 |  |
 |
 | 注释:如果 gWLM CMS 和代理并不一致认为 SRD 已部署或取消部署,可以将 --force 选项与 gwlm deploy 或 gwlm undeploy 命令一起使用。 |
 |
 |  |
 |