跳到内容 中国
HP.com 主页 产品与服务 支持及驱动程序 解决方案 如何购买
» 联系惠普
更多选项
HP.com 主页
HP Integrity Essentials Global Workload Manager 管理员指南: gWLM A.02.50.00.x > 第 1 章 

SRD 中的 gWLM 受管节点自动重新启动(高可用性)

» 

技术文档资料

完整的 PDF 手册
» 反馈
内容从此开始:

 » 目录

只要受管节点引导,该节点的 gWLM 代理就会尝试在其 SRD 中自动重新加入该节点,从而可以提供高可用性。要实现此行为,只需要执行如下配置步骤:

  1. 确保在每个受管节点上,/etc/rc.config.d/gwlmCtl 文件(对于 HP-UX)和 /etc/sysconfig/gwlmCtl 文件(对于 Linux)将 GWLM_AGENT_START 设置为 1。您可以在每个正在运行 gwlmagent 的系统中运行以下命令来进行此更改:

    # /opt/gwlm/bin/gwlmagent --enable_start_on_boot

    同样在该文件中还需要对正在运行 gwlmcmsd 的系统设置 GWLM_CMS_START=1
    不过,在安装过程中运行 /opt/vse/bin/vseinitconfig 时,会自动进行此更改。

  2. (可选)在 /etc/opt/gwlm/conf/gwlmagent.properties 文件中编辑属性

    com.hp.gwlm.node.HA.minimumTimeout

    以便设置受管节点确认自身与其 SRD 隔离所需的最小秒数。设置该属性可确保受管节点不会由于较小的网络问题而过早地认为自身已隔离。

    仅在该值比 gWLM 的分配时间间隔的 10 倍时间长时,gWLM 才使用该值。例如,以 15 秒为分配时间间隔,则在某个节点的 gWLM 代理尝试重新联系 SRD 之前,该节点可在 2.5 分钟内不与其 SRD 通信。

当丢失一个受管节点或所有受管节点都丢失时该功能将发挥最佳作用。

注释:如果 vpar 在与其 SRD 失去联系时正从其他 vpar 借用 CPU,则这些借用的 CPU 可能会与 SRD 隔离。如果 vpar 可能会在较长时间内处于关闭状态,则要检查 SRD 是否在没有该 vpar 的情况下已经进行了重组,而且还要检查是否具有足够的 CPU 来满足其条件。如果不满足这些条件,请使用 vparmodify 收回某些 CPU。如果 vpar 已关闭,您将无法在本地对其进行修改,而只有使用 HP-UX Virtual Partitions 的某些版本才可以远程修改 vpar。

同样,如果 npar 在与其 SRD 失去联系时有多个活动的 CPU(由于 Instant Capacity),您可能必须手动调整该 npar 的大小来收回那些仍在 SRD 中的 npar 的 CPU。有关此类问题,请参考即时增容文档。

如何自动重新启动

当受管节点引导时,如果在 HP-UX 的 /etc/rc.config.d/gwlmCtl 文件和 Linux 的 /etc/sysconfig/gwlmCtl 文件中将 GWLM_AGENT_START 设置为 1,则 gWLM 代理 (gwlmagent) 会自动启动,然后该代理将检查 /etc/opt/gwlm/deployed.config 文件来确定其 CMS。随后,它会尝试与 CMS 联系以使 CMS 重新部署其 SRD 视图。如果无法联系 CMS,则只要所有节点接受,将部署 deployed.config 文件中的 SRD。

一般来说,当 SRD 由于节点关闭或网络通信问题而受到破坏时,gWLM 会尝试重组 SRD。gWLM 会为 SRD 中的节点保持群集的结构。在群集中,只有一个节点是主节点,其他的节点都是非主节点。如果主节点与 SRD 的其余节点失去联系,SRD 的其余节点可以在没有主节点的情况下,通过一致接受一个新的主节点而作为部分群集继续工作。如果非主节点与 SRD 的其余节点失去通信,则生成的部分群集会在不存在该丢失的节点的情况下继续操作。主节点仅忽略丢失的节点,直到它重新变为可用。

注释:尝试重组 SRD 可能会超时,从而导致不部署 SRD 并进而不对资源分配进行管理。如果发生此问题,请停止并启动代理(如下面的““启动时节点无法重新加入 SRD”事件”一节所述)。

相关事件

可以针对该自动重新启动功能配置下列 SIM 事件:

  • 启动时节点无法重新加入 SRD

  • 使用部分节点集重组 SRD

  • SRD 通信问题

有关启用和查看这些事件的信息,请参考 gWLM 的“Configure Events”菜单。

然后可以通过使用 SIM 左侧窗格中的 Event Lists 项查看这些事件。

下面几节说明如何处理其中一些事件。

“启动时节点无法重新加入 SRD”事件

如果出现该事件:

  1. 在受影响的 SRD 中的每个受管节点上停止 gwlmagent

    # /opt/gwlm/bin/gwlmagent --stop

  2. 在上述每个受管节点上重新启动代理:

    # /opt/gwlm/bin/gwlmagent

  3. 通过监视 SIM 中的 Shared Resource Domain 视图或通过使用 gwlm monitor 命令,
    来验证重新加入 SRD 的代理。

  4. 如果问题仍然存在,请检查 /var/opt/gwlm/gwlmagent.log.0 文件和 /var/opt/gwlm/gwlm/gwlmcmsd.log.0 文件中的其他诊断消息。

“SRD 通信问题”事件和(或)“使用部分节点集重组 SRD”事件

注释:使用部分节点集进行重组至少需要 SRD 中的三个受管节点。缺省情况下,不显示“SRD 通信问题”事件。要查看这些事件,请通过在 VSE Management 菜单栏中使用 Tools Global Workload Manager → Events,在 SIM 中配置事件。

如果有一个包含 n 个节点的 SRD,且收到n - 1 个“SRD 通信问题”事件

但在收到第一个“SRD 通信问题”事件的 5 分钟(假设分配时间间隔为 15 秒)内没有收到“使用部分节点集重组 SRD”事件

您可能需要执行下列步骤:

  1. 在受影响的 SRD 中的每个受管节点上停止 gwlmagent

    # /opt/gwlm/bin/gwlmagent --stop

  2. 在上述每个受管节点上重新启动代理:

    # /opt/gwlm/bin/gwlmagent

手动清除 SRD

如果 gWLM 无法重组 SRD,可以手动清除 SRD,如下所述。

清除 A.02.50.00.x(或更高版本)代理的 SRD

下述命令是一个用于清除 SRD 的高级命令。通常,要从管理中删除主机,推荐使用 gwlm undeploy 命令。

从 A.02.50.00.x 代理开始,可以使用以下命令手动清除 SRD:

# gwlm reset --host=主机

其中主机指定含有要清除的 SRD 的主机。

如果上述命令不起作用,请按照下一节介绍的步骤操作。

清除任何版本的代理的 SRD

无论 SRD 中的代理是什么版本,通过下列步骤都可以清除 SRD:

  1. 在每个受管节点上删除 deployed.config 文件:

    # rm -f /etc/opt/gwlm/deployed.config

  2. 强制取消部署 SRD(下文中名为 SRD),以确保 CMS 和受管节点一致接受 SRD 的
    状态。在 CMS 上运行以下命令:

    # /opt/gwlm/bin/gwlm undeploy --srd=SRD --force

  3. 在每个受管节点上停止 gwlmagent 守护程序:

    # /opt/gwlm/bin/gwlmagent --stop

  4. 在每个受管节点上启动 gwlmagent 守护程序:

    # /opt/gwlm/bin/gwlmagent

注释:如果 gWLM CMS 和代理并不一致认为 SRD 已部署或取消部署,可以将 --force
选项与 gwlm deploygwlm undeploy 命令一起使用。
打印版本
保密声明 使用本网站表示您同意其使用条件
© 2004-2007 - , Hewlett-Packard Development Company, L.P.