跳到内容 中国
HP.com 主页 产品与服务 支持及驱动程序 解决方案 如何购买
» 联系惠普
更多选项
HP.com 主页
HP Global Workload Manager 4.0 用户指南 > 第 5 章 其他配置和管理任务

自动重新启动 SRD 中的 gWLM 受管节点(高可用性)

» 

技术文档资料

完整的 PDF 手册
» 反馈
内容从此开始:

 » 目录

 » 索引

每当受管节点引导时,该节点的 gWLM 代理就会尝试在其 SRD 中自动重新加入该节点,从而提供了高可用性。要实现此行为,只需要执行如下配置步骤:

  1. 确保每个受管节点上的 /etc/rc.config.d/gwlmCtl 文件将 GWLM_AGENT_START 设置为 1。您可以在运行 gwlmagent 的每个系统上运行以下命令来进行此更改:

    # /opt/gwlm/bin/gwlmagent --enable_start_on_boot

    在同一个文件中,还需要对运行 gwlmcmsd 的系统设置 GWLM_CMS_START=1。不过,在安装过程中运行 vseinitconfig 时,会自动进行此更改。

  2. (可选)在 /etc/opt/gwlm/conf/gwlmagent.properties 文件中编辑属性

    com.hp.gwlm.node.HA.minimumTimeout,

    以便设置受管节点在确认自身与其 SRD 隔离之前必须经过的最少秒数。设置该属性可确保受管节点不会由于较小的网络问题而过早地认为自身已隔离。

    仅当该值比 gWLM 的分配时间间隔的 10 倍长时才使用该值。例如,以 15 秒为分配时间间隔,则在某个节点的 gWLM 代理尝试重新连接 SRD 之前,该节点可在 2.5 分钟内不与其 SRD 通信。

当丢失一个受管节点或所有受管节点都丢失时该功能将发挥最佳作用。

注释:如果 vpar 在与其 SRD 失去联系时正从其他 vpar 借用核心,则这些借用的核心可能会与 SRD 隔离。如果 vpar 可能会在较长时间内处于关闭状态,则要检查 SRD 是否在没有该 vpar 的情况下已经进行了重组,而且还要检查是否具有足够的核心来满足其条件。如果不满足这些条件,请使用 vparmodify 收回部分核心。如果 vpar 已关闭,您将无法在本地对其进行修改,而只有使用 HP-UX Virtual Partitions 的某些版本才可以远程修改 vpar。

同样,如果 npar 在与其 SRD 失去联系时有多个活动的核心(由于 Instant Capacity),您可能必须手动调整该 npar 的大小来收回那些仍在 SRD 中的 npar 的核心。有关详细信息,请参阅 Instant Capacity 文档资料。

如何自动重新启动

当受管节点引导时,如果在 /etc/rc.config.d/gwlmCtl 文件中将 GWLM_AGENT_START 设置为 1,则 gWLM 代理 (gwlmagent) 会自动启动。然后,该代理将检查 /etc/opt/gwlm/deployed.config 文件来确定其 CMS。随后,它会尝试与 CMS 联系以使 CMS 重新部署其 SRD 视图。如果无法联系 CMS,则只要所有节点接受,就会部署 deployed.config 文件中的 SRD。

一般来说,当 SRD 由于节点关闭、CMS 关闭或网络通信问题而被损坏时,gWLM 会尝试重组 SRD。gWLM 会为 SRD 中的节点保持一个群集结构。在群集中,只有一个节点是主节点,其他的节点都是非主节点。如果主节点与 SRD 的其余节点失去联系,SRD 的其余节点可以在没有主节点的情况下,通过一致接受一个新的主节点而作为部分群集继续工作。如果非主节点与 SRD 的其余节点失去通信,则生成的部分群集会在不存在该丢失的节点的情况下继续操作。主节点仅忽略丢失的节点,直到它重新变为可用。

您可以使用 gwlmstatus 命令监视可用性。该命令可确定是否有任何主机无法重新加入节点的 SRD,以及 SRD 中的主机是否无响应。有关详细信息,请参阅 gwlmstatus(1M)。

注释:尝试重组 SRD 可能会超时,从而导致不部署 SRD 并进而不对资源分配进行管理。如果发生此问题,请参阅《VSE 管理软件发行说明》,并按“在实时监视中丢失数据”一节中的建议执行操作。

相关事件

可以针对此自动重启特性配置下列 HP SIM 事件:

  • 启动时节点无法重新加入 SRD

  • 使用部分节点集重组 SRD

  • SRD 通信问题

有关启用和查看这些事件的信息,请参考 gWLM 的“Events”菜单。

然后,可以通过 HP SIM 左侧窗格中的 Event Lists 项查看这些事件。

下面几节说明如何处理其中一些事件。

“启动时节点无法重新加入 SRD”事件

如果出现“启动时节点无法重新加入 SRD”事件,请执行下列操作:

  1. 在受影响的 SRD 中的每个受管节点上重新启动 gwlmagent

    # /opt/gwlm/bin/gwlmagent --restart

  2. 通过监视 HP SIM 中的 Shared Resource Domain 视图或使用 gwlm monitor 命令,来验证代理是否已重新加入 SRD。

  3. 如果问题仍然存在,请检查 /var/opt/gwlm/gwlmagent.log.0 文件和 /var/opt/gwlm/gwlmcmsd.log.0 文件中的其他诊断消息。

“SRD 通信问题”事件和“使用部分节点集重组 SRD”事件

注释:使用部分节点集进行重组至少需要 SRD 中的三个受管节点。缺省情况下,不显示“SRD 通信问题”事件。要查看这些事件,请通过“VSE Management”菜单栏的 Tools-> Global Workload Manager->Events,在 HP SIM 中配置这些事件。

如果有一个 SRD 包含 n 个节点,并且在发生第一个“SRD Communication Issue”事件后的 5 分钟内发生 n - 1 个“SRD Communication Issue”事件,但未发生“SRD Reformed with Partial Set of Nodes”事件(假定分配时间间隔为 15 分钟),则可能需要在受影响的 SRD 中的每个受管节点上重新启动 gwlmagent

# /opt/gwlm/bin/gwlmagent --restart

手动清除 SRD

如果 gWLM 无法重组 SRD,可以手动清除 SRD,如下一节所述。

清除 A.02.50.00.04(或更高版本)代理的 SRD

下述命令是一个用于清除 SRD 的高级命令。通常,要取消管理某个主机,建议使用 gwlm?undeploy 命令。

从 A.02.50.00.04 代理开始,可以使用以下命令手动清除 SRD:

# gwlm reset --host=主机

其中主机指定含有要清除的 SRD 的主机。

如果此命令不起作用,请按照下一节介绍的步骤操作。

清除任何版本的代理的 SRD

无论 SRD 中的代理是什么版本,通过本节中的步骤都可以清除 SRD。

在安装过程中,会将 gwlm 命令添加到如下所述的路径中。在 HP-UX 系统上,该命令位于 /opt/gwlm/bin/ 中。在 Microsoft Windows 系统中,该命令在缺省情况下位于 C:\Program Files\HP\Virtual Server Environment\bin\gwlm\ 中。但是,您可以在安装时选择其他路径。

注释:要运行下面的命令,您必须以超级用户身份登录到 HP-UX 上,或者以 Administrators 组成员帐户身份登录到 Windows 上。
  1. 在每个受管节点上删除 deployed.config 文件:

    # rm -f /etc/opt/gwlm/deployed.config

  2. 强制取消部署 SRD(下文中名为 SRD),以确保 CMS 和受管节点一致接受 SRD 的状态。在 CMS 上运行以下命令:

    # gwlm undeploy --srd=SRD --force

  3. 在每个受管节点上重新启动 gwlmagent 守护程序:

    # /opt/gwlm/bin/gwlmagent --restart

注释:如果 gWLM CMS 和代理并不一致认为 SRD 已部署或取消部署,可以在 gwlm deploygwlm undeploy 命令中使用 --force 选项。
打印版本
保密声明 使用本网站表示您同意其使用条件
© 2004-2008 Hewlett-Packard Development Company, L.P.