回到網頁內容 臺灣-繁體中文
HP.com 首頁 產品資訊 支�#169;及驅動程式 解決方案 如何購買
» 聯絡 HP
進階選項
HP.com 首頁
HP 全域工作負載管理員 4.0 版使用指南 > 第 5 章. 其他的配置與管理作業

自動重新啟動 SRD 中的 gWLM 受管理節點 (高可用性)

» 

技術文件

PDF 格式的完整書籍
» 回饋意見
內容©韟像B開©l

 » 目錄

 » 索引

每當受管理節點開機時,該節點的 gWLM 代理程式便會試圖自動重新加入其 SRD 中的節點,以提供更高的可用性。下列為針對上述行為僅需執行的配置步驟:

  1. 確認已將每一個受管理節點上的 /etc/rc.config.d/gwlmCtl 檔案之 GWLM_AGENT_START 設為 1。只要在執行 gwlmagent 的每一個系統上執行下列命令,即可進行變更:

    # /opt/gwlm/bin/gwlmagent --enable_start_on_boot

    在相同的檔案中,執行 gwlmcmsd 的系統上亦需要 GWLM_CMS_START=1。然而,當您在安裝作業期間執行 vseinitconfig 時,便會自動進行變更。

  2. (選用) 編輯下列屬性

    com.hp.gwlm.node.HA.minimumTimeout

    (位於 /etc/opt/gwlm/conf/gwlmagent.properties 中),以設定受管理節點將其本身視為與其 SRD 分離之前,必須經過的秒數下限。設定此屬性,以確保不會因輕微的網路問題導致受管理節點過早將其本身視為與 SRD 分離。

    只有在設定值大於 10 倍以上的 gWLM 配置時間間隔時,gWLM 才會使用此值。例如,假設預設配置時間間隔為 15 秒,因此在節點的 gWLM 代理程式試圖重新連接 SRD 之前,節點可有 2.5 分鐘不與其 SRD 通訊的情況下運作。

當一次失去一個受管理節點或所有受管理節點皆失去時,此特性便能發揮最佳功效。

附註: 若 vpar 在與其 SRD 失去聯繫的情況下,借用 (borrow) 其他 vpar 的核心,則出借的核心可與 SRD 隔開。若 vpar 長時間關閉,請檢查 SRD 是否已在無此 vpar 的情況下完成重組,以及是否有足以符合其承諾的核心。若否,試用 vparmodify 以回收 (reclaim) 部份核心(無法本機修改已關閉的 vpar,僅某些版本的 HP-UX 虛擬分區讓您能輕鬆地遠端修改 vpar)。

同樣地,若 npar 在與其 SRD 失去聯繫的情況下有數個啟用的核心 (因隨機補充包),則需以手動調整 npar 的大小,以回收那些 npar 仍在 SRD 中的核心。若需相關資訊,請參閱隨機補充包文件。

自動重新啟動的運作方式

若將 /etc/rc.config.d/gwlmCtl 檔案中的 GWLM_AGENT_START 設為 1,便會在受管理節點開機時自動啟動 gWLM 代理程式 (gwlmagent)。代理程式接著檢查 /etc/opt/gwlm/deployed.config 檔案,以決定其 CMS。接下來,它會試圖與 CMS 聯繫,讓 CMS 重新部署其 SRD 視界。若無法聯繫 CMS,只要所有的節點均同意,便會部署 deployed.config 檔案中的 SRD。

一般而言,若 SRD 因節點即將當機、CMS 即將當機或網路通訊問題而受到干擾時,gWLM 便會嘗試重組 SRD。gWLM 會對 SRD 中的節點維持叢集的概念。叢集中,只有一個主節點,其餘皆為非主節點。若主節點與其餘的 SRD 失去聯繫,其餘的 SRD 在一致同意新主節點的情況下,仍可在無原有主節點的情況下以部份叢集 (partial cluster) 繼續運作。若非主節點與其餘的 SRD 失去聯繫,剩下的部份叢集仍可在沒有這個失去的節點的情況下繼續運作。主節點僅是忽略這個失去的節點,直到再次可使用它為止。

您可以使用 gwlmstatus 命令來監控可用性。此命令可讓您瞭解是否有任何主機無法重新加入某個節點的 SRD,以及 SRD 中的主機是否無回應。若需相關資訊,請參閱 gwlmstatus(1M)。

附註: 因嘗試重組 SRD 可能會逾時而未部署任何 SRD,導致無法管理任何資源配置。若發生此情況,請參閱《VSE 管理軟體版本需知》並遵循「資料在即時監視中不見了」一節中的建議行動進行。

相關事件

您可以配置下列與此自動重新啟動特性相關的 HP SIM 事件:

  • Node Failed to Rejoin SRD on Start-up (節點無法在啟動時重新加入 SRD)

  • SRD Reformed with Partial Set of Nodes (以部份節點組重組 SRD)

  • SRD Communication Issue (SRD 通訊問題)

若需啟用和檢視這些事件的相關資訊,請參閱 gWLM 的「Events」功能表。

您可以利用 HP SIM 左側窗格的「事件表列」項目檢視這些事件。

下列各節說明處理這些事件的方式。

「Node Failed to Rejoin SRD on Start-up」事件

若您看見「Node Failed to Rejoin SRD on Start-up」事件:

  1. 重新啟動受影響的 SRD 中每一個受管理節點上的 gwlmagent

    # /opt/gwlm/bin/gwlmagent --restart

  2. 監視 HP SIM 中的 Shared Resource Domain 視界,或是使用 gwlm monitor 命令,以確認代理程式是否重新加入 SRD。

  3. 若問題仍然存在,請檢查 /var/opt/gwlm/gwlmagent.log.0/var/opt/gwlm/gwlmcmsd.log.0 檔案以取得其他的診斷訊息。

「SRD Communication Issue」和「SRD Reformed with Partial Set of Nodes」事件

附註: SRD 中至少要有 3 個受管理節點,才能以部份節點群組進行重組。預設不會啟用「SRD Communication Issue」事件。欲檢視這些事件,請透過 VSE Management 功能表列,利用 Tools->Global Workload Manager->Events 來配置 HP SIM 中的事件。

如果您有一個 SRD 包含 n 個節點,且您收到了 n - 1 個「SRD Communication Issue」事件,但在第一個「SRD Communication Issue」事件後 5 分鐘之內並未收到任何「SRD Reformed with Partial Set of Nodes」事件 (假設配置時間間隔為 15 秒),您可能需要將受影響 SRD 中每一個受管理節點上的 gwlmagent 重新啟動:

# /opt/gwlm/bin/gwlmagent --restart

手動清理 SRD

gWLM 若無法重組 SRD,請遵循下節的說明手動清理 SRD。

清理 A.02.50.00.04 (或更新版) 代理程式的 SRD

下列命令是清理 SRD 的進階命令。使用 gwlm undeploy 命令是典型自管理移除主機的建議方法。

自 A.02.50.00.04 版代理程式開始,您可以利用下列命令手動清理 SRD:

# gwlm reset --host=主機

其中,主機指定欲清理具 SRD 的主機。

若此命令無作用,請使用下節中指定的程序。

清理任何版本代理程式的 SRD

本節當中的程序會清理 SRD,無關 SRD 中的代理程式版本為何。

gwlm 命令會在安裝期間新增至路徑中。在 HP-UX 系統上,此命令位於 /opt/gwlm/bin/ 內。在 Microsoft Windows 系統上,此命令的預設位置則是 C:\Program Files\HP\Virtual Server Environment\bin\gwlm\。不過安裝時可能會選擇不同的路徑。

附註: 您必須在 HP-UX 上以 root 身分登入,或是在 Windows 上登入屬於 Administrators 群組成員的帳號,才能使執行下列命令。
  1. 刪除每一個受管理節點上的 deployed.config 檔案:

    # rm -f /etc/opt/gwlm/deployed.config

  2. 強制解除 SRD (以下稱為 SRD) 部署,以確認 CMS 和受管理節點皆同意 SRD 的狀態。請在 CMS 上執行下列命令:

    # gwlm undeploy --srd=SRD --force

  3. 重新啟動每一個受管理節點上的 gwlmagent 協助程式:

    # /opt/gwlm/bin/gwlmagent --restart

附註: gWLM CMS 和代理程式若對 SRD 是否已部署或尚未部署無法達成一致的協議,可以使用搭配 --force 選項的 gwlm deploygwlm undeploy 命令。
可列印版本
隱私權聲明 使用範圍與著作權聲明
© 2004-2008 Hewlett-Packard Development Company, L.P.