Salta l'introduzione Italia - Italiano
HP.com Italia Prodotti e Servizi Supporto e Drivers Soluzioni Come Acquistare
» Contatta HP
Altre opzioni
HP.com Italia
HP Global Workload Manager versione 4.0: Manuale per l'utente > Capitolo 5 Operazioni aggiuntive di configurazione ed amministrazione

Riavvio automatico dei nodi amministrati di gWLM in un dominio di risorse condivise (alta disponibilità)

» 

Documentazione tecnica

Libro completo in PDF
» Feedback
Inizio contenuto

 » Sommario

 » Indice

Ogni volta che un nodo amministrato si avvia, l’agente gWLM di quel nodo tenterà automaticamente di riunire il nodo al suo dominio di risorse condivise, fornendo così l’alta disponibilità. Perché si verifichi questo comportamento, le uniche operazioni di configurazione da eseguire sono:

  1. Accertarsi che in ogni file /etc/rc.config.d/gwlmCtl di ciascun nodo amministrato, il valore di GWLM_AGENT_START sia impostato ad 1. Per eseguire questa operazione, in ogni sistema in cui gwlmagent è in esecuzione è possibile eseguire il comando seguente:

    # /opt/gwlm/bin/gwlmagent --enable_start_on_boot

    Nel medesimo file, è inoltre necessario impostare GWLM_CMS_START=1 nel sistema in cui gwlmcmsd è in esecuzione. Tuttavia, questa modifica è stata fatta automaticamente durante l'installazione quando è stato eseguito vseinitconfig.

  2. (Facoltativo) Modificare la proprietà

    com.hp.gwlm.node.HA.minimumTimeout

    Nel file /etc/opt/gwlm/conf/gwlmagent.properties, per impostare il numero minimo di secondi che devono trascorrere prima che un nodo amministrato consideri se stesso isolato dal dominio di risorse condivise. Impostare questa proprietà per garantire che eventuali problemi minori della rete non facciano in sì che il nodo amministrato consideri prematuramente se stesso come isolato.

    Questo valore è utilizzato da gWLM solamente se è superiore al suo intervallo di assegnazione moltiplicato per 10. Ad esempio, con un intervallo di assegnazione di 15 secondi, prima che l’agente gWLM del nodo tenti di riconnettersi al suo dominio di risorse condivise devono trascorrere due minuti e mezzo senza comunicazioni con esso.

Questa funzionalità opera al meglio quando si perde contatto un nodo amministrato alla volta oppure con tutti in una sola volta.

NOTA: Nel caso una vpar stia prendendo in prestito dei nuclei da altre vpar al momento della perdita di contatto con il dominio di risorse condivise, questi nuclei in prestito potrebbero rimanere isolati dal dominio. Se la vpar rimanesse inattiva per molto tempo, controllare se il dominio di risorse condivise si è riformato senza quella vpar e se ha nuclei a sufficienza per soddisfare i requisiti. In caso contrario, utilizzare vparmodify per provare a riottenere alcuni dei nuclei. (Non sarà possibile modificare localmente la vpar inattiva, e solamente alcune versioni di HP-UX Virtual Partitions consentono di modificare facilmente un vpar remota.)

Analogamente, se una npar ha vari nuclei attivi – per via di Instant Capacity – quando perde il contatto con il suo dominio di risorse condivise, sarà possibile dimensionarla manualmente, per riottenere quei nuclei delle npar che ancora si trovano nel dominio. Per ulteriori informazioni, consultare la documentazione di Instant Capacity.

Come funziona il riavvio automatico

Quando un nodo amministrato si avvia, l’agente di gWLM – gwlmagent – è eseguito automaticamente se nel file /etc/rc.config.d/gwlmCtl il valore di GWLM_AGENT_START è stato impostato ad 1. L’agente controllerà quindi il file /etc/opt/gwlm/deployed.config, per stabilire il proprio server di amministrazione centrale. Successivamente, tenterà di contattare il server di amministrazione centrale, in modo che esso rimetta in attività il proprio dominio di risorse condivise. Se non fosse possibile contattare il server di amministrazione centrale, il dominio di risorse condivise presente nel file deployed.config sarà messo in attività solo con la conferma di tutti gli altri nodi.

In generale, quando un dominio di risorse condivise è bloccato dall’arresto di un nodo, del server di amministrazione centrale o da problemi di comunicazione della rete, gWLM tenterà di riformare il dominio. Per i nodi del dominio di risorse condivise, gWLM mantiene il concetto di cluster. In un cluster, un nodo è il master, mentre gli altri sono non-master. Se il nodo master perde il contatto con il resto del dominio di risorse condivise, questo potrà continuare senza di esso, come cluster parziale, concordando unanimemente un nuovo master. Se un non-master interrompe le comunicazioni con il dominio di risorse condivise, il cluster parziale restante continuerà la sua attività senza il nodo mancante. Il master ometterà semplicemente il nodo mancante finché non sarà nuovamente disponibile.

È possibile monitorare la disponibilità con il comando gwlmstatus. Può segnalare se degli host non sono in grado di riunirsi al dominio di risorse condivise del nodo, oltre ad indicare se gli host nel dominio non rispondono. Per ulteriori informazioni, vedere gwlmstatus(1M).

NOTA: I tentativi di riformare il dominio di risorse condivise termineranno scaduto il tempo massimo consentito, senza alcun dominio di risorse condivise in attività, senza quindi una gestione dell’assegnazione delle risorse. Nel caso che ciò si verifichi, consultare Amministrazione di HP Virtual Server Environment per Integrity versione 4.0: Informazioni sulla release e eseguire le azioni suggerite nella sezione "Dati mancanti nel monitoraggio in tempo reale".

Eventi correlati

È possibile configurare i seguenti eventi di HP SIM, relativi a questa funzionalità di riavvio automatico:

  • Node Failed to Rejoin SRD on Start-up

  • SRD Reformed with Partial Set of Nodes

  • SRD Communication Issue

Per informazioni su come abilitare e visualizzare questi eventi, vedere il menu "Configure Events" di gWLM.

È possibile visualizzare questi eventi utilizzando la voce Event Lists nel pannello sinistro di HP SIM.

Le sezioni seguenti mostrano come gestire alcuni di questi eventi.

Evento “Node Failed to Rejoin SRD on Start-up”

Se è visualizzato l'evento "Node Failed to Rejoin SRD on Start-up":

  1. Riavviare gwlmagent in ogni nodo amministrato nel dominio di risorse condivise interessato:

    # /opt/gwlm/bin/gwlmagent --restart

  2. Controllare che l’agente si sia riunito al dominio di risorse condivise esaminando in HP SIM la pagina Shared Resource Domain, oppure utilizzando il comando gwlm monitor.

  3. Se il problema persiste, cercare ulteriori messaggi diagnostici nel file /var/opt/gwlm/gwlmagent.log.0 ed in quello /var/opt/gwlm/gwlm/gwlmcmsd.log.0.

Eventi “SRD Communication Issue” e “SRD Reformed with Partial Set of Nodes”

NOTA: Per potersi riformare con un insieme parziale di nodi, il dominio di risorse condivise richiede un minimo di tre nodi amministrati.Gli eventi “SRD Communication Issue” non sono abilitati per impostazione predefinita. Per visualizzare questi eventi, configurarli in HP SIM, tramite la barra dei menu di VSE Management, utilizzando Tools->Global Workload Manager->Events.

Nel caso si abbia un dominio di risorse condivise che contiene n nodi e si ottiene n - 1 eventi "SRD Communication Issue" ma nessuno del tipo "SRD Reformed with Partial Set of Nodes" entro 5 minuti – presumendo che l’intervallo di assegnazione sia di 15 secondi – dal primo evento "SRD Communication Issue", potrebbe essere necessario riavviare gwlmagent in ciascun nodo amministrato nel dominio di risorse condivise interessato:

# /opt/gwlm/bin/gwlmagent --restart

Cancellazione manuale di un dominio di risorse condivise

Se gWLM non è in grado di riformare il dominio di risorse condivise, è possibile ripulirlo manualmente, come descritto nella sezione seguente.

Eliminazione nel dominio di risorse condivise degli agenti A.02.50.00.04 (o successiva)

Quello seguente è un comando avanzato per ripulire un dominio di risorse condivise. Il metodo consigliato per rimuovere un host dall’amministrazione è di usare il comando gwlm undeploy.

A partire dagli agenti A.02.50.00.04, è possibile ripulire un dominio di risorse condivise con il comando seguente:

# gwlm reset --host=nome_host

dove nome_host specifica l’host nel dominio di risorse condivise da ripulire.

Se questo comando non dovesse funzionare, seguire la procedura descritta nella sezione successiva.

Ripulire un dominio di risorse condivise dagli agenti di qualsiasi versione

La procedura in questa sezione ripulisce un dominio di risorse condivise indipendentemente dalla versione dei suoi agenti:

Il percorso del comando gwlm è stato aggiunto durante l'installazione. Nei sistemi HP-UX, il comando si trova in /opt/gwlm/bin/. Nei sistemi Microsoft Windows, per impostazione predefinita il comando si trovano in C:\Programmi\HP\Virtual Server Environment\bin\gwlm\. Tuttavia, durante l'installazione potrebbe essere stato scelto un percorso differente.

NOTA: Per eseguire i comandi descritti oltre è necessario avere eseguito l'accesso come root in HP-UX oppure con un account membro del gruppo Administrators in Windows.
  1. In ogni nodo amministrato, eliminare il file deployed.config:

    # rm -f /etc/opt/gwlm/deployed.config

  2. Forzare l’interruzione della messa in attività del dominio di risorse condivise – qui di seguito con il nome dominio_risorse_condivise – per garantire che il server di amministrazione centrale ed i nodi amministrati concordino sul suo stato. Nel server di amministrazione centrale, eseguire il seguente comando:

    # gwlm undeploy --srd=dominio_risorse_condivise --force

  3. Riavviare il daemon gwlmagent in ogni nodo amministrato:

    # /opt/gwlm/bin/gwlmagent --restart

NOTA: Se il server di amministrazione centrale e gli agenti di gWLM non concordano sul fatto che il dominio di risorse condivise è in attività o no, è possibile utilizzare l’opzione --force con il comando gwlm deploy o con quello gwlm undeploy.
Versione stampabile
Informativa sulla privacy Usando questo sito si accettano le sue condizioni
© 2004-2008 Hewlett-Packard Development Company, L.P.