 |
» |
|
|
 |
|  |  |
Siempre que se inicia un nodo administrado, el agente gWLM
del nodo intenta volver a unirse automáticamente al nodo
en su dominio de recursos compartidos, aportando alta disponibilidad.
Los únicos pasos de configuración que tiene que
dar para que este comportamiento tenga lugar son: Compruebe que el archivo /etc/rc.config.d/gwlmCtl de
cada nodo administrado tiene GWLM_AGENT_START definido en 1. Puede ejecutar el siguiente comando
en cada sistema en que gwlmagent se ejecute para que haga este cambio por usted: # /opt/gwlm/bin/gwlmagent --enable_start_on_boot En el mismo archivo, también es necesario GWLM_CMS_START=1 en el sistema donde gwlmcmsd se ejecute. No obstante, al ejecutar /opt/vse/bin/vseinitconfig
durante la instalación, este cambio se efectuó automáticamente. (Opcional) Modifique la propiedad com.hp.gwlm.node.HA.minimumTimeout en el archivo /etc/opt/gwlm/conf/gwlmagent.properties para
definir el número mínimo de segundos que deben
transcurrir antes de que un nodo administrado se considere separado
de su dominio de recursos compartidos. Defina esta propiedad para
garantizar que problemas pequeños de red no hagan que un
nodo administrado se considere separado prematuramente. gWLM utiliza este valor sólo si es mayor que 10 multiplicado
por el intervalo de asignación de gWLM. Por ejemplo, con
el intervalo de asignación de 15 segundos, un
nodo puede estar 2,5 minutos sin comunicar con su dominio
de recursos compartidos antes de que el agente gWLM del nodo intente
volver a conectar con el dominio de recursos partidos.
Esta característica funciona mejor cuando se pierde
un nodo administrado a la vez o se pierden todos los nodos administrados. Funcionamiento
del reinicio automático |  |
Cuando un nodo administrado se inicia, el agente gWLM (gwlmagent) se inicia automáticamente si GWLM_AGENT_START está definido en 1 en el archivo /etc/rc.config.d/gwlmCtl.
A continuación, el agente comprueba el archivo /etc/opt/gwlm/deployed.config
para determinar su sistema CMS. Acto seguido, trata de ponerse en
contacto con el sistema CMS para que éste vuelva a desplegar
su vista del dominio de recursos compartidos. Si no se puede contactar
con el sistema CMS, el dominio de recursos compartidos del archivo
deployed.config se despliega mientras todos los nodos estén
de acuerdo. En general, cuando la desactivación de un nodo o
problemas de comunicaciones de red perturban un dominio de recursos
compartidos, gWLM intenta reformar el dominio de recursos compartidos.
gWLM mantiene el concepto de un clúster para los nodos
de un dominio de recursos compartidos. En un clúster, un
nodo es un maestro y los demás nodos son no maestros. Si
el nodo maestro pierde el contacto con el resto del dominio de recursos
compartidos, el resto del dominio de recursos compartidos puede continuar
sin él, en forma de clúster parcial, acordando
unánimemente un maestro nuevo. Si un nodo no maestro pierde
la comunicación con el resto del dominio de recursos compartidos,
el clúster parcial resultante sigue funcionando sin el
nodo perdido. El maestro simplemente omite el nodo que falta hasta
que vuelva a estar disponible.  |  |  |  |  | NOTA: El tiempo de espera de los intentos de reforma de los
dominios de recursos compartidos puede agotarse, sin dejar ningún
dominio de recursos compartidos desplegado y, por consiguiente,
sin ninguna administración de asignaciones de recursos.
Si sucede esto, detenga e inicie los agentes según se describe
en la sección «Suceso “Node
Failed to Rejoin SRD on Start-up”»,
presentada más adelante. |  |  |  |  |
Sucesos
relacionados |  |
Se pueden configurar los siguientes sucesos SIM en relación
con esta característica de reinicio automático: Node Failed to Rejoin SRD on Start-up
(El nodo no pudo volver a unirse al dominio de recursos compartidos
en el inicio) SRD Reformed with Partial Set of Nodes (Dominio
de recursos compartidos reformado con conjunto parcial de nodos) SRD Communication Issue (Problema de comunicación
del dominio de recursos compartidos)
Para obtener información sobre la habilitación
y consulta de estos sucesos, consulte el menú “Configure
Events” de gWLM. A continuación, podrá consultar estos sucesos
utilizando el elemento Event Lists del panel izquierdo del administrador
SIM. Las siguientes secciones explican cómo manejar algunos
de los sucesos. Suceso “Node
Failed to Rejoin SRD on Start-up”Si ve este suceso: Detenga el agente gwlmagent en cada nodo administrado del dominio de recursos
compartidos afectado: # /opt/gwlm/bin/gwlmagent --stop Reinicie el agente en cada uno de dichos nodos administrados: # /opt/gwlm/bin/gwlmagent Compruebe que el agente se vuelve a unir al dominio
de recursos compartidos supervisando la vista Shared Resource Domain
View en el administrador SIM o utilizando el comando gwlm monitor. Si el problema continúa, compruebe los archivos /var/opt/gwlm/gwlmagent.log.0
y /var/opt/gwlm/gwlm/gwlmcmsd.log.0 para ver si hay mensajes de
diagnóstico adicionales.
Sucesos “SRD
Communication Issue” / “SRD Reformed with Partial
Set of Nodes” |  |  |  |  | NOTA: Para reformar con un conjunto parcial de nodos, se precisa
un mínimo de tres nodos administrados en el dominio de
recursos compartidos.Los sucesos “SRD Communication Issue” no
se habilitan por defecto. Para ver estos sucesos, configure los
sucesos en el administrador SIM mediante la barra de menús
de VSE Management: utilice Tools -> Global Workload Manager -> Events. |  |  |  |  |
Si tiene un dominio de recursos compartidos que contiene n nodos
y obtiene n - 1 de los sucesos “SRD Communication
Issue” pero ningún suceso “SRD Reformed with Partial Set of Nodes” en
un plazo de 5 minutos (suponiendo un intervalo de asignación
de 15 segundos) después del primer suceso “SRD
Communication Issue” tal vez tenga que dar los siguientes pasos: Detenga el agente gwlmagent en cada nodo administrado del dominio de recursos
compartidos afectado: # /opt/gwlm/bin/gwlmagent --stop Reinicie el agente en cada uno de dichos nodos administrados: # /opt/gwlm/bin/gwlmagent
Borrado
manual de un dominio de recursos compartidos |  |
Si gWLM no puede reformar un dominio de recursos compartidos,
se puede borrar manualmente dicho dominio, según se describe
más adelante. Borrado
de un dominio de recursos compartidos de los agentes A.02.50.00.x
(o posterior)El comando analizado más adelante es un comando avanzado
para borrar un dominio de recursos compartidos. El método
recomendado para eliminar normalmente un sistema host de la administración
consiste en utilizar el comando gwlm undeploy. A partir de los agentes A.02.50.00.x, un dominio de recursos
compartidos se puede borrar manualmente con el siguiente comando: # gwlm reset --host=host donde host especifica el sistema host con el dominio de recursos compartidos
que ha de borrarse. Si el comando anterior no funciona, siga el procedimiento
dado en la sección siguiente. Borrado
de un dominio de recursos compartidos de los agentes de cualquier
versiónEl siguiente procedimiento borra un dominio de recursos compartidos independientemente
de la versión de los agentes del dominio de recursos compartidos. Elimine el archivo deployed.config en cada
nodo administrado: # rm -f /etc/opt/gwlm/deployed.config Fuerce el pliegue del dominio de recursos compartidos
(denominado SRD a continuación) para garantizar que el sistema
CMS y los nodos administrados acuerden el estado del dominio de
recursos compartidos. Ejecute el siguiente comando en el sistema
CMS: # /opt/gwlm/bin/gwlm undeploy --srd=SRD --force Detenga el demonio gwlmagent en cada nodo administrado: # /opt/gwlm/bin/gwlmagent --stop Inicie el demonio gwlmagent en cada nodo administrado: # /opt/gwlm/bin/gwlmagent
 |  |  |  |  | NOTA: Si el sistema gWLM CMS y el agente no están
de acuerdo sobre si un dominio de recursos compartidos se despliega
o pliega, se puede utilizar la opción --force con los comandos gwlm deploy o gwlm undeploy. |  |  |  |  |
|