Ir al contenido España-Español
HP.com España principal Productos y Servicios Soporte y Drivers Soluciones Cómo Comprar
» Contactar con HP
Más opciones
HP.com España principal
HP Global Workload Manager versión 4.0: Guía del usuario > Capítulo 5 Tareas adicionales de configuración y administración

Reinicio automático de los nodos administrados de gWLM en los dominios de recursos compartidos (Alta disponibilidad)

» 

Documentación técnica

Libro completo en PDF
» Comentarios
Aquí empieza el contenido

 » Tabla de contenido

 » Índice

Siempre que se inicia un nodo administrado, el agente gWLM del nodo intenta volver a unirse automáticamente al nodo en su dominio de recursos compartidos, aportando alta disponibilidad. Los únicos pasos de configuración que tiene que dar para que este comportamiento tenga lugar son:

  1. Compruebe que el archivo /etc/rc.config.d/gwlmCtl de cada nodo administrado tiene GWLM_AGENT_START definido en 1. Puede ejecutar el siguiente comando en cada sistema en que se ejecute gwlmagent para que se efectúe este cambio por usted:

    # /opt/gwlm/bin/gwlmagent --enable_start_on_boot

    En el mismo archivo, también es necesario GWLM_CMS_START=1 en el sistema en que se ejecute gwlmcmsd. No obstante, al ejecutar vseinitconfig durante la instalación, este cambio se efectuó automáticamente.

  2. (Opcional) Modifique la propiedad

    com.hp.gwlm.node.HA.minimumTimeout

    en el archivo /etc/opt/gwlm/conf/gwlmagent.properties para definir el número mínimo de segundos que deben transcurrir antes de que un nodo administrado se considere separado de su dominio de recursos compartidos. Defina esta propiedad para garantizar que problemas pequeños de red no hagan que un nodo administrado se considere separado prematuramente.

    gWLM utiliza este valor sólo si es mayor que 10 multiplicado por el intervalo de asignación de gWLM. Por ejemplo, con un intervalo de asignación de 15 segundos, un nodo puede estar 2,5 minutos sin comunicar con su dominio de recursos compartidos antes de que el agente gWLM del nodo intente volver a conectar con el dominio de recursos compartidos.

Esta característica funciona mejor cuando se pierde un nodo administrado a la vez o se pierden todos los nodos administrados.

NOTA: Si una partición virtual toma prestados núcleos de otras particiones virtuales cuando pierde el contacto con su dominio de recursos compartidos, es posible que dichos núcleos tomados en préstamo estén separados del dominio de recursos compartidos. Si cabe la posibilidad de que la partición virtual esté inactiva durante un periodo prolongado, compruebe que el dominio de recursos compartidos se ha reformado sin esa partición virtual y que tiene suficientes núcleos para cumplir sus compromisos. En caso negativo, pruebe a utilizar vparmodify para recuperar parte de los núcleos. (Con la partición virtual inactiva, no podrá modificarla localmente y sólo algunas versiones del producto HP-UX Virtual Partitions le permiten modificar fácilmente una partición virtual remota.)

De igual manera, si una nPartición tiene varios núcleos activos (debido a Instant Capacity) cuando pierde el contacto con su dominio de recursos compartidos, es posible que tenga que ajustarse manualmente la nPartición para recuperar dichos núcleos para las nParticiones que aún estén en el dominio de recursos compartidos. Para obtener más información, consulte la documentación de Instant Capacity.

Funcionamiento del reinicio automático

Cuando un nodo administrado se inicia, el agente gWLM (gwlmagent) se inicia automáticamente si GWLM_AGENT_START está definido en 1 en el archivo /etc/rc.config.d/gwlmCtl. A continuación, el agente comprueba el archivo /etc/opt/gwlm/deployed.config para determinar su servidor CMS. Acto seguido, trata de ponerse en contacto con el servidor CMS para que éste vuelva a desplegar su vista del dominio de recursos compartidos. Si no se puede contactar con el servidor CMS, el dominio de recursos compartidos del archivo deployed.config se despliega mientras todos los nodos estén de acuerdo.

En general, cuando la desactivación de un nodo, o la desactivación de un servidor CMS, o problemas de comunicaciones de red perturban un dominio de recursos compartidos, gWLM intenta reformar el dominio de recursos compartidos. gWLM mantiene el concepto de un clúster para los nodos de un dominio de recursos compartidos. En un clúster, un nodo es un maestro y los demás nodos son no maestros. Si el nodo maestro pierde el contacto con el resto del dominio de recursos compartidos, el resto del dominio de recursos compartidos puede continuar sin él, en forma de clúster parcial, acordando unánimemente un maestro nuevo. Si un nodo no maestro pierde la comunicación con el resto del dominio de recursos compartidos, el clúster parcial resultante sigue funcionando sin el nodo perdido. El maestro simplemente omite el nodo que falta hasta que vuelva a estar disponible.

Puede utilizar el comando gwlmstatus para supervisar la disponibilidad. Dicho comando puede indicarle si algún sistema host no puede volver a unirse al dominio de recursos compartidos de un nodo, así como si los sistemas host del dominio de recursos compartidos no responden. Para obtener más información, consulte la página de manual de gwlmstatus(1M).

NOTA: El tiempo de espera de los intentos de reforma de los dominios de recursos compartidos puede agotarse, sin dejar ningún dominio de recursos compartidos desplegado y, por consiguiente, sin ninguna administración de asignaciones de recursos. Si sucede esto, consulte el documento Administración de HP Virtual Server Environment para Integrity versión 4.0: Notas de la revisión y dé los pasos recomendados en la sección «Faltan datos en la supervisión en tiempo real».

Sucesos relacionados

Se pueden configurar los siguientes sucesos HP SIM en relación con esta característica de reinicio automático:

  • Node Failed to Rejoin SRD on Start-up (El nodo no pudo volver a unirse al dominio de recursos compartidos en el inicio)

  • SRD Reformed with Partial Set of Nodes (Dominio de recursos compartidos reformado con conjunto parcial de nodos)

  • SRD Communication Issue (Problema de comunicación del dominio de recursos compartidos)

Para obtener información sobre la habilitación y consulta de estos sucesos, consulte el menú «Configure Events» de gWLM.

A continuación, podrá consultar estos sucesos utilizando el elemento Event Lists del panel izquierdo del administrador HP SIM.

Las siguientes secciones explican cómo manejar algunos de los sucesos.

Suceso «Node Failed to Rejoin SRD on Start-up»

Si obtiene el suceso «Node Failed to Rejoin SRD on Start-up»:

  1. Reinicie el agente gwlmagent en cada nodo administrado del dominio de recursos compartidos afectado:

    # /opt/gwlm/bin/gwlmagent --restart

  2. Compruebe que el agente se volvió a unir al dominio de recursos compartidos supervisando la vista Shared Resource Domain en el administrador HP SIM o utilizando el comando gwlm monitor.

  3. Si el problema continúa, compruebe los archivos /var/opt/gwlm/gwlmagent.log.0 y /var/opt/gwlm/gwlmcmsd.log.0 para ver si hay mensajes de diagnóstico adicionales.

Sucesos «SRD Communication Issue» y «SRD Reformed with Partial Set of Nodes»

NOTA: Para reformar con un conjunto parcial de nodos, se precisa un mínimo de tres nodos administrados en el dominio de recursos compartidos.Los sucesos «SRD Communication Issue» no se habilitan por defecto. Para ver estos sucesos, configure los sucesos en el administrador HP SIM mediante la barra de menús de VSE Management: utilice Tools->Global Workload Manager->Events.

Si tiene un dominio de recursos compartidos que contiene n nodos y obtiene n - 1 de los sucesos «SRD Communication Issue» pero ningún suceso «SRD Reformed with Partial Set of Nodes» al cabo de 5 minutos (partiendo de un intervalo de asignación de 15 segundos) de obtener el primer suceso «SRD Communication Issue», tal vez tenga que reiniciar gwlmagent en cada nodo administrado del dominio de recursos compartidos afectado:

# /opt/gwlm/bin/gwlmagent --restart

Borrado manual de un dominio de recursos compartidos

Si gWLM no puede reformar un dominio de recursos compartidos, se puede borrar manualmente dicho dominio, según se describe en la siguiente sección.

Borrado de un dominio de recursos compartidos de los agentes A.02.50.00.04 (o posteriores)

El siguiente comando es un comando avanzado para borrar un dominio de recursos compartidos. El método recomendado para eliminar normalmente un sistema host de la administración consiste en utilizar el comando gwlm undeploy.

A partir de los agentes A.02.50.00.04, un dominio de recursos compartidos se puede borrar manualmente con el siguiente comando:

# gwlm reset --host=host

donde host especifica el sistema host con el dominio de recursos compartidos que ha de borrarse.

Si este comando no funciona, siga el procedimiento dado en la sección siguiente.

Borrado de un dominio de recursos compartidos de los agentes de cualquier versión

El procedimiento de esta sección borra un dominio de recursos compartidos independientemente de la versión de los agentes del dominio de recursos compartidos.

El comando gwlm se agrega a la ruta durante la instalación. En los sistemas HP-UX, el comando está en /opt/gwlm/bin/. En los sistemas Microsoft Windows, el comando está por defecto en C:\Archivos de programa\HP\Virtual Server Environment\bin\gwlm\. No obstante, se puede haber seleccionado una ruta diferente durante la instalación.

NOTA: Deberá iniciar una sesión como usuario root en HP-UX o en una cuenta que sea miembro del grupo Administradores en Windows para ejecutar los comandos siguientes.
  1. Elimine el archivo deployed.config en cada nodo administrado:

    # rm -f /etc/opt/gwlm/deployed.config

  2. Fuerce un plegado del dominio de recursos compartidos (denominado SRD a continuación) para garantizar que el servidor CMS y los nodos administrados acuerdan el estado del dominio de recursos compartidos. Ejecute el siguiente comando en el servidor CMS:

    # gwlm undeploy --srd=SRD --force

  3. Reinicie el demonio gwlmagent en cada nodo administrado:

    # /opt/gwlm/bin/gwlmagent --restart

NOTA: Si el sistema gWLM CMS y el agente no están de acuerdo sobre si un dominio de recursos compartidos se despliega o pliega, se puede utilizar la opción --force con los comandos gwlm deploy o gwlm undeploy.
Versión para imprimir
Declaración de privacidad El uso de este sitio implica la aceptación de sus términos de uso
© 2004-2008 Hewlett-Packard Development Company, L.P.