Ir al contenido España-Español
HP.com España principal Productos y Servicios Soporte y Drivers Soluciones Cómo Comprar
» Contactar con HP
Más opciones
HP.com España principal
Guía del administrador de HP Integrity Essentials Global Workload Manager: gWLM A.02.50.00.x > Capítulo 1 

Reinicio automático de los nodos administrados de gWLM en los dominios de recursos compartidos (Alta disponibilidad)

» 

Documentación técnica

Libro completo en PDF
» Documentos relacionados
» Comentarios
Aquí empieza el contenido

 » Tabla de contenido

Siempre que se inicia un nodo administrado, el agente gWLM del nodo intenta volver a unirse automáticamente al nodo en su dominio de recursos compartidos, aportando alta disponibilidad. Los únicos pasos de configuración que tiene que dar para que este comportamiento tenga lugar son:

  1. Compruebe que el archivo /etc/rc.config.d/gwlmCtl de cada nodo administrado tiene GWLM_AGENT_START definido en 1. Puede ejecutar el siguiente comando en cada sistema en que gwlmagent se ejecute para que haga este cambio por usted:

    # /opt/gwlm/bin/gwlmagent --enable_start_on_boot

    En el mismo archivo, también es necesario GWLM_CMS_START=1 en el sistema donde gwlmcmsd se ejecute. No obstante, al ejecutar /opt/vse/bin/vseinitconfig durante la instalación, este cambio se efectuó automáticamente.

  2. (Opcional) Modifique la propiedad

    com.hp.gwlm.node.HA.minimumTimeout

    en el archivo /etc/opt/gwlm/conf/gwlmagent.properties para definir el número mínimo de segundos que deben transcurrir antes de que un nodo administrado se considere separado de su dominio de recursos compartidos. Defina esta propiedad para garantizar que problemas pequeños de red no hagan que un nodo administrado se considere separado prematuramente.

    gWLM utiliza este valor sólo si es mayor que 10 multiplicado por el intervalo de asignación de gWLM. Por ejemplo, con el intervalo de asignación de 15 segundos, un nodo puede estar 2,5 minutos sin comunicar con su dominio de recursos compartidos antes de que el agente gWLM del nodo intente volver a conectar con el dominio de recursos partidos.

Esta característica funciona mejor cuando se pierde un nodo administrado a la vez o se pierden todos los nodos administrados.

NOTA: Si una partición virtual toma prestadas CPU de otras particiones virtuales cuando pierde el contacto con su dominio de recursos compartidos, es posible que dichas CPU tomadas en préstamo estén separadas del dominio de recursos compartidos. Si cabe la posibilidad de que la partición virtual esté inactiva durante un periodo prolongado, compruebe que el dominio de recursos compartidos se ha reformado sin esa partición virtual y que tiene suficientes CPU para cumplir sus compromisos. En caso negativo, pruebe a utilizar vparmodify para recuperar parte de las CPU. (Con la partición virtual inactiva, no podrá modificarla localmente y sólo algunas versiones del producto HP-UX Virtual Partitions le permiten modificar fácilmente una partición virtual remota.)

De igual manera, si una nPartición tiene varias CPU activas (debido a Instant Capacity) cuando pierde el contacto con su dominio de recursos compartidos, es posible que tenga que ajustarse manualmente la nPartición para recuperar dichas CPU para las nParticiones que aún estén en el dominio de recursos compartidos. Consulte la documentación de Instant Capacity en relación con problemas de este tipo.

Funcionamiento del reinicio automático

Cuando un nodo administrado se inicia, el agente gWLM (gwlmagent) se inicia automáticamente si GWLM_AGENT_START está definido en 1 en el archivo /etc/rc.config.d/gwlmCtl. A continuación, el agente comprueba el archivo /etc/opt/gwlm/deployed.config para determinar su sistema CMS. Acto seguido, trata de ponerse en contacto con el sistema CMS para que éste vuelva a desplegar su vista del dominio de recursos compartidos. Si no se puede contactar con el sistema CMS, el dominio de recursos compartidos del archivo deployed.config se despliega mientras todos los nodos estén de acuerdo.

En general, cuando la desactivación de un nodo o problemas de comunicaciones de red perturban un dominio de recursos compartidos, gWLM intenta reformar el dominio de recursos compartidos. gWLM mantiene el concepto de un clúster para los nodos de un dominio de recursos compartidos. En un clúster, un nodo es un maestro y los demás nodos son no maestros. Si el nodo maestro pierde el contacto con el resto del dominio de recursos compartidos, el resto del dominio de recursos compartidos puede continuar sin él, en forma de clúster parcial, acordando unánimemente un maestro nuevo. Si un nodo no maestro pierde la comunicación con el resto del dominio de recursos compartidos, el clúster parcial resultante sigue funcionando sin el nodo perdido. El maestro simplemente omite el nodo que falta hasta que vuelva a estar disponible.

NOTA: El tiempo de espera de los intentos de reforma de los dominios de recursos compartidos puede agotarse, sin dejar ningún dominio de recursos compartidos desplegado y, por consiguiente, sin ninguna administración de asignaciones de recursos. Si sucede esto, detenga e inicie los agentes según se describe en la sección «Suceso “Node Failed to Rejoin SRD on Start-up”», presentada más adelante.

Sucesos relacionados

Se pueden configurar los siguientes sucesos SIM en relación con esta característica de reinicio automático:

  • Node Failed to Rejoin SRD on Start-up (El nodo no pudo volver a unirse al dominio de recursos compartidos en el inicio)

  • SRD Reformed with Partial Set of Nodes (Dominio de recursos compartidos reformado con conjunto parcial de nodos)

  • SRD Communication Issue (Problema de comunicación del dominio de recursos compartidos)

Para obtener información sobre la habilitación y consulta de estos sucesos, consulte el menú “Configure Events” de gWLM.

A continuación, podrá consultar estos sucesos utilizando el elemento Event Lists del panel izquierdo del administrador SIM.

Las siguientes secciones explican cómo manejar algunos de los sucesos.

Suceso “Node Failed to Rejoin SRD on Start-up”

Si ve este suceso:

  1. Detenga el agente gwlmagent en cada nodo administrado del dominio de recursos compartidos afectado:

    # /opt/gwlm/bin/gwlmagent --stop

  2. Reinicie el agente en cada uno de dichos nodos administrados:

    # /opt/gwlm/bin/gwlmagent

  3. Compruebe que el agente se vuelve a unir al dominio de recursos compartidos supervisando la vista Shared Resource Domain View en el administrador SIM o utilizando el comando gwlm monitor.

  4. Si el problema continúa, compruebe los archivos /var/opt/gwlm/gwlmagent.log.0 y /var/opt/gwlm/gwlm/gwlmcmsd.log.0 para ver si hay mensajes de diagnóstico adicionales.

Sucesos “SRD Communication Issue” / “SRD Reformed with Partial Set of Nodes”

NOTA: Para reformar con un conjunto parcial de nodos, se precisa un mínimo de tres nodos administrados en el dominio de recursos compartidos.Los sucesos “SRD Communication Issue” no se habilitan por defecto. Para ver estos sucesos, configure los sucesos en el administrador SIM mediante la barra de menús de VSE Management: utilice Tools -> Global Workload Manager -> Events.

Si tiene un dominio de recursos compartidos que contiene n nodos y obtiene

n - 1 de los sucesos “SRD Communication Issue”

pero ningún

suceso “SRD Reformed with Partial Set of Nodes” en un plazo de 5 minutos (suponiendo un intervalo de asignación de 15 segundos) después del primer suceso “SRD Communication Issue”

tal vez tenga que dar los siguientes pasos:

  1. Detenga el agente gwlmagent en cada nodo administrado del dominio de recursos compartidos afectado:

    # /opt/gwlm/bin/gwlmagent --stop

  2. Reinicie el agente en cada uno de dichos nodos administrados:

    # /opt/gwlm/bin/gwlmagent

Borrado manual de un dominio de recursos compartidos

Si gWLM no puede reformar un dominio de recursos compartidos, se puede borrar manualmente dicho dominio, según se describe más adelante.

Borrado de un dominio de recursos compartidos de los agentes A.02.50.00.x (o posterior)

El comando analizado más adelante es un comando avanzado para borrar un dominio de recursos compartidos. El método recomendado para eliminar normalmente un sistema host de la administración consiste en utilizar el comando gwlm undeploy.

A partir de los agentes A.02.50.00.x, un dominio de recursos compartidos se puede borrar manualmente con el siguiente comando:

# gwlm reset --host=host

donde host especifica el sistema host con el dominio de recursos compartidos que ha de borrarse.

Si el comando anterior no funciona, siga el procedimiento dado en la sección siguiente.

Borrado de un dominio de recursos compartidos de los agentes de cualquier versión

El siguiente procedimiento borra un dominio de recursos compartidos independientemente de la versión de los agentes del dominio de recursos compartidos.

  1. Elimine el archivo deployed.config en cada nodo administrado:

    # rm -f /etc/opt/gwlm/deployed.config

  2. Fuerce el pliegue del dominio de recursos compartidos (denominado SRD a continuación) para garantizar que el sistema CMS y los nodos administrados acuerden el estado del dominio de recursos compartidos. Ejecute el siguiente comando en el sistema CMS:

    # /opt/gwlm/bin/gwlm undeploy --srd=SRD --force

  3. Detenga el demonio gwlmagent en cada nodo administrado:

    # /opt/gwlm/bin/gwlmagent --stop

  4. Inicie el demonio gwlmagent en cada nodo administrado:

    # /opt/gwlm/bin/gwlmagent

NOTA: Si el sistema gWLM CMS y el agente no están de acuerdo sobre si un dominio de recursos compartidos se despliega o pliega, se puede utilizar la opción --force con los comandos gwlm deploy o gwlm undeploy.
Versión para imprimir
Declaración de privacidad El uso de este sitio implica la aceptación de sus términos de uso
© 2004-2007 Hewlett-Packard Development Company, L.P.