Alta disponibilidad

La alta disponibilidad es un conjunto de características automáticas diseñadas para planificar y recuperarse de manera segura de problemas que afectan a los servidores Citrix Hypervisor o los hacen inaccesibles. Por ejemplo, durante fallas de hardware de host o redes interrumpidas físicamente.

Información general

La alta disponibilidad garantiza que cuando un host se vuelve inaccesible o inestable, las máquinas virtuales que se ejecutan en ese host se cierren y se reinicien en otro host. Cerrar y reiniciar las máquinas virtuales en otro host evita que las máquinas virtuales se inicien (manual o automáticamente) en un nuevo host. En algún momento más tarde, se recupera el host original. Este escenario puede provocar que dos instancias de la misma máquina virtual se ejecuten en diferentes hosts, y una alta probabilidad correspondiente de daños en el disco de la máquina virtual y pérdida de datos.

Cuando el maestro de grupo se vuelve inaccesible o inestable, la alta disponibilidad también puede recuperar el control administrativo de un grupo. La alta disponibilidad garantiza que el control administrativo se restaure automáticamente sin intervención manual.

Opcionalmente, la alta disponibilidad también puede automatizar el proceso de reinicio de máquinas virtuales en hosts que se sabe que están en buen estado sin intervención manual. Estas máquinas virtuales se pueden programar para el reinicio en grupos a fin de permitir tiempo para iniciar los servicios. Permite que las VM de infraestructura se inicien antes de las VM dependientes (por ejemplo, un servidor DHCP antes de su servidor SQL dependiente).

Advertencias:

Utilice alta disponibilidad junto con almacenamiento de múltiples paths y redes enlazadas. Configure el almacenamiento multipath y las redes enlazadas antes de intentar configurar la alta disponibilidad. Los clientes que no configuran almacenamiento de múltiples rutas y redes enlazadas pueden ver un comportamiento inesperado de reinicio del host (Self Fencing) cuando existe una inestabilidad de la infraestructura.

Todas las soluciones gráficas (nVidia vGPU, Intel GVT-d, Intel GVT-G, AMD mxGPU y vGPU pass-through) se pueden utilizar en un entorno que hace uso de alta disponibilidad. Sin embargo, las máquinas virtuales que utilizan estas soluciones de gráficos no se pueden proteger con alta disponibilidad. Estas máquinas virtuales se pueden reiniciar según el mejor esfuerzo posible mientras haya hosts con los recursos gratuitos adecuados.

Comprometerse demasiado

Un grupo se compromete en exceso cuando las máquinas virtuales que se están ejecutando actualmente no se pueden reiniciar en otro lugar después de un número de errores de host definido por el usuario.

La sobrecomisión puede ocurrir si no hay suficiente memoria libre en el grupo para ejecutar esas máquinas virtuales después de un error. Sin embargo, también hay cambios más sutiles que pueden hacer que las garantías de alta disponibilidad sean insostenibles: los cambios en dispositivos virtuales de bloque (VBD) y redes pueden afectar a qué máquinas virtuales se pueden reiniciar en qué hosts. Citrix Hypervisor no puede comprobar todas las acciones potenciales y determinar si causan una violación de las demandas de alta disponibilidad. Sin embargo, se envía una notificación asincrónica si la alta disponibilidad se vuelve insostenible.

Citrix Hypervisor mantiene dinámicamente un plan de conmutación por error que detalla qué hacer cuando un conjunto de hosts de un grupo falla en un momento dado. Un concepto importante a entender son las fallas del host para tolerar el valor, que se define como parte de la configuración de alta disponibilidad. El valor de los errores de host a tolerar determina el número de errores permitidos sin pérdida de servicio. Por ejemplo, considere un fondo de recursos que consta de 64 hosts y los errores tolerados se establecen en 3. En este caso, el grupo calcula un plan de conmutación por error que permite que tres hosts fallen y reinicien las máquinas virtuales de otros hosts. Si no se puede encontrar un plan, se considera que el grupo está sobrecomprometido. El plan se recalcula dinámicamente en función de las operaciones y el movimiento del ciclo de vida de la máquina virtual. Si los cambios, por ejemplo, la adición de nuevas máquinas virtuales al grupo, hacen que el grupo se vuelva demasiado comprometido, se envían alertas (ya sea a través de XenCenter o por correo electrónico).

Advertencia sobre compromisos excesivos

Si algún intento de iniciar o reanudar una máquina virtual hace que el grupo se haya comprometido en exceso, se mostrará una alerta de advertencia. Esta advertencia aparece en XenCenter y también está disponible como instancia de mensaje a través de la API de administración. Si ha configurado una dirección de correo electrónico, también se puede enviar un mensaje a la dirección de correo electrónico. A continuación, puede cancelar la operación o continuar de todos modos. Procediendo hace que el grupo se vuelva demasiado comprometido. La cantidad de memoria utilizada por las máquinas virtuales de diferentes prioridades se muestra en los niveles de grupo y host.

Esgrima de acogida

A veces, un servidor puede fallar debido a la pérdida de conectividad de red o cuando se encuentra un problema con la pila de control. En tales casos, el servidor Citrix Hypervisor se autovallas para asegurarse de que las máquinas virtuales no se ejecutan en dos servidores simultáneamente. Cuando se realiza una acción de vallas, el servidor se reinicia de inmediato y abruptamente, lo que provoca que se detengan todas las máquinas virtuales que se ejecutan en él. Los demás servidores detectan que las máquinas virtuales ya no se están ejecutando y las máquinas virtuales se reinician según las prioridades de reinicio que se les han asignado. El servidor cercado entra en una secuencia de reinicio y, cuando se ha reiniciado, intenta volver a unirse al grupo de recursos.

Nota:

Los hosts de los grupos agrupados también pueden autovalerse cuando no pueden comunicarse con más de la mitad de los demás hosts del grupo de recursos. Para obtener más información, consulte Grupos agrupados.

Requisitos de configuración

Para utilizar la función de alta disponibilidad, necesita:

  • Grupo de Citrix Hypervisor (esta característica proporciona alta disponibilidad a nivel de servidor dentro de un único grupo de recursos).

    Nota:

    Se recomienda habilitar la alta disponibilidad sólo en grupos que contengan al menos tres servidores Citrix Hypervisor. Para obtener más información, consulte CTX129721 - Comportamiento de alta disponibilidad cuando se pierde el latido del corazón en un grupo.

  • Almacenamiento compartido, que incluye al menos un LUN iSCSI, NFS o Fibre Channel de 356 MB o superior: el SR latido. El mecanismo de alta disponibilidad crea dos volúmenes en el latido SR:

    Volumen de latidos de 4 MB: Se utiliza para latidos cardíacos.

    Volumen de metadatos de 256 MB: para almacenar metadatos maestros de grupo que se utilizarán si hay una conmutación por error maestra.

    Notas:

    • Para obtener la máxima fiabilidad, se recomienda utilizar un repositorio de almacenamiento NFS o iSCSI dedicado como disco de latido de alta disponibilidad. No utilice este repositorio de almacenamiento para ningún otro propósito.
    • Si el grupo es un grupo agrupado, el SR de latido debe ser un SR de GFS2.
    • El almacenamiento conectado mediante SMB o iSCSI cuando se autentica mediante CHAP no se puede utilizar como el latido SR.
    • Cuando utilice NetApp o EqualLogic SR, aprovisione manualmente un LUN NFS o iSCSI en el arreglo de discos para utilizarlo como SR de latido.
  • Direcciones IP estáticas para todos los hosts.

    Advertencia:

    Si la dirección IP de un servidor cambia mientras está habilitada la alta disponibilidad, la alta disponibilidad asume que la red del host ha fallado. El cambio en la dirección IP puede cercar el host y dejarlo en un estado no arrancable. Para remediar esta situación, deshabilite la alta disponibilidad mediante elhost-emergency-ha-disable comando, restablezca el maestro de grupo mediante ypool-emergency-reset-master , a continuación, vuelva a habilitar la alta disponibilidad.

  • Para obtener la máxima fiabilidad, se recomienda utilizar una interfaz enlazada dedicada como red de administración de alta disponibilidad.

Para que una máquina virtual esté protegida por alta disponibilidad, debe ser ágil. Significa que la VM:

  • Debe tener sus discos virtuales en el almacenamiento compartido. Puede utilizar cualquier tipo de almacenamiento compartido. iSCSI, NFS o LUN Fibre Channel sólo se requiere para el latido del almacenamiento y se puede utilizar para el almacenamiento en disco virtual.

  • Puede usar la migración en vivo

  • No tiene conexión a una unidad de DVD local configurada

  • Tiene sus interfaces de red virtual en redes de toda la piscina

Nota:

Cuando se habilita la alta disponibilidad, se recomienda encarecidamente utilizar una interfaz de administración vinculada en los servidores del grupo y almacenamiento de múltiples rutas para el latido SR.

Si crea VLAN e interfaces enlazadas desde la CLI, es posible que no estén conectadas y activas a pesar de haber sido creadas. En esta situación, una máquina virtual puede parecer que no es ágil y no está protegida por alta disponibilidad. Puede usar elpif-plug comando CLI para hacer que la VLAN y los PIF de enlace, de modo que la VM pueda volverse ágil. También puede determinar con precisión por qué una máquina virtual no es ágil mediante el comandoxe diagnostic-vm-status CLI. Este comando analiza sus restricciones de posición y puede tomar medidas correctivas si es necesario.

Reiniciar los ajustes de configuración

Las máquinas virtuales se pueden considerar protegidas, el mejor esfuerzo o desprotegidas por la alta disponibilidad. El valor deha-restart-priority define si una máquina virtual se trata como protegida, con el mejor esfuerzo o sin protección. El comportamiento de reinicio de las máquinas virtuales en cada una de estas categorías es diferente.

Protegido

La alta disponibilidad garantiza el reinicio de una máquina virtual protegida que se desconecta o cuyo host se desconecta, siempre que el grupo no esté comprometido en exceso y la máquina virtual sea ágil.

Si no se puede reiniciar una máquina virtual protegida cuando falla un servidor, la alta disponibilidad intenta iniciar la máquina virtual cuando hay capacidad adicional en un grupo. Ahora es posible que los intentos de iniciar la VM cuando hay capacidad adicional tengan éxito.

ha-restart-priority Valor:restart

Mejor esfuerzo

Si el host de una máquina virtual con el mejor esfuerzo se desconecta, la alta disponibilidad intenta reiniciar la máquina virtual con el mejor esfuerzo en otro host. Este intento solo se realiza después de que todas las máquinas virtuales protegidas se hayan reiniciado correctamente. La alta disponibilidad solo hace un intento de reiniciar una máquina virtual con el máximo esfuerzo. Si se produce un error en este intento, la alta disponibilidad no realiza más intentos para reiniciar la máquina virtual.

ha-restart-priority Valor:best-effort

Sin protección

Si se detiene una máquina virtual desprotegida o el host en el que se ejecuta, la alta disponibilidad no intenta reiniciar la máquina virtual.

ha-restart-priority Valor: Valor es una cadena vacía

Nota:

La alta disponibilidad nunca se detiene o migra una máquina virtual en ejecución para liberar recursos para que se reinicie una máquina virtual protegida o de mayor esfuerzo.

Si el grupo experimenta errores de servidor y el número de errores tolerables disminuye a cero, no se garantiza que las máquinas virtuales protegidas se reinicien. En tales casos, se genera una alerta del sistema. Si se produce otro error, todas las máquinas virtuales que tienen una prioridad de reinicio establecida se comportan de acuerdo con el comportamiento de mayor esfuerzo.

Iniciar pedido

El orden de inicio es el orden en el que la alta disponibilidad de Citrix Hypervisor intenta reiniciar las máquinas virtuales protegidas cuando se produce un error. Los valores de laorder propiedad para cada una de las máquinas virtuales protegidas determinan el orden de inicio.

Laorder propiedad de una máquina virtual se utiliza por la alta disponibilidad y también por otras características que inician y cierran máquinas virtuales. Cualquier máquina virtual puede tener laorder propiedad establecida, no solo las máquinas virtuales marcadas como protegidas para alta disponibilidad. Sin embargo, la alta disponibilidad utiliza laorder propiedad sólo para máquinas virtuales protegidas.

El valor de laorder propiedad es un entero. El valor predeterminado es 0, que es la prioridad más alta. Las máquinas virtuales protegidas con unorder valor de 0 se reinician primero por alta disponibilidad. Cuanto mayor sea el valor de laorder propiedad, más tarde en la secuencia se reiniciará la VM.

Puede establecer el valor de laorder propiedad de una máquina virtual mediante la interfaz de línea de comandos:

xe vm-param-set uuid=VM_UUID order=int

O bien, en XenCenter, en el panel Opciones de inicio de una máquina virtual, establezca el orden de inicio en el valor requerido.

Habilitar la alta disponibilidad en su grupo de Citrix Hypervisor

Puede habilitar la alta disponibilidad en un grupo mediante XenCenter o la interfaz de línea de comandos. En cualquier caso, se especifica un conjunto de prioridades que determinan a qué máquinas virtuales se les asigna la prioridad de reinicio más alta cuando un grupo está sobrecomprometido.

Advertencias:

  • Cuando habilita la alta disponibilidad, algunas operaciones que ponen en peligro el plan para reiniciar las máquinas virtuales, como quitar un servidor de un grupo, pueden estar deshabilitadas. Puede deshabilitar temporalmente la alta disponibilidad para realizar tales operaciones o, alternativamente, hacer que las máquinas virtuales estén protegidas por alta disponibilidad desprotegidas.

  • Si está habilitada la alta disponibilidad, no puede habilitar la agrupación en clústeres en el grupo. Deshabilite temporalmente la alta disponibilidad para habilitar la agrupación en clústeres. Puede habilitar la alta disponibilidad en su grupo de clústeres. Algunos comportamientos de alta disponibilidad, como el autocercado, son diferentes para los grupos agrupados. Para obtener más información, consulte Grupos agrupados

Habilitar la alta disponibilidad mediante la CLI

  1. Compruebe que tiene un repositorio de almacenamiento (SR) compatible conectado a su grupo. Los SRs iSCSI, NFS o Fibre Channel son compatibles. Para obtener información acerca de cómo configurar dicho repositorio de almacenamiento mediante la CLI, consulteAdministrar repositorios de almacenamiento de información.

  2. Para cada máquina virtual que desee proteger, establezca una prioridad de reinicio y orden de inicio. Puede establecer la prioridad de reinicio de la siguiente manera:

    xe vm-param-set uuid=vm_uuid ha-restart-priority=restart order=1
    
  3. Habilite la alta disponibilidad en el grupo y, opcionalmente, especifique un tiempo de espera:

    xe pool-ha-enable heartbeat-sr-uuids=sr_uuid ha-config:timeout=timeout in seconds
    

    Tiempo de espera es el período durante el cual los hosts del grupo no pueden acceder a la red o al almacenamiento. Si no especifica un tiempo de espera al habilitar la alta disponibilidad, Citrix Hypervisor utiliza el tiempo de espera predeterminado de 30 segundos. Si algún servidor Citrix Hypervisor no puede acceder a la red o al almacenamiento dentro del período de tiempo de espera, puede autovalerse y reiniciarse.

  4. Ejecute el comandopool-ha-compute-max-host-failures-to-tolerate. Este comando devuelve el número máximo de hosts que pueden fallar antes de que no haya recursos suficientes para ejecutar todas las máquinas virtuales protegidas del grupo.

    xe pool-ha-compute-max-host-failures-to-tolerate
    

    El número de errores a tolerar determina cuándo se envía una alerta. El sistema vuelve a calcular un plan de conmutación por error a medida que cambia el estado del grupo. Utiliza este cálculo para identificar la capacidad del pool y cuántas fallas más son posibles sin perder la garantía de capacidad de vida de las máquinas virtuales protegidas. Se genera una alerta del sistema cuando este valor calculado cae por debajo del valor especificado paraha-host-failures-to-tolerate.

  5. Especifique el número de errores a tolerar el parámetro. El valor debe ser menor o igual que el valor calculado:

    xe pool-param-set ha-host-failures-to-tolerate=2 uuid=pool-uuid
    

Elimine la protección de alta disponibilidad de una máquina virtual mediante la CLI

Para deshabilitar las características de alta disponibilidad para una máquina virtual, utilice elxe vm-param-set comando para establecer elha-restart-priority parámetro como una cadena vacía. Al establecer elha-restart-priority parámetro no se borra la configuración del orden de inicio. Puede volver a habilitar la alta disponibilidad para una máquina virtual configurando elha-restart-priority parámetro enrestart obest-effort según corresponda.

Recuperar un host inalcanzable

Si, por algún motivo, un host no puede acceder al archivo de estado de alta disponibilidad, es posible que un host se vuelva inaccesible. Para recuperar la instalación de Citrix Hypervisor, puede que tenga que deshabilitar la alta disponibilidad mediante elhost-emergency-ha-disable comando:

xe host-emergency-ha-disable --force

Si el host era el maestro del grupo, se inicia como normal con alta disponibilidad deshabilitada. Los miembros del grupo se vuelven a conectar y deshabilitan automáticamente la alta disponibilidad. Si el host era un miembro del grupo y no puede ponerse en contacto con el maestro, es posible que tenga que realizar una de las siguientes acciones:

  • Forzar el host para que se reinicie como maestro de grupo (xe pool-emergency-transition-to-master)

     xe pool-emergency-transition-to-master uuid=host_uuid
    
  • Dígale al anfitrión dónde está el nuevo maestro (xe pool-emergency-reset-master):

     xe pool-emergency-reset-master master-address=new_master_hostname
    

Cuando todos los hosts se hayan reiniciado correctamente, vuelva a habilitar la alta disponibilidad:

xe pool-ha-enable heartbeat-sr-uuid=sr_uuid

Apagar un host cuando está habilitada la alta disponibilidad

Tenga especial cuidado al apagar o reiniciar un host para evitar que el mecanismo de alta disponibilidad asuma que el host ha fallado. Para apagar un host de forma limpia cuando se habilita la alta disponibilidad,disable el host,evacuate el host y, finalmente,shutdown el host mediante XenCenter o la CLI. Para apagar un host en un entorno donde la alta disponibilidad está habilitada, ejecute estos comandos:

    xe host-disable host=host_name
    xe host-evacuate uuid=host_uuid
    xe host-shutdown host=host_name

Apagar una máquina virtual protegida por alta disponibilidad

Cuando una máquina virtual está protegida bajo un plan de alta disponibilidad y configurada para que se reinicie automáticamente, no se puede apagar mientras esta protección esté activa. Para apagar una máquina virtual, primero deshabilite su protección de alta disponibilidad y, a continuación, ejecute el comando CLI. XenCenter ofrece un cuadro de diálogo para automatizar la desactivación de la protección cuando se selecciona el botón Apagar de una VM protegida.

Nota:

Si apaga una máquina virtual desde el huésped y la máquina virtual está protegida, se reinicia automáticamente bajo las condiciones de error de alta disponibilidad. El reinicio automático ayuda a garantizar que el error del operador no dé lugar a que una máquina virtual protegida se cierre accidentalmente. Si desea apagar esta máquina virtual, desactive primero su protección de alta disponibilidad.