XenCenter

Alta disponibilidad

La alta disponibilidad de Citrix Hypervisor permite que las máquinas virtuales se reinicien automáticamente en caso de fallo de hardware subyacente o pérdida de cualquier servidor. La alta disponibilidad consiste en asegurarse de que las máquinas virtuales importantes siempre se ejecutan en un grupo de recursos. Con la alta disponibilidad habilitada, si uno de los servidores falla, sus máquinas virtuales se reinician en otros servidores del mismo grupo. Esta capacidad permite restaurar los servicios esenciales con una interrupción mínima del servicio en caso de fallo del sistema o del componente.

Si se produce un error en el servidor maestro de grupo, la alta disponibilidad de Citrix Hypervisor selecciona un nuevo servidor para que se haga cargo como maestro. Cualquier servidor de un grupo puede ser un servidor maestro. Citrix Hypervisor replica constantemente la base de datos del grupo en todos los nodos. También realiza copias de seguridad de la base de datos en el almacenamiento compartido en el latido RA para mayor seguridad.

La alta disponibilidad de Citrix Hypervisor tiene dos aspectos clave:

  • Detección fiable de fallos en el servidor
  • Calcular un plan de fallas para permitir una recuperación rápida

Latidos para disponibilidad

Detectar fallos de servidor de forma fiable es difícil, ya que es necesario distinguir de forma remota entre un servidor que desaparece durante un tiempo frente a un fallo catastrófico. Si la alta disponibilidad decide incorrectamente que un servidor maestro se ha descompuesto y elige un nuevo maestro, puede haber resultados impredecibles si el servidor original regresa. Del mismo modo, si un problema de red hace que el grupo de recursos se divida en dos mitades iguales, debemos asegurarnos de que solo la mitad acceda al almacenamiento compartido y no ambos simultáneamente. Citrix Hypervisor resuelve todos estos problemas mediante dos mecanismos: un latido de almacenamiento y un latido de red.

Cuando habilita la alta disponibilidad en un grupo, designa un repositorio de almacenamiento iSCSI, Fibre Channel o NFS para que sea el RA latido. Citrix Hypervisor crea automáticamente un par de pequeños discos virtuales en este RA. Todos los servidores del grupo de recursos utilizan el primer disco como disco de quórum compartido. Cada servidor se asigna un bloque único en el disco compartido y escribe regularmente en el bloque para indicar que está vivo. Cuando se inicia la alta disponibilidad, todos los servidores intercambian datos a través de los canales de red y de almacenamiento. Esta acción indica qué servidores pueden ver en ambos canales y muestra qué rutas de E/S están funcionando y cuáles no. Esta información se intercambia hasta que se alcanza un punto fijo y todos los servidores del grupo están de acuerdo sobre lo que pueden ver. Cuando se produce este acuerdo, se habilita la alta disponibilidad y el grupo está protegido. Este proceso de armado de alta disponibilidad puede tardar unos minutos en conformarse con piscinas más grandes, pero solo es necesario cuando se habilita la alta disponibilidad por primera vez.

Una vez activa la alta disponibilidad, cada servidor escribe regularmente actualizaciones de almacenamiento en el disco virtual de latido y paquetes de red a través de la interfaz de administración. Asegúrese de que los adaptadores de red estén unidos para ofrecer resiliencia y de que las interfaces de almacenamiento utilicen rutas múltiples dinámicas cuando se admitan. Esta configuración garantiza que cualquier fallo de cableado o adaptador único no provoque problemas de disponibilidad.

Para obtener más información, consulte:

Cercado de servidores

El peor de los casos para la alta disponibilidad es aquel en el que se cree que un servidor está fuera de línea, pero todavía está escribiendo en el almacenamiento compartido. Este escenario puede resultar en la corrupción de los datos persistentes. Citrix Hypervisor utiliza el cercado de servidores para evitar esta situación. El servidor se apaga automáticamente y se aísla del acceso a los recursos compartidos del grupo. El cercado evita que el servidor que falla escriba en discos compartidos y dañe la consistencia de los datos almacenados durante la conmutación por error automática, cuando las máquinas virtuales protegidas se mueven a otros servidores sanos del grupo.

Los servidores se autolimitan (es decir, se apagan y se reinician) en caso de fallo del latido, a menos que se mantenga alguna de las siguientes condiciones:

  • El latido de almacenamiento está presente para todos los servidores, pero la red tiene particiones (por lo que ahora hay dos grupos de servidores). En este caso, todos los servidores que son miembros de la partición de red más grande permanecen en ejecución, y los servidores de la autolimitación de la partición de red más pequeña. La suposición aquí es que la interrupción de la red ha aislado las máquinas virtuales y deben reiniciarse en un servidor con redes en funcionamiento. Si las particiones de red tienen el mismo tamaño, solo una de ellas se autolimita según una función de selección estable.
  • Si el latido del almacenamiento desaparece pero el latido de la red permanece, los servidores comprueban si pueden ver todos los demás servidores a través de la red. Si esta condición es verdadera, los servidores permanecen ejecutándose en el supuesto de que el servidor de latido de almacenamiento ha desaparecido. Esta acción no compromete la seguridad de la máquina virtual, pero cualquier fallo en la red resulta en cercas, ya que eso significaría que ambos latidos del corazón han desaparecido.

Planificación de la capacidad en caso de fallo

El sistema de latidos nos da una notificación confiable de fallas en el servidor, por lo que pasamos al segundo paso de alta disponibilidad: planificación de capacidad para fallas.

Un grupo de recursos consta de varios servidores (por ejemplo, 32), cada uno con cantidades potencialmente diferentes de memoria y un número diferente de máquinas virtuales en ejecución. Para asegurarse de que ningún fallo en un solo servidor haga imposible reiniciar sus máquinas virtuales en otro servidor (por ejemplo, debido a la memoria insuficiente en cualquier otro servidor), la alta disponibilidad de Citrix Hypervisor calcula dinámicamente un plan de fallos que calcula las acciones que se realizarían en cualquier fallo del servidor. Además de lidiar con la falla de un servidor único, la alta disponibilidad de Citrix Hypervisor puede hacer frente a la pérdida de varios servidores en un grupo. Por ejemplo, la alta disponibilidad puede manejar cuando un fallo de una partición de red elimina un grupo completo de servidores.

Además de calcular las acciones que se llevan a cabo, el plan de fallas considera el número de fallas de servidor que se pueden tolerar en el grupo. Hay dos consideraciones importantes que intervienen en el cálculo del plan de alta disponibilidad para un grupo:

  • Capacidad máxima de fallo. Este valor es el número máximo de servidores que pueden fallar antes de que no haya recursos suficientes para ejecutar todas las máquinas virtuales protegidas del grupo. Citrix Hypervisor calcula la capacidad máxima de fallo teniendo en cuenta las prioridades de reinicio de las máquinas virtuales del grupo y la configuración del grupo (el número de servidores y su CPU y capacidad de memoria).
  • Límite de errores del servidor. Puede definir este valor como parte de la configuración de alta disponibilidad que especifica el número de errores de servidor que quiere permitir en el grupo, dentro del plan de alta disponibilidad. Por ejemplo, cuando establece el límite de errores del servidor para un grupo de recursos en 3, Citrix Hypervisor calcula un plan de conmutación por error que permite que los tres servidores fallen y puedan ejecutar todas las máquinas virtuales protegidas del grupo. Puede configurar el límite de errores del servidor en un valor inferior a la capacidad máxima de error, por lo que es menos probable que el grupo se haya comprometido en exceso. Esta configuración puede ser útil en un entorno con RBAC habilitado. Por ejemplo, esta configuración permite a los usuarios RBAC con permisos más bajos que el operador de grupo conectar más máquinas virtuales sin romper el plan de alta disponibilidad. Para obtener más información, consulte la sección Control de acceso basado en funciones y alta disponibilidad (RBAC) .

Se genera una alerta del sistema cuando el valor máximo de capacidad de fallo cae por debajo del valor especificado para el límite de error del servidor.

Protección contra sobreconfirmación

Cuando la alta disponibilidad se habilita por primera vez en un grupo, se calcula un plan de error en función de los recursos disponibles en ese momento. La alta disponibilidad de Citrix Hypervisor calcula dinámicamente un nuevo plan de fallas en respuesta a eventos que afectarían al grupo, por ejemplo, al iniciar una nueva VM. Si no se puede calcular un nuevo plan debido a la insuficiencia de recursos en el grupo (por ejemplo, no hay suficiente memoria libre o cambios en discos virtuales y redes que afectan a qué máquinas virtuales se pueden reiniciar en qué servidores), el grupo se vuelve demasiado comprometido.

La prioridad de reinicio de alta disponibilidad se utiliza para determinar qué máquinas virtuales iniciar cuando un grupo está sobrecomprometido. Al configurar la prioridad de reinicio para las máquinas virtuales que quiere proteger en el cuadro de diálogo Configuración de AD o en el asistente para configurar AD, puede ver la capacidad máxima de error para el grupo que se vuelve a calcular dinámicamente. Esta información le permite probar varias combinaciones de prioridades de reinicio de VM en función de las necesidades de su negocio, y ver si la capacidad máxima de fallo es adecuada para el nivel de protección que necesita para las máquinas virtuales críticas del grupo.

Si intenta iniciar o reanudar una máquina virtual y esa acción provocaría que el grupo se comprometiera en exceso, se mostrará una advertencia en XenCenter. El mensaje también se puede enviar a una dirección de correo electrónico, si está configurado. Se le da la opción de cancelar la operación, o continuar de todos modos, haciendo que el grupo se comprometa en exceso.

Trabajar con un grupo habilitado para AD

La práctica recomendada para la alta disponibilidad es no realizar cambios de configuración en el grupo mientras se habilita la alta disponibilidad. En su lugar, se pretende que sea la “salvaguardia de las 2am” que reinicia los servidores en caso de que se produzca un problema cuando no haya un administrador humano cercano. Si realiza activamente cambios de configuración en el grupo, como la aplicación de actualizaciones de software, inhabilite la alta disponibilidad durante estos cambios.

  • Si intenta apagar una máquina virtual protegida de XenCenter, XenCenter le ofrece la opción de quitar primero la máquina virtual del plan de errores del grupo y, a continuación, apagarla. Esto garantiza que los apagados accidentales de VM no produzcan tiempo de inactividad, pero que aún puede detener una VM protegida si realmente lo quiere.
  • Si necesita reiniciar un servidor cuando se habilita la alta disponibilidad, XenCenter utiliza automáticamente las prioridades de reinicio de VM para determinar si esto invalidaría el plan de error del grupo. Si no afecta al plan, entonces el servidor se apaga normalmente. Si se infringe el plan, pero la capacidad máxima de fallo es mayor que 1, XenCenter le ofrece la opción de reducir en 1 el límite de fallos del servidor del grupo. Esta acción reduce la resistencia general del grupo, pero siempre garantiza que se tolera al menos una falla del servidor. Cuando el servidor vuelve a activarse, el plan se vuelve a calcular automáticamente y el límite de error del servidor original se restablece, si procede.
  • Al realizar la instalaciónactualizaciones de softwaremediante el asistente Instalar actualización, debe inhabilitar la alta disponibilidad en el grupo haciendo clic en la opción Desactivar ADhasta después de que la actualización haya sido instalado. Si no inhabilita la alta disponibilidad, la actualización no continuará. Deberá supervisar el grupo manualmente mientras se instalan las actualizaciones para asegurarse de que los errores del servidor no interrumpan el funcionamiento del grupo.
  • Cuando se habilita la alta disponibilidad, es posible que algunas operaciones que comprometan el plan de reinicio de las máquinas virtuales estén inhabilitadas, como quitar un servidor de un grupo. Para realizar estas operaciones, inhabilite temporalmente la alta disponibilidad o puede apagar las máquinas virtuales protegidas antes de continuar.

Control de acceso basado en funciones y alta disponibilidad (RBAC)

En entornos de Citrix Hypervisor donde se implementa el control de acceso basado en roles (RBAC), no todos los usuarios pueden cambiar la configuración de alta disponibilidad de un grupo. Por ejemplo, los operadores de VM no tienen permisos suficientes para ajustar la capacidad de conmutación por error para un grupo habilitado para AD. Si al iniciar una máquina virtual se reduce el número máximo de errores de servidor permitidos a un valor inferior a la capacidad máxima de error actual, el operador de máquina virtual no puede iniciar la máquina virtual. Solo los usuarios de nivel Administrador de grupo o Operador de grupo pueden configurar el número de errores de servidor permitidos.

En este caso, el Administrador de Grupo u Operador de Grupo que habilita la alta disponibilidad puede establecer el límite de errores del servidor en un número inferior al número máximo de errores permitidos. Esta configuración crea capacidad de inactividad y, por lo tanto, garantiza que los usuarios menos privilegiados puedan iniciar nuevas máquinas virtuales. Reduce la capacidad de conmutación por error del grupo sin poner en peligro el plan de falla.

Alta disponibilidad