设计决策:灾难恢复规划

概述

本指南帮助您进行业务连续性 (BC) 和灾难恢复 (DR) 体系结构规划以及 Citrix Virtual Apps and Desktops 的在本部署和云部署的注意事项。DR 本身就范围广泛而言是一个重要的话题。Citrix 承认本文档不是整体灾难恢复策略的全面指南。它没有考虑灾难恢复的所有方面,有时对各种灾难恢复概念采取更通俗的术语视角。

本指南旨在解决对组织的 Citrix 体系结构有重大影响的以下注意事项,并提供与之相关的体系结构指导:

  • 业务要求
  • 灾难恢复与高可用性
  • 灾难恢复层分类
  • 灾难恢复选项
  • 云端灾难恢复
  • 操作注意事项

业务要求

与 Citrix 设计方法的“业务层”保持一致,收集明确的业务需求和服务恢复的已知限制。记录这些项目是为 Citrix 制定任何恢复计划的起点。此步骤有助于澄清范围,并为最适合满足业务和功能要求以及限制因素的灾难恢复策略提供方向。

以下是一些需要讨论的有用问题的示例。 灾难恢复选项 部分将详细讨论这些问题,了解它们如何影响 Citrix DR 设计:

  • 备份策略和恢复时间目标 (RTO)。目前服务器使用什么备份策略?备份频率?保留期?异地存储?测试?Citrix 平台是否必须在发生灾难时立即可用或在特定时间段内联机?(请参阅灾难恢复层分类)。值得将 Citrix 托管的应用程序连接到讨论中的应用程序后端,以调整预期。
  • 恢复点目标 (RPO)。对于 RPO,灾难恢复可以容忍多大程度的数据丢失,具体取决于基础架构组件或数据分类?该服务的恢复数据可以保留多久?0 分钟?一个小时?一个月?在 Citrix 基础架构的上下文中,此考虑因素仅适用于数据库更改和用户数据(配置文件、文件夹重定向等)。与 RTO 一样,讨论中值得考虑 Citrix 托管应用程序的应用程序后端。
  • 追回范围。此考虑因素不仅包括 Citrix 基础架构,还可以包括 Citrix 托管的应用程序客户端与之连接的用户数据或关键应用程序服务器。确定恢复 Citrix 平台的时间与恢复 Citrix 上托管的应用程序的时间之间是否存在差异非常重要。由于只有解决方案的一部分是在线的,所以三角洲可以延长停机。
  • 使用案例。Citrix 平台通常为许多使用案例提供服务,每个用例都有不同的业务关键性级别。恢复是否涵盖所有 Citrix 使用案例?或者是企业运营成功完全依赖的关键用例。答案对基础设施范围界定和容量预测有很大影响。如果 DR 是 Citrix 环境的净新功能,建议对用例进行细分和优先级处理,以便对 DR 的启用进行分割。
  • 能力。灾难恢复中是否有一些不需要包含的关键功能可以降低成本?此功能的一个示例是使用永久桌面与非持久桌面;一些 VDI 用例可由托管共享桌面,甚至特定的应用程序独奏提供服务。客户有时表示在 DR 中不需要组件冗余(ADC、控制器、StoreFront、SQL 等)如果长期停产,这种决定可被视为风险。
  • 现有博士其他 Citrix 环境和其他基础结构服务是否存在现有的 DR 策略或计划?它是恢复到新的可路由子网中还是进入镜像生产网络的“泡沫”?答案有助于提供当前灾难恢复方法、工具或优先级的可见性。
  • 技术能力。此考虑因素不能决定 Citrix 的最终恢复策略,但了解以下内容非常重要:
    • 恢复: 组织内部提供哪些存储复制技术、VM 恢复技术(VMware SRM、Veeam、Zerfor、Azure 站点恢复 (ASR) 等)?Citrix 依赖项以及一些 Citrix 组件可以使用它们。
    • Citrix: 哪些 Citrix 技术用于映像管理和访问?某些组成部分不能很好地适合某些复苏战略。由 MCS 或 PVS 管理的非持久性环境由于它们与存储和网络紧密集成,使 VM 复制技术成为不佳的候选人。
  • 数据严重程度。用户配置文件或用户数据是否被认为是恢复的关键?持久 VDI?如果调用 DR 时此数据不可用,这是否会对生产力造成重大影响?或者是否可以将非持久性配置文件或 VDI 用作临时解决方案?此决定可能会增加成本和解决方案的复杂性。
  • 灾害类型。此决定相当重要,但也可以通过公司 BC 或灾难恢复计划预先确定。此要求通常决定了恢复位置。该策略是否仅适应应用程序级别的服务恢复?在硬件机架之间?在地铁位置内?在两个地理区域之间?两个国家?在云提供商区域内还是整个云提供商的基础架构(多区域)内?
  • 客户端用户。在生产环境中访问服务的用户在哪里?此决定可能会对服务恢复到何处产生影响,包括公司网络连接,这可能需要在灾难恢复事件期间进行手动修改。此外,答案决定了访问层的注意事项。
  • 网络带宽。每个用户会话平均消耗多少流量(ICA,应用程序,文件服务)?此决定既适用于云恢复,也适用于本地恢复。
  • 回退(或故障回退)。一旦灾难恢复情况得到解决,组织是否已经制定了如何恢复生产服务的预先计划?组织如何恢复到正常状态?灾难恢复中可以创建的新数据如何与生产协调和整合?

约束限制了 BC/DR 设计选项或其配置。它们有多种形式,但可能包括:

  • 监管或公司政策。此决策可以决定哪些技术可以或不能用于复制或恢复、如何使用这些技术、RTO 或设施之间的最小距离。
  • 基础设施。是否有关于要使用的硬件类型、可用网络带宽等的指令?这些考虑可能会影响 RPO 考虑因素,甚至可能带来风险。例如,灾难恢复中规模不足的防火墙或网络管道最终可能导致中断,因为网络依赖关系无法处理灾难恢复工作负载。或者,在计算的情况下,虚拟机管理程序主机不足或使用不同的虚拟机管理程序完全可能会影响选项。关于网络,如果恢复站点在为 WAN 提供服务时的网络吞吐量能力相对于生产能力的限制更大。在云环境中,尤其是在扩展到数千个席位时,由于组件服务的限制,例如虚拟防火墙、VPN 网关和云到 WAN 上行链路(AWS Direct Connect、Azure ExpressRoute、Google Cloud Interconnect 等),这种潜在风险可能很快成为重大瓶颈on)。
  • 预算。灾难恢复解决方案的成本可能与项目预算相冲突。通常,RTO 越短,成本就越高。
  • 地理学。如果已确定指定的灾难恢复设施,则必须了解从生产到灾难恢复设施的延迟以及用户连接到灾难恢复等考虑因素。
  • 数据驻留或数据分类。此决定可能会限制区域设置、技术或恢复方法方面的选项。
  • 云恢复。是否要求在云中恢复基础架构而不是在本地设施中恢复?
  • 应用准备状态。Citrix 上托管的具有后端依赖关系的应用程序是否具有 BC/DR 计划,以及 RTO 如何与 Citrix 的目标 RTO 一致?Citrix 可以用于快速恢复,但是如果核心应用程序没有恢复计划或具有扩展 RTO 的恢复计划,则此风险可能会影响 DR.
  • 网络安全。组织是否有可能规定哪些流量段在传输过程中需要加密的安全策略?这个考虑因素是否因所遍历的网络链路而有所不同?答案可能需要在灾难恢复方案中使用 SSL VDA、ICA 代理、GRE 或 IPsec VPN 封装 ICA 流量,如果灾难恢复的网络流量不同于生产流量。

对灾难恢复 (DR) 设计的误解

对于 Citrix DR 设计,最常见的误解之一是认为跨越两个数据中心的单个控制平面构成灾难恢复。它没有。跨越数据中心的单个 Citrix Site 或 PVS 场构成了高可用性设计,但不是灾难恢复设计。有些客户选择此路径作为一种业务决策,评价基于 DR 功能的简化管理。仅在连接良好(低延迟)的数据中心之间 支持 StoreFront 服务器组跨越。同样,已记录了在跨数据中心部署时要考虑的最大延迟,如 CTX220651中所述。

下图是多数据中心 HA Citrix 体系结构的示例,但由于前面提到的理由,该体系结构不是 DR 平台。这种参考体系结构被用于将两个物理上独立的数据中心设施视为一个逻辑数据中心的客户,因为它们彼此之间相近且延迟、高带宽互连。仍然建议使用 Citrix 的灾难恢复计划和环境,因为此体系结构不太可能满足灾难恢复或高可用性的需求。

灾难恢复

除了上述高可用性概念参考之外,基于区域的高可用性体系结构还可供那些希望提供跨地域冗余但又不要求平台完全可恢复的客户使用。传统 IMA 体系结构(XenApp 6.5 及更低版本)的区域概念已针对 FMA 经过重新设计,并在 XenDesktop 7.7 中重新引入,在 7.11 中进行了重大增强,允许各种站点内冗余功能,可以解决多位置部署的挑战。

在使用 区域首选项 (7.11 及更高版本)功能的站点架构中,相同的 Citrix 资源部署在多个区域并聚合到单个交付组中。可以根据应用程序、用户的主区域或用户位置来控制区域首选项(能够回退到给定资源的其他区域)。有关此主题的详细信息,请参阅 区域首选项内部VDA 注册 自动更新功能(在 XenDesktop 7.6 中引入)允许 VDA 维护站点内所有控制器的最新本地缓存列表。此功能允许卫星区域内的 VDA 在本地区域不可用时将其本地交付控制器或 Cloud Connector 的注册故障切换到主区域。StoreFront Server 组位于每个区域位置中,建议用户在主区域不可用的情况下继续从本地访问层访问资源。

灾难恢复

与这些受支持的高可用性选项相比,下图显示了跨地理位置遥远的数据中心或云区域的不受支持或不明智的组件架构。由于组件之间的距离和延迟,这些图既不能提供有效的 HA 也不能提供灾难恢复。由于此类部署中的延迟问题,也可能会导致平台稳定性问题。此外,站点之间管理边界的拉伸与 DR 主体不一致。过去,我们见过客户类似的概念设计。

灾难恢复

另一个常见的误解是 Citrix DR 解决方案可以考虑的深度。Citrix Virtual Apps and Desktops 的核心主要是一个 演示和交付平台。Citrix 控制平面取决于其他组件(网络、SQL、Active Directory、DNS、RDS CAL、DHCP 等),这些组件自己的可用性和恢复设计满足 Citrix 平台的灾难恢复要求。Citrix 所依赖的技术的任何共享 管理 域都会影响 Citrix DR 解决方案的有效性。

与 Citrix 托管的应用程序和桌面接口的文件服务(用户数据和共享上的业务数据等)和应用程序后端的恢复注意事项类似重要,有时客户没有充分考虑。引用早期应用程序准备情况时,Citrix DR 平台可设计为在短时间内恢复。但是,如果这些核心使用案例依赖关系不具有与 Citrix 相似的 RTO 的恢复计划或根本没有恢复计划,则此计划可能会影响 Citrix 如预期的那样在灾难恢复中成功故障切断,但用户无法执行其工作功能,因为这些依赖关系仍然不可用。例如,在 Citrix 上托管其核心 EMR 应用程序的医院。发生灾难恢复事件,Citrix 会故障切换到灾难恢复中的“始终在线”Citrix 平台,用户正在连接,但 EMR 应用程序通过更多手动方式恢复,可能需要数小时或数天才能完成。在此期间,临床工作人员可能会被迫使用离线流程(笔和纸)。这样的结果不能与企业对恢复时间或用户体验的总体预期相一致。

下一节将讨论 DR 与更详细地说 HA。

灾难恢复 (DR) 与高可用性 (HA)

了解 HA 与灾难恢复对于满足组织需求和实现恢复目标至关重要。HA 不是 DR 的代名词,但 DR 可以使用 HA。本指南对高可用性和灾难恢复的解释如下:

  • 医管局被视为为服务提供容错能力。服务可能会故障转移到另一个系统,对用户造成的干扰最小。该解决方案可以像集群或负载平衡应用程序一样简单,到更复杂的活动或备用“热”或“始终打开”基础架构,该基础架构可以反映生产配置并始终可用。在这些配置中,故障转移往往是自动化的,也可以称为“地理冗余”部署。
  • 灾难恢复主要关注将服务恢复到备用数据中心(或云平台)的服务(由于严重的应用程序级故障或数据中心的灾难性物理故障)。灾难恢复往往涉及自动或手动恢复过程。记录步骤和过程以协调恢复。它不关心服务的冗余或容错性,通常是一种范围更广的策略,可以承受多种类型的故障。

尽管 HA 倾向于嵌入到设计规范和解决方案部署中,但灾难恢复主要关注调用服务恢复的人员和基础架构资源的编排规划。

医管局能否包括 DR?是。对于企业任务关键型 IT 服务,这种概念很常见。例如,以上 HA 描述中的第二个示例以及与解决方案相关的其他非 Citrix 组件的适当恢复将被视为高度可用的 DR 解决方案,其中服务 (Citrix) 故障转移到对方数据中心。该特定体系结构可以在各种多站点迭代中实现为主动-被动或主动-主动,例如适用于所有用户的主动-被动、用户偏好一个数据中心而不是另一个数据中心的主动-主动,或者在不偏好的情况下在两个数据中心之间进行负载平衡的主动-主动。必须注意的是,在设计此类解决方案时,必须持续考虑、考虑备用容量并持续监控负载,以确保在需要时仍有容量来容纳灾难恢复。

还必须使灾难恢复组件与生产保持最新,以保持解决方案的完整性。客户常常忽略此活动,他们以良好的意愿设计和部署此类解决方案,然后开始在生产中消耗更多平台资源,忘记增加可用容量以保持解决方案的灾难恢复完整性。

在 Citrix 环境中,跨越两个数据中心之间的 Citrix 管理域(Citrix 站点、PVS 场等),例如根据 已发布的指南 在两个地理位置定位的设施之间跨越 Citrix 管理域(Citrix 站点、PVS 服务器场等)将不构成灾难恢复,对于某些组件(如 StoreFront 服务器组)而言。同样,由于 PVS 根据 已发布指南的数据库延迟限制,这样的部署也可能不受支持。地理位置之间的可支持性限制有时也会延伸到 Citrix 站点和区域设计,这是因为根据 已发布的指南,卫星控制器和数据库之间的延迟最大。

由于许多 Citrix 组件共享依赖关系(如数据库),因此在两个数据中心之间延伸管理边界无法防范多种关键故障情况。如果数据库损坏,故障域将影响两个设施的应用程序服务。要认为 HA Citrix 解决方案足够用于 DR,我们建议第二个设施不共享密钥依赖关系或管理边界。例如,为解决方案中的每个数据中心创建单独的站点、场和服务器组。通过使恢复平台尽可能独立,我们可以减少组件级故障对生产和灾难恢复环境的影响。此考虑因素还超出 Citrix 范围,建议在生产环境和灾难恢复环境之间使用不同的服务帐户、文件服务、DNS、NTP、虚拟机管理程序管理、身份验证服务(AD、RADIUS 等)以减少单点故障。

灾难恢复层分类

DR 的层分类是组织 DR 策略的一个重要方面,因为它可以清楚地说明应用程序或服务关键程度,而这又决定了 RTO(从而导致完成该恢复级别的成本)。通常,RTO 越短,灾难恢复解决方案的成本就越高。能够将各种相互依赖关系分解为不同的分类(基于业务关键性和 RTO)有助于优化成本敏感的 DR 案例。

以下是一组示例 DR 层分类,在评估 Citrix 上托管的 Citrix 基础架构服务、其依赖项以及关键应用程序或用例(以及与 VDA 相关联)时作为参考。DR 层按顺序或恢复优先级进行概述,其中 0 是最关键的。鼓励组织应用或开发与自己的恢复目标和分类需求保持一致的灾难恢复分层分类。

灾难恢复层 0

第 0 层-恢复目标(示例)

恢复时间目标:0

恢复点目标:0

第 0 级-分类示例

核心 IT 基础架构

  • 网络和安全基础设施
  • 网络链接
  • 虚拟机管理程序和依赖项(计算、存储)

核心 IT 服务

  • Active Directory
  • DNS
  • DHCP
  • 文件服务
  • RDS 许可
  • 关键最终用户服务 (Citrix)

第 0 级-备注

这种分类主要针对核心基础设施组件。这些组件始终在灾难恢复位置可用,因为它们是其他层的依赖关系,而不是在隔离的网段中。它们需要与其生产等效物一起进行配置和维护。如果 Citrix 托管关键应用程序,则可能将其视为第 0 层平台。在这种情况下,Citrix 基础架构在 DR.

灾难恢复级别 1

第 1 层-恢复目标(示例)

恢复时间目标:4 小时

恢复点目标:15 分钟

第 1 级-分类示例

关键应用程序

  • 网站和网络应用程序
  • ERP 和 CRM 应用程序
  • 业务线应用程序

Citrix 使用案例

  • 管理
  • 客户服务或销售
  • IT 工程与支持

第 1 级-备注

企业开展核心业务活动所依赖的应用程序或虚拟桌面通常包含在此层中。他们可能还会使用类似于第 0 层的“热备用”灾难恢复体系结构,或者受益于自动化复制和故障转移解决方案。如果将资源调配到云中,则需要考虑 稍后讨论的注意事项,因为它们可能会影响 RTO 目标。

灾难恢复级别 2

第 2 层-恢复目标(示例)

恢复时间目标:48 小时

恢复点目标:1 小时

第 2 级-分类示例

非关键应用程序 非关键 Citrix 用例不会影响第 1 层或第 0 层应用程序功能的 用户数据。

第 2 级-备注

对业务运营至关重要的应用程序或使用情形,但其短期内不可用性不太可能对财务、声誉或运营造成严重影响。这些应用程序要么从备份中恢复,要么通过自动恢复工具作为最低优先级恢复。

灾难恢复级别 3

第 3 层-恢复目标(示例)

恢复时间目标:5 天

恢复点目标:8 小时

第 3 级-分类示例

不常使用的应用程序

第 3 级-备注

中断影响可以忽略不计的应用程序在一周之内无法使用。 这些应用程序可能会从备份中恢复。

灾难恢复级别 4

第 4 层-恢复目标(示例)

恢复时间目标:30 天

恢复点目标:24 小时或无

第 4 级-分类示例

非生产环境

第 4 级-备注

应用程序、基础架构和 VDI 中断对业务运营的影响可以忽略不计,可以在较长的时间内恢复。 他们也可以有延长的 RPO,或者根本没有这取决于他们的性质。这些 RPO 可以从备份中恢复,也可以在灾难恢复中构建全新的 RPO,被视为要恢复的最后一层。

为什么层分类对 Citrix 灾难恢复计划很重要?

层分类对于 Citrix 非常重要,原因如下:

  • Citrix 基础结构对于业务运营的重要性有多大?重要的是要考虑,如果 Citrix 被视为重要,但其托管的应用程序被视为关键,则 Citrix 基础架构将被归类为关键。
  • Citrix 托管的使用案例或核心业务应用程序;它们是否具有不同的 DR 层分类?

对于第一个问题,由于交付了关键应用程序或桌面,许多企业 Citrix 部署往往被归类为第 0 层;网络、Active Directory、DNS 和虚拟机管理程序基础架构等“始终在线”层。但是,对于每个 Citrix 使用案例,这种情况可能并非总是如此。如果某些用例可能属于第 1 层或更高层,则将每个 Citrix 用例视为第 0 层可能会影响灾难恢复过程的总体成本和复杂性。

第二个问题强调按 Citrix 用例进行分类,并强调了它在云环境中的重要性, 稍后将对此进行更详细的讨论。在云中,适应“始终在线”的应用程序或桌面平台与被认为不太关键业务的应用程序或桌面之间,存在着重大的成本考虑因素。这些考虑因素还会影响生产中的应用程序或使用案例隔离(孤岛),以利用灾难恢复平台中的部署灵活性。

为 Citrix 建立灾难恢复设计时,将讨论超出 Citrix 本身的范围对于设置业务部门的期望非常有用。例如,Citrix 环境被视为“永不停机”的服务,并且在备用数据中心具有高可用性,但是 Citrix 托管应用程序所依赖的关键应用程序后端在调用恢复时将持续数小时不可用。这种差距造成了两个平台之间的恢复时间差异,并可能在恢复过程中提供误导性的用户体验。Citrix 立即可用,但关键应用程序无法正常运行。从一开始就设定预期可以让所有利益相关者适当了解恢复体验的样子。在某些情况下,客户可能希望将 Citrix 保持在对立设施中的热备用状态(始终打开),但手动控制访问层的故障转移,以避免对平台可用性产生误解。

灾难恢复选项

本节概述了常见的 Citrix 恢复策略,包括其优缺点和关键注意事项。Citrix 还可以使用其他恢复功能或以下主题的变体,本节重点介绍一些最常见的功能。此外,本节还说明了早期对 核心问题的回应如何影响 DR 设计。

将之前的几个灾难恢复问题关联起来,以下问题主题具有 Citrix DR 设计含义,如下所示:

  • 备份策略和恢复时间目标 (RTO)。如果 Citrix 提供服务的 Citrix 基础架构或应用程序被视为关键任务,则 Citrix 可能必须采用“始终打开”模式,其中热备用或主动-主动 Citrix 基础架构存在于两个或多个数据中心。此体系结构将导致在每个数据中心创建多个独立的 Citrix 控制平面(单独的 Citrix 站点、PVS 场(如果适用)、StoreFront 服务器组等)。跨越 Citrix 基础架构的控制平面并不构成灾难恢复(例如跨越数据中心的站点或使用卫星区域);如果企业预计 Citrix 有一个灾难恢复平台,则这样做会违反该要求。
  • 追回范围。如果 Citrix 部署在灾难恢复中的热备用(始终打开)容量中,但核心业务应用程序后端需要 8 小时才能恢复,则采用自动访问层故障切换是没有意义的。访问层的手动故障切换可能更为合适。
  • 使用案例。如果只有关键工作负载或核心应用程序必须在 Citrix 中快速恢复才能在灾难恢复方案中维护业务运营,则从容量角度来看,此方案可能会降低灾难恢如果多个不同优先级的使用情形需要恢复,那么将每个使用情形的重要性分类与 前面讨论 的恢复分层策略的业务影响进行对比不会降低容量成本,但会为IT人员提供一套更有针对性的恢复优先顺序。
  • 能力。如果某些组件(如 HDX Insight、Session Recording)不被认为对灾难恢复平台运行至关重要,那么在灾难恢复环境中忽略这些组件会消除一些复杂性和维护开销。同样,如果灾难恢复方案中的许多使用案例可以依靠灾难恢复中更简单、更通用的 Citrix 交付选项,这也可以降低复杂性和成本。例如,在技术上可行的情况下,使用托管共享桌面而不是池 VDI,或者将多个用例聚合到一个用例中,前提是这些用例不会损害业务操作。 灾难恢复
  • 现有博士例如,如果组织的现有灾难恢复策略使用数据复制和编排工具恢复 Citrix 和其他应用程序基础架构,则大多数 Citrix 组件可能适用于此模型。如果平台的规模和对单映像管理技术的依赖是生产平台的要求,那么这种技术通常不适合;热备用 Citrix 平台的混合方法以及主映像的复制可能更为合适。
  • 数据严重程度。如果配置文件被认为对灾难恢复至关重要,则可能需要适当的复制技术。许多组织不太关心 DR 方案中的配置文件,并接受创建新的配置文件。此考虑也适用于 Citrix 中访问的用户数据(文件夹重定向、映射驱动器);此数据的 RPO 和 RTO 可能是业务决策。此外,如果认为许多持久性 VDI 足够重要,足以在灾难恢复中保留完好无损(而不是要求用户重新安装软件等),则必须考虑这些虚拟机进行复制,这可能会产生支持恢复的额外成本。
  • 灾害类型。客户希望在多大程度上防范故障可能会决定各种体系结构更改。如果客户只想在数据中心或云区域内使用 Citrix 基础架构的高可用性,则此类灾难只需要确保管理组件冗余且在对立的基础架构上运行。例如,一种 StoreFront 服务器对使用 VMware 反关联性规则在集群中的不同主机上运行,或者完全在数据中心内的不同群集上运行,或者可能作为不同可用性集的一部分运行。这种情况很少需要完全创建冗余控制平面(例如多个 Citrix 站点和 StoreFront 服务器组)。但是,如果灾难恢复旨在涵盖多个数据中心,无论区域如何,则在每个数据中心使用本地依赖关系(AD、DNS、SQL、虚拟机管理程序等)的冗余控制平面更为合适。如果客户是全球性的,并且使用多个数据中心为 Citrix(或计划)提供服务,并将相应的应用程序后端到这些数据中心,则更有可能使用地理本地化的主动 HA-DR 体系结构更为合适。此体系结构通过使用地理本地化的 Citrix 基础架构(如果需要,可以按次要首选项顺序故障切换到备份数据中心),尽可能为用户提供最佳的用户体验。
  • 客户端用户。除了上述关于用户、应用程序和数据本地化的考虑因素之外,某些客户端用户网络可能会被安全设备(代理、防火墙等)相对锁定,这可能会限制与 Internet 甚至 WAN 的出站通信。务必考虑此状态是否适用于客户端网络,并确保 Citrix 服务的新 IP(例如 StoreFront VIP 和 VDA IP,或 Citrix Gateway IP)考虑在其本地安全配置中,以确保不会因本地 LAN 安全而导致进一步的恢复延迟调用 DR. 时的限制从准备的角度来看,在灾难恢复的情况下,客户端访问是否会以某种方式改变?在某些灾难恢复情况下,客户可能会假定 WAN 不可用,并且所有用户都必须通过 Internet 访问 Citrix 资源。这些步骤需要在 BC 和就绪计划中记录,并为最终用户建立先决条件(关于受支持的 Citrix 客户端详细信息、公司或 BYOD 设备访问的假设),以消除用户返回服务的障碍,进一步减轻支持台的负担。
  • 网络带宽。灾难恢复设施网络规模和防火墙必须考虑到与 VDA 流量(ICA、应用程序、文件服务)相关的网络带宽量。在 VPN 网关和虚拟防火墙容量存在限制的云环境中,这一考虑因素尤为重要。监视来自 VDA 的生产流量以确定大小的平均值对于有效调整网络大小非常重要。在存在网络限制的地方,组织必须使用不同的网络配置来适应预期的灾难恢复流量负载(如果以及在Citrix SD-WAN 的 WAN 优化技术可以帮助减少流量需求。
  • 回退(或故障回退)。如果灾难恢复中发生更改的用户数据,或者 VDA 映像在灾难恢复期间,组织必须规划故障恢复以将这些更改传播回生产环境,那么生产环境是否可恢复。对于用户数据,它可以像反转复制顺序和恢复一样简单;同样,对于 Citrix 基础架构(如果不使用单一映像管理技术)。如果使用 MCS 或 PVS,则可以手动将主映像或虚拟磁盘复制回生产环境,并相应地更新 VDA。

以下列表概述了 Citrix 的各种常见恢复选项。现场存在每种调整,但是为了比较起见,我们概述了每种基本版本。这些选项从最简单(通常更高的 RTO 和更低的成本)开始,通过更高级的 RTO(通常较低的 RTO 但成本更高)。对于给定组织来说,理想的选择是,除了可用的 IT 技能、预算和基础架构之外,还与托管应用程序或使用案例的恢复时间保持一致。此外,尽管可以实现,但许多选项表明,与网络和存储集成的 Citrix 技术(如 ADC 和单映像管理技术)不适合“始终开启”恢复模式以外的其他方法。这并不是说从技术上讲是不可能实现的,但实现这些目标所涉及的复杂程度会使恢复风险更大,而且更容易出现人为错误。

恢复选项-从脱机备份中恢复

灾难恢复

优点和缺点

优点:

  • 与复制或热备用解决方案相比,维护成本更低

缺点:

  • 停机时间影响大
  • 更大、更详细的恢复计划 (DR 编排) 文档
  • 恢复时间延长
  • 依赖于备份的完整性和期限
  • 如果需要手动重新配置(网络等),人为错误的程度更高
  • 不适合池化、快速克隆 MCS 或 PVS
  • 由于网络问题,不适合 Citrix VPX ADC(可能需要使用 nsconfig 目录和 ns.conf 文件的备份进行重建)

使用案例和假设

对于不太成熟的 IT 组织和 IT 运营预算有限的组织非常有用,可以允许延长停机时间以恢复核心业务服务。假定定期对备份进行恢复完整性测试,并遵循明确记录的恢复流程。

恢复选项-通过复制恢复

灾难恢复

优点和缺点

优点:

  • 复制可能是自动化的,并与 RTO 和 RPO 对齐
  • 与自动恢复解决方案相比,可能使用不太复杂的技术

缺点:

  • 依靠行政干预
  • 更大、更详细的恢复计划 (DR 编排) 文档
  • 如果需要手动重新配置(网络等),人为错误的程度更高
  • 不适用于池、快速克隆 MCS 或 PVS。计算机目录的复制已纳入预计的 RTO 中。但是,通过在 DR 中创建虚拟计算机目录或在 DR 中扩展 VDA 实例,然后执行应用复制的主映像的“更新目录”操作,可以缩短此 RTO
  • 由于网络连接,不适合 Citrix VPX ADC,因此更适合使用热备用 ADC

使用案例和假设

适用于不太成熟的 IT 组织和 IT 运营预算有限的组织。此解决方案依赖 SAN 供应商或虚拟机管理程序供应商(vSphere Replication 等)提供的存储复制技术通过 WAN 将虚拟机复制到另一个设施。

恢复选项-使用自动恢复进行复制

灾难恢复

优点和缺点

优点:

  • 与热备用解决方案相比,维护成本更低
  • 复制可能是自动化的,并与 RTO 和 RPO 对齐
  • 恢复计划往往是自动化的
  • 减少管理干预和人为错误

缺点:

  • 依靠 VMware SRM、Veeam、Zerin、ASR 等更先进的技术来协调恢复和修改网络参数
  • 不适用于池、快速克隆 MCS 或 PVS。计算机目录的复制必须纳入预计的 RTO。但是,通过在 DR 中创建虚拟计算机目录或在 DR 中扩展 VDA 实例,然后执行应用复制的主映像的“更新目录”操作,可以缩短此 RTO
  • 由于网络连接,不适合 Citrix VPX ADC,因此更适合使用热备用 ADC

使用案例和假设

对于具有适当资源和 DR 设施预算的企业组织非常有用。 此解决方案依赖于与之前选项相同的存储复制,但包括灾难恢复编排技术,以便按特定顺序恢复 VM、调整 NIC 配置(如果需要)等

恢复选项-带手动故障转移的热待机(主动-被动)

灾难恢复

优点和缺点

优点:

  • 由于平台“始终开启”,恢复时间短
  • 支持存储和网络相关组件,如 VPX、MCS、PVS
  • 较低的恢复计划(灾难恢复编排)文档

缺点:

  • 依靠管理干预来故障切换 URL 或引导用户访问备份 URL
  • 由于灾难恢复中的“热”硬件处于待机状态,成本较高
  • 更高的管理开销,保持备用平台的配置和更新与生产同步

使用案例和假设

对于具有适当资源和 DR 设施预算的企业组织非常有用。可以使用热备用“完全扩展”平台或“按需扩展”平台。后者可能对云恢复具有吸引力,以降低运营成本,但 有一些警告

在故障转移时,管理员将一个或多个访问 URL 的 **DNS** 条目更新为指向 Citrix Gateway 和 StoreFront 的一个或多个 DR IP,或者通过正式通信建议用户开始使用“备份”或“DR”URL。

此手动选项对于应用程序后端可能需要更长的恢复时间但如果 Citrix 完全可用且应用程序未完全可用,则会给用户造成混乱的情况非常有用。

此模型假定 IT 组织成熟,并且有足够的 WAN 和计算基础架构可用来支持故障转移。

恢复选项-具有自动故障转移功能的热待机(主动-被动)

灾难恢复

优点和缺点

优点:

  • 由于平台“始终开启”,恢复时间短
  • 支持存储和网络相关组件,如 VPX、MCS、PVS
  • 最小恢复计划(DR 编排)文档
  • 由于 URL 故障转移,最终用户更容易
  • 支持 Citrix Gateway 的 EPA 扫描

缺点:

  • 由于 DR 中的“热”硬件处于待机状态并且 Citrix ADC 许可,成本较高
  • 更高的访问层复杂性
  • 更高的管理开销,保持备用平台的配置和更新与生产同步

使用案例和假设

与企业客户通用配置,允许通过 Citrix ADC GSLB(需要 ADC 高级或更高级)自动故障转移到 DR 站点。 此模型假定 IT 组织成熟,WAN 足够,并计算基础架构来支持故障转移。此模型还假定应用程序和用户数据依赖关系与最新的 Active 站点版本/更新保持一致,并且可以类似的自动化方式在灾难恢复设施中恢复,以减少对最终用户的长期服务和由于部分解决方案功能造成的混乱。

恢复选项-主动-主动与自动故障转移

灾难恢复

优点和缺点

优点:

  • 由于平台“始终开启”,恢复时间短
  • 支持存储和网络相关组件,如 VPX、MCS、PVS
  • 最小恢复计划(DR 编排)文档
  • 对最终用户无缝衔接

缺点:

  • 由于 DR 中的“热”硬件处于待机状态并且 Citrix ADC 许可,成本较高
  • 最高的访问层复杂性
  • 更高的管理开销,保持备用平台的配置和更新与生产同步
  • 主动/主动 GSLB 目前不支持 Citrix Gateway 上的 EPA 扫描,建议为 Citrix Gateway URL 配置主动/被动 GSLB
  • 依靠管理员监控和调整所有数据中心的资源和硬件容量,以确保随着平台的增长,灾难恢复容量的完整性不受影响

使用案例和假设

更高级但常见的企业客户配置,允许访问层 URL 通过 Citrix ADC GSLB(需要 ADC 高级或更高级)以主动-主动方式运行。此功能在本地数据中心彼此靠近的环境中,或者在数据中心可以远程但可以将用户固定到首选数据中心(通常由高级 StoreFront 配置和 GSLB 驱动)的情况下非常有用,以满足多站点场景的需求。

此模型假定 IT 组织成熟,WAN 足够,并计算基础架构来支持故障转移。此模型还假设应用程序和用户数据依赖关系与最新的站点版本/更新保持一致,并且可以以类似的自动化方式在灾难恢复设施中恢复,以减少对最终用户的长期服务造成的影响以及由于部分解决方案功能而造

公共云中的灾难恢复

涉及预备到云平台或云到云的灾难恢复自身带来了一系列挑战或注意事项,这些挑战或注意事项通常不会出现在本地恢复方案中。

灾难恢复设计规划过程中可以解决以下关键注意事项,以避免出现错误,这些错误会导致应用云基础架构的灾难恢复计划无效、成本过高,或者在 DR 发生时无法满足目标容量

考虑因素 — 网络吞吐量

影响领域

可用性 性能 成本

详细信息

如果 Citrix 平台要在云中恢复,并可通过广域网访问,客户会低估其云解决方案中的吞吐量结合点,并且因此降低其大小,包括虚拟防火墙、VPN 网关和 WAN 上行链接(AWS Direct Connect、Azure Express Route、GCP Cloud Interconnect 等)。 Azure VPN 网关和 AWS 传输网关目前的最大限制为 1.25 Gbps。如果这些对云架构至关重要,则此限制可能需要向外扩展网关,也可能需要使用多个 VPC(如果有 AWS)。 许多虚拟防火墙对它们可以处理的吞吐量或最大吞吐量有许可限制,即使在最高限制下也是如此此约束可能需要扩大防火墙的数量并以某种方式对其进行负载平衡。

建议

在建立吞吐量大小计算时,假设已满的灾难恢复容量负载。捕获每个并发用户的以下数据:

  • 估计 ICA 会话带宽
  • 如果应用程序跨越安全边界,则每个会话的估计通信带宽
  • 如果文件服务超越安全边界,则每个会话的估计带宽

对于上述指标,收集生产中与 VDA 之间的当前流量模式相关的数据非常有用。同样重要的是要考虑与 Citrix 无关的其他数据流也会使用这些网络路径。 请务必让网络和安全团队参与规划 Citrix DR,以确保了解并适应遍历安全区域和网段的任何带宽估计值。当带宽非常高时,Citrix SD-WAN 优化可以帮助减少有线会话占用空间或跨多个网络连接聚合带宽。

考虑因素 — Windows 桌面操作系统授权

影响领域

成本

详细信息

对于在不同云平台上运行的 Microsoft 桌面操作系统实例,可能存在复杂的许可注意事项。Microsoft 于 2019 年 8 月 修订了其云许可权 ,这可能会影响 VDI 在某些部署方案中的成本影响。

建议

确定使用案例体系结构时,请参阅最新的 Microsoft 指南。如果灾难恢复解决方案中的 VDI 存在潜在的成本挑战,请考虑在可行的情况下补充托管共享桌面(可能需要增强 RDS CAL),因为它们可以以较低的运营成本提供更大的灵活性。

考虑 — VDA 向外扩展的时间(DR 之前或期间)

影响领域

成本 可用性

详细信息

客户可以通过仅在需要时支付容量的吸引力来吸引云。此解决方案可以通过不为预留的基础架构付费而大幅降低灾难恢复成本,无论是否使用

但是,在大规模上,云提供商无法承诺同时打开数百或数千个 VM 的 SLA。如果灾难恢复的 VDA 占用空间预计将落入数百或数千个实例,则此解决方案将变得特别具有挑战性。云提供商倾向于维持各种实例大小的现有批量容量;但是,该提供商可能会随时不同而有所不同。如果发生影响地理区域的灾难,也可能会有其他租户争用,也要求按需容量。

需要回答的可能影响决策的关键问题:

  • 是否始终需要 100% 的 DR 容量?
  • 我们是否只需要托管关键工作负载(即只托管生产的子集)?
  • 灾难恢复时向外扩展是可行的吗?如果是这样,DR 级别是否对使用案例进行了优先级,以便更好地了解每个使用案例的不同 RTO 以支持分阶段缩减容量?
  • 我们能否扩大支持应用程序或托管共享桌面用例的操作系统实例,以节省预置时间并关闭这些实例的电源以节省运营成本?

建议

Citrix 建议首先与您的云提供商联系,以确定在 RTO 时间范围内开启预期容量的可行性,以及按需实例能否满足此要求。 为了避免灾难恢复方案中 VDA 的容量可用性限制,Citrix 建议在尽可能多的可用区域内 Provisioning VDA。在大规模上,可能值得跨不同云区域进行配置,并相应地调整架构。一些云提供商建议使用不同大小的 VM 实例类型,以进一步减少 VM 耗尽。 在可能的情况下,谨慎的做法是预先配置 VDA 实例,使其保持离线状态并定期更新。Provisioning 是一个资源和时间密集型过程,可以通过预置置备加快按需扩展 VDA DR 容量的速度。 如果组织对容量可用性风险的兴趣不大,则可能需要应用预留或专用计算容量并相应地进行预算编制以保证资源可用性。 通过引用 DR 恢复层,可以将按需模型和预留的\ 专用模型结合在一起,其中某些使用案例可能要求 VDA 立即可用,而其他用例可以灵活地在数天或几周的时间内恢复更长的 RTO,如果它们对维持商业。

考虑 — 应用程序和用户数据

影响领域

成本 可用性 表现

详细信息

用户数据和应用程序后端的位置可能会对 Citrix DR 环境的性能以及有时甚至可用性产生明显影响。某些客户场景使用多数据中心灾难恢复方法,在这种方法中,并非所有应用程序后端或用户数据(如家庭和部门驱动器)无法与 Citrix 一起恢复这种差距可能会导致意外的延迟,从而影响应用程序的性能甚至功能。从吞吐量的角度来看,这种差距可能会进一步增加可用的网络和安全设备带宽

建议

在可能的情况下,将应用程序和用户数据保持在 DR 中的 Citrix 平台本地,以便通过减少 WAN 中的延迟和带宽需求,尽可能保持最佳性能。

Citrix Cloud 的灾难恢复规划

在灾难恢复规划方面,Citrix Virtual Apps and Desktops (CVAD) 的本地部署或“传统”部署与Citrix Cloud 提供的 Citrix DaaS 之间存在多项显著区别:

  • Citrix 为合作伙伴/客户管理大多数控制组件,从而免除了 Citrix 站点及其组件的重大灾难恢复要求。
  • 为 Citrix 资源部署灾难恢复环境只需要客户在恢复“资源位置”中部署 Citrix Cloud Connector,还需要为 Citrix Gateway 部署 StoreFront 和 Citrix ADC。
  • Citrix Cloud 独特的服务架构在地理位置上是冗余的,在设计上具有弹性。
  • 如果使用 Citrix Workspace 和 Citrix Gateway 服务,则不需要访问层 DR。

除了这些核心区别之外,以前各节的许多灾难恢复注意事项仍然需要合作伙伴/客户规划,因为如果未从 Citrix Cloud 使用 Citrix Gateway 服务和 Citrix Workspace 服务,他们仍将负责 Citrix VDA、用户数据、应用程序后端和 Citrix 访问层。

本节介绍了帮助客户为 Citrix Cloud 定义适当灾难恢复策略的关键主题。

Citrix DaaS 简化了灾难恢复

以下是一个典型的概念图,概述了 Citrix DaaS 的概念架构,以及对 Citrix 托管组件和合作伙伴/客户管理组件的责任分离。此处未说明的是 WEM、Analytics 和 Citrix Gateway “服务”,它们是与 Citrix DaaS 相关的选修 Citrix Cloud 组件,属于 “由 Citrix 管理”。

灾难恢复

如图所示,需要恢复决策的控制组件中有很大一部分属于 Citrix 的管理范围。作为一项基于云的服务,Citrix DaaS 架构在 Citrix Cloud 区域内具有很高的弹性。它是 Citrix Cloud“秘密调味料”的一部分,在 Citrix Cloud 的 SLA中被考虑。

服务可用性管理责任如下:

  • Citrix。控制平面并访问“服务”(如果使用中)(Workspace、Citrix Gateway 服务)。
  • 客户。资源位置组件包括Cloud Connector、VDA、应用程序后端、基础设施依赖项(AD、DNS 等)和访问层(StoreFront、Citrix ADC)(如果不使用 Citrix Cloud 访问层)。

在 Citrix DaaS 上进行灾难恢复方面,客户可获得以下优势:

  • 由于要管理的组件减少,以及在不同位置之间复制和维护的独立配置减少,因此减少了管理负担
  • 由于在云中集中配置“Citrix Site”,从而降低了 Citrix 部署之间出现人为错误和配置差异的可能性。
  • 简化了生产和灾难恢复部署的资源管理,因为要配置和维护的 Citrix 站点和组件减少,不同位置之间没有访问层管理(可选),以及 Citrix 资源的灾难恢复逻辑较少,因此简化了生产和灾难恢复部署的资源管
  • 通过集中化监控数据库,减少需要部署和维护的服务器组件,从而降低了运营成本,并获得跨部署环境趋势的单一视图。

Citrix DaaS 灾难恢复注意事项

尽管恢复规划的许多组件已从客户的管理范围中删除,但客户仍需负责规划和管理位于资源位置内的组件的灾难恢复和高可用性(可选)。

我们如何解决可用性问题的最显著区别在于我们如何解释和配置资源位置。在 Citrix DaaS 本身中,资源位置以 区域的形式显示。使用 区域首选项 ,我们可以根据我们指定的逻辑管理资源位置之间的故障转移。在传统部署的 CVAD 站点中使用区域首选项将被视为高可用性设计,但不是有效的灾难恢复设计。在 Citrix Cloud 上下文中,此选项是有效的灾难恢复解决方案。

前面讨论的大多数 灾难恢复选项 适用于 Citrix DaaS,因此有许多选项可以满足组织的恢复目标和预算。

在为 Citrix Cloud 的 Citrix DaaS 服务规划灾难恢复时,需要从基础架构规划的角度了解几个关键指导原则:

  • 资源位置。生产和灾难恢复位置在 Citrix Cloud 中设置为独立的资源位置。
  • Cloud Connector。每个资源位置必须至少部署两个Cloud Connector。为清楚起见,Cloud Connector 不是灾难恢复事件期间必须手动或自动“恢复”的组件。它们必须被视为“热备用”组件,并在每个位置保持在线。
  • 客户管理的访问控制器(可选)。出于多种原因,客户可以选择为 Citrix Gateway 和 StoreFront 服务器部署自己的 Citrix ADC,而不使用 Citrix Workspace 或 Citrix Gateway 服务。这些可能包括:
    • 定制身份验证流
    • 增强了品牌推广
    • 更大的 HDX 流量路由灵活性
    • 审计 ICA 连接和集成到 SIEM 平台
    • 在 Cloud Connector 与 Citrix Cloud 的连接被切断时,可以通过使用 StoreFront 的Cloud Connector的本地主机缓存功能继续运行

    与Cloud Connector一样,建议将 StoreFront 和 Citrix Gateway 组件作为“热备用”部署在恢复位置,而不要在灾难恢复事件期间恢复它们。

操作注意事项

维护 DR 平台对于保持其完整性至关重要,以避免在需要平台时出现不可预见的问题。关于操作和维护 DR Citrix 环境,建议遵循以下准则:

  • Citrix DR 平台不是非 Prod。使用“热备用”环境的客户可能很想把灾难恢复视为测试平台。这种处理对解决方案的完整性产生负面影响。事实上,灾难恢复可能是最后一个推广更改的平台,以确保在维护发生灾难性错误的情况下,在非生产环境中未显示出来的情况下,灾难恢复可能会确保其效用不受影响。
  • 修补和维护。使用“热备用”Citrix 平台时,与生产锁步进行日常维护对于维护功能齐全的灾难恢复平台至关重要。在操作系统、Citrix 产品和应用程序修补程序方面保持灾难恢复与生产同步非常重要。为了降低风险,建议在修补生产和修补 DR 之间留出几天到一周的时间。
  • 定期测试。无论灾难恢复是涉及将生产复制到恢复设施还是使用“热备用”环境,都必须定期测试(理想每年两次或更长时间)灾难恢复计划,以确保团队熟悉恢复过程以及平台或工作流中的任何缺陷已确定并补救。
  • 能力管理。对于主动-被动和主动“始终打开”Citrix 环境,灾难恢复也必须考虑生产中的容量或用例更改。特别是在使用 Active-Active 模型时,资源利用率很容易提高到超过每个环境中资源的 50% 稳定状态利用率阈值,仅适用于发生灾难恢复事件和幸存平台变得不堪重负并且性能不佳或由于超载。容量可以每月或每季度进行审查。

摘要

我们已经在 Citrix 的灾难恢复主题上讲了相当多的内容。以下几点总结了本指南的核心消息和要点,供体系结构师和客户在规划其 Citrix 恢复策略时考虑:

  • 了解客户环境的业务需求和技术能力会影响 Citrix 所需的灾难恢复策略。选择的恢复策略可以与业务目标保持一致。
  • 高可用性并不等同于灾难恢复。但是,灾难恢复可以包括高可用性。
  • 在物理位置之间共享管理边界并不构成灾难恢复解决方案。
  • 为组织的技术组合开发灾难恢复分层分类可在制定恢复策略时提供可见性、灵活性和潜在的成本节约。
  • Citrix 基础架构或托管在 Citrix 上的应用程序的 RTO 要求是需要进行灾难恢复设计的最重要影响因素。更短的 RTO 通常需要更高的解决方案成本。
  • Citrix 的灾难恢复体系结构不采用“热”灾难恢复平台,限制了客户可以使用的技术,例如 Citrix MCS、ADC 和 Provisioning。
  • Citrix 的灾难恢复策略还需要考虑用户数据和应用程序后端的恢复和恢复时间。Citrix 可以被设计为快速恢复,但是,如果应用程序和数据依赖关系在类似的时间范围内不可用,用户仍可能无法工作。
  • 云环境中的灾难恢复有自己的注意事项,组织必须审查本地环境中不存在这些考虑因素,以避免在云环境中调用灾难恢复时出现意外的瓶颈或运营影响。
  • 必须保持灾难恢复组件的最新状态,以匹配生产更新和配置,以维护平台的完整性。
  • 在不同位置之间使用 Citrix 的主动-主动配置的平台必须注意容量监控,以确保在发生灾难时,有足够的资源可用于支持一个或多个幸存位置的预计负载。
  • 客户必须定期测试 Citrix 的灾难恢复计划,以验证其运行情况以及实现其核心目的的能力。
  • Citrix DaaS 显著简化了 DR 架构的许多方面,并允许通过区域首选项配置实现资源位置冗余。

来源

本文的目标是帮助您规划自己的实施。为了简化此任务,我们想为您提供源图,您可以根据自己的需要进行调整: 源图