設計上の決定:AMD コンピュート上の Azure でCitrix DaaS を提供することの経済性

概要

このホワイトペーパーは、Microsoft、Citrix 、AMD が共同で作成したもので、消費者がCitrix ワークロードをホストする Azure 内のインスタンスタイプをより適切に選択できるよう支援するものです。このドキュメントの目的には、Citrix DaaSワークロードをホストするための最も効率的なインスタンスタイプを決定することと、Azure内でGPUの有無にかかわらず、AMDコンピュートインスタンスを選択する際のガイダンスをお客様に提供することが含まれます。

Azure プラットフォーム

Azure は Microsoft のクラウド環境であり、コンピュータ、ディスクドライブ、ネットワークなどの物理資産が仮想化され、オンラインまたは世界中の Microsoft データセンターへの直接接続を介して利用できるようになっています。各データセンターの場所は地域内にあります。大陸全域で地域が利用可能で、政府機関によるアクセス専用の地域もあります。各リージョンは、リージョン内で互いに分離されたゾーンの集まりです。このようなリソースの分散には、障害発生時の冗長性や、リソースをクライアントの近くに配置することによる待ち時間の短縮など、いくつかの利点があります。

Citrix デスクトップとアプリケーションのワークロードを Microsoft Azure にプロビジョニングすることで、企業は内部インフラストラクチャにかかる費用を回避し、代わりにユーザーのワークロードに必要なコンピューティング、ネットワーク、およびストレージリソースを Azure に任せることができます。

Citrix のサービスとしてのデスクトップ(DaaS)

Citrix Desktop as a Service(DaaS)は、Windows、Linux、Web、SaaSのアプリケーションとデスクトップをあらゆるデバイスに安全に配信し、今日の最新のデジタルワークスペースを強化します。Citrix DaaSは、デスクトップ、ラップトップ、シンクライアント、タブレット、スマートフォンなど、あらゆるエンドポイントにわたるユニバーサルデバイスをサポートする高度な管理とスケーラビリティ、あらゆるネットワークでの豊富なマルチメディアエクスペリエンス、およびセルフサービスアプリケーションを提供します。

アプリケーションとデスクトップの仮想化技術により、顧客はリソースを一元的に管理し、ユーザーの要件に合わせてローカル配信モデルとホスト配信モデルの最適な組み合わせを適用することが容易になります。ホストされたリソースは、シングルセッションおよびマルチセッションのシナリオ用に Microsoft Azure でプロビジョニングできます。

ハイブリッドクラウドソリューションであるCitrix DaaSにより、組織はエンタープライズクラウド戦略に最も合致するワークロード導入オプションを選択できます。Citrix DaaSをMicrosoft Azureプラットフォームに導入すると、IT部門はパブリッククラウドの伸縮自在な規模で、WindowsおよびLinuxのアプリケーションやデスクトップにインフラストラクチャサービスを柔軟に提供できるようになります。同時に、組織は1つ以上のオンプレミス環境を統合して最適な柔軟性を実現することもできます。

Citrix DaaS は、Microsoft Azure 内で実行されるサービスのコントロールプレーンであるCitrix Cloud でホストされます。この一連のテストでは、ワークロードの制御と管理に使用されます。ここでの数値は、Windows Server 2019およびWindows 10マルチセッション上でCitrixのマルチセッションOS Virtual Delivery Agent(VDA)を実行する単一の仮想マシンインスタンスのスケーラビリティとパフォーマンスに焦点を当てています。Citrix DaaS の詳細については、 こちらをご覧ください。

Advanced Micro Devices (AMD)

AMDは高性能コンピューティングのリーダーであり、汎用コンピューティングからクラウドネイティブコンピューティングまで、あらゆるデータセンターのワークロードを加速するテクノロジーを提供しています。
このドキュメントでテストしたすべてのインスタンスは、Microsoft Azure 内の AMD プロセッサとグラフィックスカードを実行していました。

AMD EPYC™ プロセッサーは、最もエネルギー効率の高いx86サーバーに搭載され、並外れたパフォーマンスと密度を実現してサーバーのエネルギーコストを削減します。AMD EPYC™ CPUは、企業の持続可能性目標を前進させながら、データセンターの運用による環境への影響を最小限に抑えるのに役立ちます。AMD EPYC™ には、各プロセッサー・シリーズにオールインワン機能が搭載されているため、選択したコアの数に関係なく、目標を達成するためのI/O、メモリー、メモリー帯域幅を確保できます。

この調査対象の DAS_v5 インスタンスでは、最大 256 MB の L3 キャッシュを備えたマルチスレッド構成の第 3 世代 AMD EPYC™ 7763v プロセッサを使用しています。これらの仮想マシンには、Citrix DaaS ワークロードに関連する要件を満たすための vCPU とメモリの組み合わせが用意されています。

本調査で取り上げたNVv4シリーズのインスタンスは、AMDのRadeon™ Instinct™ MI25 GPUを使用しており、VDIとリモート・ビジュアライゼーションに最適化されています。MI25 GPUはシングルルートI/O仮想化 (SR-IOV) パススルーをサポートしており、タイムスライス多重化により最大8人の仮想マシンゲストとGPUを安全に共有できます。GPU を複数の仮想マシンと共有する場合、各ゲストは GPU を数ミリ秒間、1 秒間に何度も使用することができます。NVv4は、大小さまざまなGPU割り当てを必要とするワークロードに適したサイズを提供します。

NVv4 シリーズのインスタンスには 4 種類のサイズがあります。

サイズ vCPU GPU GPU メモリ (GB) メモリ (GB)
NV4AS_v4 4 1/8 2 14
NV8AS_v4 8 1/4 4 28
NV16as_v4 16 1/2 8 56
NV32as_v4 32 1 16 112

ソース: https://learn.microsoft.com/en-us/azure/virtual-machines/nvv4-series

テスト方法論

負荷は、 Login Enterpriseを使用してテスト実行中にシミュレートされ 、単一ホストのユーザーセッションで人為的なワークロードが生成されました。次に、テスト実行データを使用して、さまざまな AMD Microsoft Azure インスタンスのスケーラビリティを分析しました。

ログインエンタープライズ

Login VSIは 、組織が仮想デスクトップとアプリケーションのパフォーマンス、コスト、容量をプロアクティブに管理するのに役立ちます。ログインエンタープライズプラットフォームは 100% エージェントレスで、CitrixやMicrosoftを含むすべての主要なVDIおよびDaaS環境で使用できます。Login VSIを使用すると、ITチームは、より少ないコスト、より少ない中断、低リスクで、成功するデジタルワークプレイスを計画し、維持することができます。

Login Enterpriseアプライアンスには、インスタンスの推奨ユーザー数を決定するのに役立つ2つのスコアがあります。

エンドユーザーエクスペリエンススコア (EUX): EUX スコアは、セッション中に収集されたメトリックとパフォーマンスカウンターを使用して、仮想セッション内のユーザーエクスペリエンスを定量化します。EUX スコアの範囲は、1.0 (最も低いエクスペリエンス) から 10.0 (最高のエクスペリエンス) まであります。一般的に言って、5.5未満のスコアはユーザー体験が受け入れられないことを示しています。

最大推奨ユーザー数 (VSImax): VSImaxスコアリングプロセスでは、個々のセッションメトリックを使用して、ホスト上で特定のワークロードを同時に実行できるユーザー数を決定します。ログインエンタープライズで使用されている VSImax 値は、以前のバージョンのログイン VSI Classic の VSImax スコアとは比較になりません。

ログインVSIがより正確な結果を提供するよう努めているため、EUXとVSImaxの値を生成するアルゴリズムはバージョンによって異なる場合があります。本研究において比較可能な一貫した結果を維持するために、すべての試験は同じバージョンを使用して実施されました。テスト実行が問題なく完了し、同じVSImax値が3回以上連続して受信されたときに、テスト構成は成功したと見なされました。

ワークロード

2 つの異なるワークロードを使用して、インスタンスタイプのスケーラビリティを評価しました。最初のワークロードは、 ログインエンタープライズのナレッジワーカーのワークロードを使用して1080pの解像度(1920x1080)で実行され、堅牢なMicrosoft Officeユーザーをシミュレートしました。ナレッジワーカーは、スケーラビリティを評価するために最も一般的に使用されるワークロードです。このワークロードには、ループで実行される次のアプリケーションが含まれます。

Microsoft Word Microsoft PowerPoint Microsoft Outlook Microsoft Excel Microsoft Edge、1080pビデをを表示

Office アプリケーションでは、テストで GPU を活用するためのハードウェアアクセラレーションが有効になっていました。

2 つ目のワークロードは、セッション内で GPU サイクルを生成するように設計された 4K 解像度 (3840x2160) で実行される、カスタム作成された GPU 固有のワークロードでした。このカスタムワークロードは、セッション内でのGPU共有の効果を判断することを目的としていました。ワークロードは、次の 2 つのアプリケーションのみで構成されていました。

Citrix のデフォルトはMicrosoft Edge で、4Kビデオを10フレーム/秒(fps)で表示します。 Microsoft 3D Viewer。4つの異なる3D画像を順番にレンダリングし、速度と照明効果を変更します。

NV_v4 インスタンスは GPU ハードウェアエンコーディングをサポートしているがデコードはサポートしていないため、テストの 4K ビデオ部分は、ホストでハードウェア GPU デコードがサポートされている場合よりも多くの CPU サイクルを消費し、時間がかかることが予想されます。Citrixポリシーを使用してメディアリダイレクトを無効にしていたため、GPUはデコードには使用されませんでした。リダイレクション機能を有効にして、ホスト側での CPU デコードを回避することで、パフォーマンスを向上させることができます。

ショートスコアリングアプリは、ユーザーセッション中に複数回、一連の命令を実行し、各ステップの実行にかかった時間を記録します。これらのメトリックは、テスト実行のEUXスコアとVSImax値を生成できます。

次に、これらのスコアを他のパフォーマンス指標とともに入力として使用して、テストの平均EUXスコアを生成します。次のグラフは、D8AS_v5 インスタンスタイプで 22 ユーザーを実行した場合の EUX スコアのサンプルを示しています。今回の実行では、EUXの平均スコアは7.4で、VSImaxスコアは22を超えていました。

EUX スコア

理論上の最大EUXスコアは10です。ただし、異なる仮想マシン構成またはユーザー負荷で同じワークロードを使用するという点で、スコア自体と比較すると、スコアが最も役立ちます。たとえば、次のグラフは同じ数のテストユーザー数22人ですが、EUXスコアは7.3と低く、VSImax値は15です。興味深い観察結果の1つは、ログインストーム中にEUXスコアが下がったが、ログインが完了するとすぐに戻ってきたことです。

EUX スコア

テスト環境

スケーラビリティテストでは、インフラストラクチャ VM は次のように構成されました。

  • バージョン 4.11.2 を実行している 1 台のログインエンタープライズ仮想アプライアンス。
  • 4つのログインエンタープライズランチャー
  • 1つのCitrix Cloud Connector
  • プロファイルと DNS サーバーの両方として機能していた 1 つの Active Directory ドメインコントローラー
  • 単一の Windows Server 2019 データセンターインスタンスまたは 1 つの Windows 10 マルチセッションインスタンスで実行されるCitrix の仮想アプリケーションワークロード (以下を含む):
    • Citrix Server マルチセッション OS VDA 2203.0.2000.2076 (CU2) は機能レベル 2106 (またはそれ以降) で動作しています。
    • Microsoft Office M365 Business
    • デフォルト設定の Microsoft Defender
    • テスト時点で入手可能な最新の Windows 更新プログラム
  • 特に指定がない限り、既成の設定が使用されました
  • Citrix Cloud DaaSサービスは、Delivery Controller、SQL Server、ワークスペースサービス(StoreFront と同等)、ライセンスサーバー、およびStudio管理コンソールを提供および管理しました。Active Directory ドメインコントローラとCloud Connector が Azure テナント内に別々にインストールされました。

次の図は、テストアーキテクチャを示しています。

ラボアーキテクチャ

注:

このアーキテクチャ設計はテストのみを目的としており、冗長コンポーネントを含む実稼働環境がどのようなものかを反映したものではありません。管理者は、 Citrix Tech Zoneのベストプラクティスとアーキテクチャのドキュメントを参照できます

スケーラビリティテスト結果

この調査では、4 ~ 32 vCPU の AMD インスタンスタイプに焦点を当てました。この決定の主な要因はコストと効率でした。Microsoftは、 セッションホスト仮想マシンのサイジングガイドラインで、以下の理由で仮想マシンのサイズを4vCPUから24vCPUに制限することを推奨しています。

「マルチセッションでは、2コアのVMに複数のユーザーがいると、UIやアプリが不安定になり、ユーザーエクスペリエンスの質が低下します。安定したマルチセッション VM は、少なくとも 4 つのコアを使用します。」

「仮想マシンの最大数は32コアです。コア数が増えると、システムの同期オーバーヘッドも増加します。ほとんどのワークロードでは、約 16 コアでは投資収益率が低くなり、余分な容量のほとんどは同期オーバーヘッドによって相殺されます。1台の32コアVMに比べて、2台の16コアVMのユーザー数が多い傾向にあります。」

DaaS ワークロードでは、スケールアップはスケールアウトよりも効率が悪いため、これらのガイドラインは完全に理にかなっており、お客様にとって最適な構成の領域にテストを集中させることができました。

6 種類の AMD インスタンスタイプが 2 つの異なるオペレーティングシステムでテストされました。ワークロードはどのインスタンスタイプでも同じであるため、結果からスケーラビリティを引き出すことができます。 次の表は、各インスタンスタイプで実行されるワークロードを示しています。

  Windows Server 2019 Windows 10 Multi-Session
D4as_v5 知識 知識
d8as_v5 知識 知識
d16as_v5 知識 知識
NV8AS_v4 知識 ナレッジ、GPU
NV16as_v4 知識 ナレッジ、GPU
NV32as_v4 知識 ナレッジ、GPU

予想されるユーザー

AMD インスタンスタイプのコスト効率を判断する前に、理想的なユーザーエクスペリエンスを実現するインスタンスタイプで正常に実行できるユーザー数を判断する必要がありました。幸い、VSImaxスコアは、特定の構成で快適に利用できると予想されるユーザーの数を大幅に上回っています。

ナレッジワーカーのワークロード

まず、Citrix DaaSの幅広いユースケースを提供するナレッジワーカーのワークロードから始めます。次のグラフは、テストしたインスタンスタイプ全体の Windows 10 マルチセッションと Server 2019 ワークロードの最終スコアを示しています。

VSI マックス

このデータから、次の結論を導き出すことができます。

プロセッサをスケールアップしても、ユーザー数は直線的に増加しません。同期オーバーヘッドの効率が低下しているという以前の情報に基づくと、この結果は予想どおりです。

Windows 10のマルチセッションは、サーバー2019よりもリソースの効率が低くなります。Server 2019の方が複数ユーザーのホスティングに最適化されているため、この結果は予想されます。 GPU 対応の NV シリーズインスタンスを使用しても、ユーザー数は増えません。この結果は、CPU にオーバーヘッド GPU が追加されていることからも予想されます。

この考え方を続けると、このグラフは、インスタンスタイプの vCPU の数が増えるにつれて、vCPU あたりのユーザー数が減少することを明確に示しています。AMDプロセッサの結論は、スケールアウトの方がスケールアップよりも優れているということです。これは、大規模なマシン上の同数のvCPUよりも小さなマシンでより多くのユーザーを獲得できるからです。

vCPU あたりのユーザー数

GPU 集中型ワークロード

GPU 集約型ワークロードに切り替えると、インスタンスタイプごとのVsiMaxユーザー数についても同様の傾向が見られます。GPU を集中的に使用するワークロードは、NV シリーズのインスタンスでのみ実行されました。結果は次のグラフに示されています。

このデータから、ナレッジワーカーのワークロードに対して行ったのと同じ結論が2つ導き出せます。

プロセッサをスケールアップしても、ユーザー数は直線的に増加しません。この結果は、同期オーバーヘッドの効率が低く、NV_v4シリーズはCPUサイクルに依存してGPUを使用するため、予想どおりの結果です。この影響の一部は、4K ビデオが原因でした。4K ビデオは CPU サイクルを消費していましたが、リダイレクトが使用されなかったため、GPU にオフロードされない可能性があります。 Windows 10のマルチセッションは、サーバー2019よりもリソースの効率が低くなります。Server 2019の方が複数ユーザーのホスティングに最適化されているため、この結果もまた予想されます。

ただし、vCPU あたりのユーザー数をさらに詳しく調べてみると、Windows 10 では Server 2019 の場合と同じ直線的な傾向はないことがわかります。Windows 10 マルチセッションの場合、16 vCPU インスタンスが最も効率的です。

VSI マックス

予想コスト

これで、予想されるユーザー数を 1 時間あたりのインスタンスコストで割って、ユーザー時間あたりのコストメトリクスを導き出すことができます。すべてのリージョンでこれらのインスタンスタイプを利用できるわけではなく、価格はリージョンによって異なります。使用されている価格は、2023 年 8 月の Azure West US 2 リージョンのコストを反映しています。わかりやすくするため、この比較にはフルライセンスの従量課金制料金とハイブリッド特典料金のみを使用しました。Microsoft の割引プランまたはリザーブドインスタンス価格を使用すると、実際のコストは低くなります。

以下のグラフは、 Knowledge Worker ワークロードでテストした各AMD インスタンスタイプのオペレーティングシステムとライセンスモデル別のユーザー時間あたりのコストを示しています。

平均費用

Azure の価格はコンピューティングに関しては一定なので、コストは予想どおりのパフォーマンスグラフになっています。最も効率的なインスタンスタイプは、スケーラビリティが最も高いD4AS_v5で、ハイブリッドライセンスモデルでは1時間あたり1.4セント、Windows Server 2019のフルライセンスモデルでは1時間あたり3セントです。同様のコストは、GPUを多用するワークロードでも発生します。次の表に示すように、NV8AS_v4は、ハイブリッドでは1時間あたり7.8セント、Server 2019のフルライセンスでは1時間あたり13.9セントというユーザー時間あたりのコストが最も低くなります。

平均費用

エンドユーザーエクスペリエンス

私たちの研究はそれだけでは終わりません。まだユーザーエクスペリエンスの側面をカバーする必要があります。最後のステップは、エンドユーザーエクスペリエンススコアを確認して、コストとユーザーエクスペリエンスの観点から最も効率的なインスタンスを判断することです。次のグラフは、ナレッジワーカーのワークロードについて公開した最終VSImaxスコアを受け取った実行に関連する平均EUXスコアを示しています。

EUX スコア

データから明らかになったことの 1 つは、最も効率的なインスタンスタイプほど、追跡したスコアが最も低いということです。先ほど、5.5未満のスコアはユーザーエクスペリエンスが低下すると述べたことを思い出してください。そのため、D4as_v5のスコアが6.8倍になってもまだまあまあです。しかし、次のコラムを見ると、平均EUXスコアが大幅に上昇していることがわかります。1時間あたり0.2セントの追加料金で、エンドユーザーにより良いエクスペリエンスを提供できます。下の GPU 集中型ワークロードのグラフを見ると、同様の状況です。

EUX スコア

この場合、NV32AS_v4インスタンスタイプは、NV16AS_v4インスタンスよりも全体的にわずかに高いスコアが得られるため、NV16AS_v4が最も効率的なパフォーマンスですが、エンドユーザーエクスペリエンスは最高とは言えない可能性があります。NV16AS_v4 の EUX スコアが低いのは、NV8AS_v4 または NV32AS_v4 インスタンスタイプよりもコアあたりのユーザー密度が高いためです。驚いたことに、NV32AS_v4のGPU集約型ワークロードでは、Windows 10のマルチセッションが最高得点です。これはおそらく、リダイレクションを使用しなかったため、テストの4Kビデオ再生部分でNV32AS_v4の使用可能なCPUサイクルが増えたことが原因と考えられます。

主な調査結果と推奨事項

テスト実行データを確認して結果を分析した結果、AMD を搭載した Azure インスタンスを選択する際の主な結果と推奨事項を以下に示します。

テスト結果によると、Windows 10 のマルチセッションインスタンスは、Windows Server オペレーティングシステム (Server 2019 または 2022) よりも 30% 少ないユーザー数に対応できることがわかりました。エンドユーザーエクスペリエンス (EUX) スコアは、オペレーティングシステムの種類を問わず比較的一貫していました。 ナレッジワーカーにとって最もコスト効率の高いインスタンスタイプは D4AS_v5 ですが、D8AS_v5 インスタンスタイプを使用して、より優れたユーザーエクスペリエンスを1時間あたり何分の1セントも高く利用することをお勧めします。

1 つの GPU を複数のセッションで効果的に共有できます。ただし、使用するインスタンスタイプの決定は、主に GPU タイプのワークロードによって異なります。

結論

いつものように、ビジネス固有のワークロードで独自のパフォーマンステストを行うことをお勧めします。ワークロードや、最終的にどのインスタンスタイプになるかについての洞察が限られているとします。その場合は、提供された情報を使用して適切な見積もりを行うことができます。通常、vCPU インスタンスタイプが低いほど、コストとパフォーマンスのバランスが良くなります。

設計上の決定:AMD コンピュート上の Azure でCitrix DaaS を提供することの経済性