クラウドからコアへ:エンタープライズデータセンターにおける AI ワークロードの増加

from-cloud-to-core-blog-image.jpg

AI の需要が急増し続ける中、データ センターは、こうしたワークロードによって生じる特有のネットワークおよび計算上の課題に対応するために再設計されています。AI クラウドの将来は、次世代のワークロードとアプリケーションに必要なスケール、パフォーマンス、柔軟性を実現するために、標準ベースのイーサネットに依存することになります。

あなたのネットワークは AI ワークロードに対応できていますか?

従来のデータセンターはパラダイムシフトを起こしています。かつて AI は独立した機能でしたが、今日では、エッジ、コア、クラウド、個人用デバイスからエンタープライズ システムまで、あらゆる場所に AI が統合されることが期待されています。

組織は、ペースを維持するために、AI インフラストラクチャを加速し、いつでも、どこでも、あらゆる規模のワークロードをサポートする必要があります。これには、高性能、大規模なスケーラビリティ、ロスレス操作を実現するために設計された専用の AI データセンター ファブリックが必要です。

ネットワークの巨大な問題:AIワークロードの厳しい要求

AI と機械学習 (ML) のワークロードは、データの分析と解釈から予測の生成や意思決定の自動化まで、幅広いタスクにわたります。これらのワークロードは、今日の最先端のテクノロジーの中核を成していますが、特に高速ネットワーク、ストレージ、コンピューティングの面で、データセンター インフラストラクチャに前例のない要求を課しています。

たとえば、大規模言語モデル (LLM) をトレーニングするには、大規模で集中化されたデータセットと持続的な高帯域幅の接続が必要です。一方、推論ワークロードの増加により、トラフィックがデバイス間やエッジ、コア、クラウド間を流れる、より分散化されたアーキテクチャへの移行が進んでいます。

従来のデータ センターのトラフィックは主に非同期です。データベースの呼び出しや、ユーザーが Web サーバーに時々リクエストを送信することを想定してください。対照的に、AI ワークロードは「エレファント フロー」と呼ばれるものを生成します。これは、データ センター内のマシン間で東西方向に移動する大量かつ持続的なデータ ストリームです。このトラフィックのうち、データ センター (南北方向) から出るのはごくわずかで、最大 90% がマシン間通信で内部を循環します。

AI クラスター内では、大量のデータが長期間にわたって GPU 間で渡されます。タスクを並行して実行できる従来のネットワークとは異なり、GPU クラスターでは、処理を進める前に必要なデータがすべて揃っていることが前提となります。たとえ 1 つの GPU にさえ影響する遅延やボトルネックによって、連鎖的な速度低下が引き起こされ、全体的なジョブ完了時間 (JCT) がシステム内の最も遅いパスに大きく依存することになります。これにより、ネットワークは AI ワークロードの固有のニーズを満たすための慎重で専門的な設計を必要とする中心的なパフォーマンス要素になります。

AI向けネットワークの設計

多くの企業は、データのプライバシー、規制遵守、セキュリティ、レイテンシー、クラウド帯域幅のコスト上昇に対する懸念から、クラウドではなくオンプレミスで AI ワークロードを実行することを検討しています。

AI 対応データ センターは通常、フロントエンドおよびバックエンド ネットワーク、ストレージ システム、コンピューティング クラスターの 3 つのコア コンポーネントで構成されます。AI/ML クラスターのサイズと構成は、モデルの複雑さ、データセットのサイズ、必要なトレーニングまたは推論速度など、いくつかの要因によって異なります。これらのクラスターは、小規模なエンタープライズ規模の展開から、数千のコンピューティング、ストレージ、ネットワーク ノードを備えた大規模なハイパースケール環境まで多岐にわたります。

この図は、フロントエンド ネットワークとバックエンド ネットワークに別々のリーフ アンド スパイン (CLOS) ファブリックを備えた AI データ センターの階層化アーキテクチャを示しています。フロントエンド ファブリックは CPU と外部ユーザー トラフィックを接続し、バックエンド ファブリックは RoCEv2 NIC を使用して GPU を相互接続し、高速でロスレスな通信を実現します。このデュアルファブリック アプローチにより、ストレージとコンピューティング ワークロードが分離された状態が維持され、AI の需要に合わせて効率的に拡張されます。

フロントエンド ネットワークは、AI クラスターへの外部接続を処理し、オーケストレーション、推論のための API 呼び出しの処理、テレメトリ データの収集などのタスクを管理します。重要なのは、モデルのトレーニングやストレージ操作に必要な集中的なデータフローをサポートするバックエンド ネットワークと比べて、フロントエンドのトラフィックは通常はるかに少ないということです。

バックエンドでは、設計は 2 つの重要なセグメントに分割されます。

  • 処理を処理する GPU ポッドを接続するコンピューティングまたは GPU ネットワーク。
  • GPU にデータを供給するシステムを接続するストレージ ネットワーク。

どちらの場合も、オーバーサブスクリプションを避けるという基本的な設計原則が適用されます。ストレージ ノードとコンピューティング ノードをネットワーク リーフ スイッチに接続するリンクには、ボトルネックとなるコンポーネントがないように十分な容量をプロビジョニングする必要があります。クラスターのサイズが大きくなるにつれて、効率とパフォーマンスを維持するために、適切なポート密度、帯域幅、アーキテクチャを維持することが重要になります。

解決策

クラウド コンピューティングは、無限のスケーラビリティ、柔軟性、効率性を約束します。しかし、生成 AI の急増により、特に GPU 価格が上昇するにつれて、多くの企業はクラウドで集中的なワークロードを実行することのコストが莫大になることに気づき始めています。その結果、組織は、経費とパフォーマンスをより適切に管理できるオンプレミス データ センターに AI ワークロードの一部を移行するかどうかを再検討するようになっています。

オンプレミス展開は、コスト以外にも、データのセキュリティとガバナンスに大きな利点をもたらします。AI および ML モデルは通常、膨大で機密性の高いデータセットに依存します。クラウド プロバイダーは強力なセキュリティを提供しますが、多くの企業は、データを自社のセキュリティ ドメイン内に保持することで得られる、より厳格なアクセス制御と露出リスクの軽減を好みます。

これらの高性能オンプレミス アーキテクチャの中心となるのは、50 年以上にわたってキャンパスやデータ センターを支えてきたユビキタス ネットワーク テクノロジーであるイーサネットです。現在、イーサネットは AI ワークロードの独自の要求を満たすために進化しており、400 テラビット/秒、800 テラビット/秒、さらには 1.6 テラビット/秒というロスレスの高速機能を実現しています。

AI ワークロード向けの高性能ネットワークを実現するための課題の 1 つは、CPU オーバーヘッドが高いために、従来の TCP/IP スタックがそのような高速では制限されることです。リモート ダイレクト メモリ アクセス (RDMA) は、この課題に対処するソリューションを提供します。トランスポート通信タスクを CPU から専用のハードウェアにオフロードすることで、アプリケーションが直接メモリにアクセスでき、パフォーマンスが大幅に向上します。

具体的には、RDMA over Converged Ethernet (RoCE) を、データセンター量子化輻輳通知 (DCQCN)、優先フロー制御 (PFC)、明示的輻輳通知 (ECN)、動的負荷分散などの技術と組み合わせることで、AI 専用のロスレス イーサネット ファブリックが作成されます。

InfiniBand は、その低レイテンシと効率性から長年にわたり高性能コンピューティングのゴールド スタンダードとなってきましたが、RoCE には魅力的な利点があります。既存のイーサネット環境に簡単に統合でき、通常はコストが低いため、AI データ センターに最適な選択肢となります。

RoCE の限界を認識し、ベンダーとオペレーターのグループが次世代の課題に取り組むために Ultra Ethernet Consortium (UEC) を結成しました。従来のネットワーク相互接続では AI の需要に対応するために必要なパフォーマンス、規模、帯域幅を提供できないという懸念が高まる中、UEC は実績のあるイーサネット標準の拡張と強化に取り組んでいます。彼らの目標は、AI ワークロードなどのイーサネットベースのクラスターを介してコンピューティング ノード間で大量のデータを交換するときに発生するボトルネックを克服することです。

Ultra Ethernet は、既知の実績ある Ethernet テクノロジ仕様に新しい機能と特徴を追加することで、イーサネット ネットワーク経由で接続されたクラスター内のコンピューティング間でデータを交換する問題を解決する方法を考え出し、AI および HPC データ センター クラスターで使用されている現在の Ethernet テクノロジがもたらす課題の一部を解決することを目指しています。

イーサネットは、従来のワークロードでも AI ワークロードでも、データ センター ネットワークのバックボーンとして使用される、間違いなくユビキタス テクノロジーです。DeepSeek などのオープンソース AI モデルの台頭により、オンプレミスのエンタープライズ データ センターの再成長が見込まれます。

これらのモデルは、それほど強力ではないが手頃な価格のコンピューティング インフラストラクチャ上で実行できるため、オンプレミス AI は実現可能であるだけでなく、魅力的でもあります。これにより、組織はクラウドでワークロードを実行するための定期的なコストを回避しながら、高いパフォーマンスを実現できます。

AI ワークロードをオンプレミスで実行すると、機密データやプライバシー規制およびデータ主権の遵守に関する厳格な要件を持つ企業に、より厳密な制御を提供できます。

AI モデルがより軽量かつ効率的になり続けるにつれて、エンドユーザーに近い小規模な展開によるエッジ コンピューティングへの移行が予想されます。これにより、レイテンシが短縮され、クラウド帯域幅のコストが削減され、AI 駆動型サービスとアプリケーションがより実践的なものになります。

今後、高性能イーサネット、革新的な AI モデル、進化する企業ニーズの融合により、データセンターの状況は大きく変化します。実績のあるイーサネット テクノロジーと Ultra Ethernet などの次世代ファブリックを融合してインフラストラクチャを最新化するために今すぐ行動する組織は、AI の潜在能力を最大限に活用し、技術的能力を真の競争上の優位性に変えることができる最適な立場に立つことができます。

Posted In
Tags
About the Author
Mikael Holmberg.jpg
Mikael Holmberg
Distinguished Engineer and Member of the Office of the CTO

Mikael Holmberg is a Distinguished Engineer and Member of the Office of the CTO at Extreme Networks - he was the first person in company history to earn that title!

Full Bio