クラウドからコアへ：エンタープライズデータセンターにおける AI ワークロードの増加

By Mikael Holmberg,

Distinguished Engineer and Member of the Office of the CTO

Published: May 13, 2025

AI の需要が急増し続ける中、データセンターは、こうしたワークロードによって生じる特有のネットワークおよび計算上の課題に対応するために再設計されています。AI クラウドの将来は、次世代のワークロードとアプリケーションに必要なスケール、パフォーマンス、柔軟性を実現するために、標準ベースのイーサネットに依存することになります。

あなたのネットワークは AI ワークロードに対応できていますか?

従来のデータセンターはパラダイムシフトを起こしています。かつて AI は独立した機能でしたが、今日では、エッジ、コア、クラウド、個人用デバイスからエンタープライズシステムまで、あらゆる場所に AI が統合されることが期待されています。

組織は、ペースを維持するために、AI インフラストラクチャを加速し、いつでも、どこでも、あらゆる規模のワークロードをサポートする必要があります。これには、高性能、大規模なスケーラビリティ、ロスレス操作を実現するために設計された専用の AI データセンターファブリックが必要です。

ネットワークの巨大な問題：AIワークロードの厳しい要求

AI と機械学習 (ML) のワークロードは、データの分析と解釈から予測の生成や意思決定の自動化まで、幅広いタスクにわたります。これらのワークロードは、今日の最先端のテクノロジーの中核を成していますが、特に高速ネットワーク、ストレージ、コンピューティングの面で、データセンターインフラストラクチャに前例のない要求を課しています。

たとえば、大規模言語モデル (LLM) をトレーニングするには、大規模で集中化されたデータセットと持続的な高帯域幅の接続が必要です。一方、推論ワークロードの増加により、トラフィックがデバイス間やエッジ、コア、クラウド間を流れる、より分散化されたアーキテクチャへの移行が進んでいます。

従来のデータセンターのトラフィックは主に非同期です。データベースの呼び出しや、ユーザーが Web サーバーに時々リクエストを送信することを想定してください。対照的に、AI ワークロードは「エレファントフロー」と呼ばれるものを生成します。これは、データセンター内のマシン間で東西方向に移動する大量かつ持続的なデータストリームです。このトラフィックのうち、データセンター (南北方向) から出るのはごくわずかで、最大 90% がマシン間通信で内部を循環します。

AI クラスター内では、大量のデータが長期間にわたって GPU 間で渡されます。タスクを並行して実行できる従来のネットワークとは異なり、GPU クラスターでは、処理を進める前に必要なデータがすべて揃っていることが前提となります。たとえ 1 つの GPU にさえ影響する遅延やボトルネックによって、連鎖的な速度低下が引き起こされ、全体的なジョブ完了時間 (JCT) がシステム内の最も遅いパスに大きく依存することになります。これにより、ネットワークは AI ワークロードの固有のニーズを満たすための慎重で専門的な設計を必要とする中心的なパフォーマンス要素になります。

AI向けネットワークの設計

多くの企業は、データのプライバシー、規制遵守、セキュリティ、レイテンシー、クラウド帯域幅のコスト上昇に対する懸念から、クラウドではなくオンプレミスで AI ワークロードを実行することを検討しています。

AI 対応データセンターは通常、フロントエンドおよびバックエンドネットワーク、ストレージシステム、コンピューティングクラスターの 3 つのコアコンポーネントで構成されます。AI/ML クラスターのサイズと構成は、モデルの複雑さ、データセットのサイズ、必要なトレーニングまたは推論速度など、いくつかの要因によって異なります。これらのクラスターは、小規模なエンタープライズ規模の展開から、数千のコンピューティング、ストレージ、ネットワークノードを備えた大規模なハイパースケール環境まで多岐にわたります。

この図は、フロントエンドネットワークとバックエンドネットワークに別々のリーフアンドスパイン (CLOS) ファブリックを備えた AI データセンターの階層化アーキテクチャを示しています。フロントエンドファブリックは CPU と外部ユーザートラフィックを接続し、バックエンドファブリックは RoCEv2 NIC を使用して GPU を相互接続し、高速でロスレスな通信を実現します。このデュアルファブリックアプローチにより、ストレージとコンピューティングワークロードが分離された状態が維持され、AI の需要に合わせて効率的に拡張されます。

フロントエンドネットワークは、AI クラスターへの外部接続を処理し、オーケストレーション、推論のための API 呼び出しの処理、テレメトリデータの収集などのタスクを管理します。重要なのは、モデルのトレーニングやストレージ操作に必要な集中的なデータフローをサポートするバックエンドネットワークと比べて、フロントエンドのトラフィックは通常はるかに少ないということです。

バックエンドでは、設計は 2 つの重要なセグメントに分割されます。

処理を処理する GPU ポッドを接続するコンピューティングまたは GPU ネットワーク。
GPU にデータを供給するシステムを接続するストレージネットワーク。

どちらの場合も、オーバーサブスクリプションを避けるという基本的な設計原則が適用されます。ストレージノードとコンピューティングノードをネットワークリーフスイッチに接続するリンクには、ボトルネックとなるコンポーネントがないように十分な容量をプロビジョニングする必要があります。クラスターのサイズが大きくなるにつれて、効率とパフォーマンスを維持するために、適切なポート密度、帯域幅、アーキテクチャを維持することが重要になります。

解決策

クラウドコンピューティングは、無限のスケーラビリティ、柔軟性、効率性を約束します。しかし、生成 AI の急増により、特に GPU 価格が上昇するにつれて、多くの企業はクラウドで集中的なワークロードを実行することのコストが莫大になることに気づき始めています。その結果、組織は、経費とパフォーマンスをより適切に管理できるオンプレミスデータセンターに AI ワークロードの一部を移行するかどうかを再検討するようになっています。

オンプレミス展開は、コスト以外にも、データのセキュリティとガバナンスに大きな利点をもたらします。AI および ML モデルは通常、膨大で機密性の高いデータセットに依存します。クラウドプロバイダーは強力なセキュリティを提供しますが、多くの企業は、データを自社のセキュリティドメイン内に保持することで得られる、より厳格なアクセス制御と露出リスクの軽減を好みます。

これらの高性能オンプレミスアーキテクチャの中心となるのは、50 年以上にわたってキャンパスやデータセンターを支えてきたユビキタスネットワークテクノロジーであるイーサネットです。現在、イーサネットは AI ワークロードの独自の要求を満たすために進化しており、400 テラビット/秒、800 テラビット/秒、さらには 1.6 テラビット/秒というロスレスの高速機能を実現しています。

AI ワークロード向けの高性能ネットワークを実現するための課題の 1 つは、CPU オーバーヘッドが高いために、従来の TCP/IP スタックがそのような高速では制限されることです。リモートダイレクトメモリアクセス (RDMA) は、この課題に対処するソリューションを提供します。トランスポート通信タスクを CPU から専用のハードウェアにオフロードすることで、アプリケーションが直接メモリにアクセスでき、パフォーマンスが大幅に向上します。

具体的には、RDMA over Converged Ethernet (RoCE) を、データセンター量子化輻輳通知 (DCQCN)、優先フロー制御 (PFC)、明示的輻輳通知 (ECN)、動的負荷分散などの技術と組み合わせることで、AI 専用のロスレスイーサネットファブリックが作成されます。

InfiniBand は、その低レイテンシと効率性から長年にわたり高性能コンピューティングのゴールドスタンダードとなってきましたが、RoCE には魅力的な利点があります。既存のイーサネット環境に簡単に統合でき、通常はコストが低いため、AI データセンターに最適な選択肢となります。

RoCE の限界を認識し、ベンダーとオペレーターのグループが次世代の課題に取り組むために Ultra Ethernet Consortium (UEC) を結成しました。従来のネットワーク相互接続では AI の需要に対応するために必要なパフォーマンス、規模、帯域幅を提供できないという懸念が高まる中、UEC は実績のあるイーサネット標準の拡張と強化に取り組んでいます。彼らの目標は、AI ワークロードなどのイーサネットベースのクラスターを介してコンピューティングノード間で大量のデータを交換するときに発生するボトルネックを克服することです。

Ultra Ethernet は、既知の実績ある Ethernet テクノロジ仕様に新しい機能と特徴を追加することで、イーサネットネットワーク経由で接続されたクラスター内のコンピューティング間でデータを交換する問題を解決する方法を考え出し、AI および HPC データセンタークラスターで使用されている現在の Ethernet テクノロジがもたらす課題の一部を解決することを目指しています。

イーサネットは、従来のワークロードでも AI ワークロードでも、データセンターネットワークのバックボーンとして使用される、間違いなくユビキタステクノロジーです。DeepSeek などのオープンソース AI モデルの台頭により、オンプレミスのエンタープライズデータセンターの再成長が見込まれます。

これらのモデルは、それほど強力ではないが手頃な価格のコンピューティングインフラストラクチャ上で実行できるため、オンプレミス AI は実現可能であるだけでなく、魅力的でもあります。これにより、組織はクラウドでワークロードを実行するための定期的なコストを回避しながら、高いパフォーマンスを実現できます。

AI ワークロードをオンプレミスで実行すると、機密データやプライバシー規制およびデータ主権の遵守に関する厳格な要件を持つ企業に、より厳密な制御を提供できます。

AI モデルがより軽量かつ効率的になり続けるにつれて、エンドユーザーに近い小規模な展開によるエッジコンピューティングへの移行が予想されます。これにより、レイテンシが短縮され、クラウド帯域幅のコストが削減され、AI 駆動型サービスとアプリケーションがより実践的なものになります。

今後、高性能イーサネット、革新的な AI モデル、進化する企業ニーズの融合により、データセンターの状況は大きく変化します。実績のあるイーサネットテクノロジーと Ultra Ethernet などの次世代ファブリックを融合してインフラストラクチャを最新化するために今すぐ行動する組織は、AI の潜在能力を最大限に活用し、技術的能力を真の競争上の優位性に変えることができる最適な立場に立つことができます。

Posted In

Cloud

About the Author

Mikael Holmberg is a Distinguished Engineer and Member of the Office of the CTO at Extreme Networks - he was the first person in company history to earn that title!

Full Bio

クラウドからコアへ：エンタープライズデータセンターにおける AI ワークロードの増加

あなたのネットワークは AI ワークロードに対応できていますか?

ネットワークの巨大な問題：AIワークロードの厳しい要求

AI向けネットワークの設計

解決策

Solutions

ログイン

新着情報

企業情報

お問い合わせ

クラウドからコアへ：エンタープライズデータセンターにおける AI ワークロードの増加

あなたのネットワークは AI ワークロードに対応できていますか?

ネットワークの巨大な問題：AIワークロードの厳しい要求

AI向けネットワークの設計

解決策

Extreme Platform ONE – AI-Powered Platform

The Era of Connectivity Platforms: Reimagining Networking Across the Enterprise

Solutions

ログイン

新着情報

企業情報

お問い合わせ