Best Practices for Liquid & Air Cooling of a 51.2Tbps Switch for High-Density AI Clusters

Open Compute Project
22 Oct 202418:52

Summary

TLDRこのビデオでは、AIインフラのための液体冷却と空気冷却の最適な実践について、BroadcomのHenryとAlibabaのFuが議論します。急増するAIコンピュータの需要により、データセンターの電力要件が大幅に増加しており、これに対応するために、統合や最新技術の活用、効率的なインターフェース設計が重要です。特に、AlibabaのT5システムは液体冷却を優先し、エネルギー効率を高めながらコスト削減を実現しています。今後の協力による新しい冷却基準の開発にも期待が寄せられています。

Takeaways

  • 😀 AIデータセンターでは、電力需要が急増しており、ラックごとの電力供給が12kWから100kWに進化している。
  • 😀 最新のGPUやXPUは、性能が倍増し、データセンターのネットワーキングスイッチも同様の傾向を示している。
  • 😀 Broadcomは、統合、速度、IO(入力/出力)効率がパワー効率的なソリューションの鍵であると強調している。
  • 😀 Alibabaは、AIクラスタの設計において液体冷却ソリューションを採用し、ネットワークの電力消費を35%削減している。
  • 😀 液体冷却は、エア冷却よりも信頼性が高いとされ、両社はそれを実現するための設計哲学を持っている。
  • 😀 35°C以下の動作温度を維持することが、システムコストを大幅に削減することに繋がる。
  • 😀 液体冷却システムの信頼性テストを通じて、漏れのリスクを最小限に抑えるための方法論が開発されている。
  • 😀 Alibabaは、システムの動作圧力と圧力損失を制御し、漏れの可能性を減らすための設計を行っている。
  • 😀 光モジュールのコンタクトの一貫性を確保するために、浮動設計を取り入れたメカニズムが使用されている。
  • 😀 液体冷却のコストは、空気冷却ソリューションと比較して、実際には10%未満に抑えられる可能性がある。

Q & A

  • AIクラスターの電力要件はどのように変化していますか?

    -AI計算の需要が急増しており、データセンターの電力密度が大幅に向上しています。具体的には、RV2ではラックごとに12kW、RV3では36kW、そして最新の高電力ラックでは100kWに達しています。

  • ブロードコムの51Tスイッチの統合による利点は何ですか?

    -51Tスイッチは、同じフロントパネル帯域幅を提供しつつ、6つの25Tスイッチを置き換えることができ、これにより75%の電力を節約できます。

  • AIクラスターにおける液体冷却の重要性は何ですか?

    -液体冷却はAIクラスターにおいて必須であり、従来の空冷システムと比較してネットワーククラスターの電力を35%削減することができます。

  • アリババのTH5システムにはどのような特徴がありますか?

    -TH5システムは高い冷却効率を持ち、より少ないコンポーネントで構成されています。また、複数のGPUをサポートし、空冷と液体冷却の切り替えが容易です。

  • 新しい冷却システムのコスト効率について教えてください。

    -35°C未満での運用が標準となり、これにより従来の高温設計と比較してコスト削減が実現しています。液体冷却は、従来の空冷ソリューションに比べて全体的なコストが10%低くなります。

  • 冷却システムの信頼性をどのように確保していますか?

    -冷却システムの信頼性を確保するために、厳格な圧力テストを実施し、漏れを防ぐための方法論が確立されています。

  • IO(入力/出力)に関する最適化はどのように行われていますか?

    -AIトレーニングクラスターでは、光ファイバーの数がGPUの数を超えることが多く、IOの最適化が重要です。これにより、電力消費の大幅な削減が可能になります。

  • 液体冷却システムの設計でのカスタマイズについて教えてください。

    -アリババでは、液体冷却ソリューションをサポートするためにIOケージをカスタマイズしました。接続部分の性能を維持しつつ、金属部品のケージを調整しています。

  • 温度管理のためにどのような戦略が取られていますか?

    -35°C未満での運用が通常であり、これにより毎年のデータセンターの運用コストを大幅に削減しています。

  • テスト結果についてどのようなデータがありますか?

    -実際のデータに基づくと、液体冷却システムは期待を上回り、20ワットまでのサポートが可能です。

Outlines

plate

このセクションは有料ユーザー限定です。 アクセスするには、アップグレードをお願いします。

今すぐアップグレード

Mindmap

plate

このセクションは有料ユーザー限定です。 アクセスするには、アップグレードをお願いします。

今すぐアップグレード

Keywords

plate

このセクションは有料ユーザー限定です。 アクセスするには、アップグレードをお願いします。

今すぐアップグレード

Highlights

plate

このセクションは有料ユーザー限定です。 アクセスするには、アップグレードをお願いします。

今すぐアップグレード

Transcripts

plate

このセクションは有料ユーザー限定です。 アクセスするには、アップグレードをお願いします。

今すぐアップグレード
Rate This

5.0 / 5 (0 votes)

関連タグ
AIクラスタ冷却技術BroadcomAlibabaデータセンターパワー効率シリコンソリューション設計革新ネットワークアーキテクチャ技術講演