Best Practices for Liquid & Air Cooling of a 51.2Tbps Switch for High-Density AI Clusters
Summary
TLDRこのビデオでは、AIインフラのための液体冷却と空気冷却の最適な実践について、BroadcomのHenryとAlibabaのFuが議論します。急増するAIコンピュータの需要により、データセンターの電力要件が大幅に増加しており、これに対応するために、統合や最新技術の活用、効率的なインターフェース設計が重要です。特に、AlibabaのT5システムは液体冷却を優先し、エネルギー効率を高めながらコスト削減を実現しています。今後の協力による新しい冷却基準の開発にも期待が寄せられています。
Takeaways
- 😀 AIデータセンターでは、電力需要が急増しており、ラックごとの電力供給が12kWから100kWに進化している。
- 😀 最新のGPUやXPUは、性能が倍増し、データセンターのネットワーキングスイッチも同様の傾向を示している。
- 😀 Broadcomは、統合、速度、IO(入力/出力)効率がパワー効率的なソリューションの鍵であると強調している。
- 😀 Alibabaは、AIクラスタの設計において液体冷却ソリューションを採用し、ネットワークの電力消費を35%削減している。
- 😀 液体冷却は、エア冷却よりも信頼性が高いとされ、両社はそれを実現するための設計哲学を持っている。
- 😀 35°C以下の動作温度を維持することが、システムコストを大幅に削減することに繋がる。
- 😀 液体冷却システムの信頼性テストを通じて、漏れのリスクを最小限に抑えるための方法論が開発されている。
- 😀 Alibabaは、システムの動作圧力と圧力損失を制御し、漏れの可能性を減らすための設計を行っている。
- 😀 光モジュールのコンタクトの一貫性を確保するために、浮動設計を取り入れたメカニズムが使用されている。
- 😀 液体冷却のコストは、空気冷却ソリューションと比較して、実際には10%未満に抑えられる可能性がある。
Q & A
AIクラスターの電力要件はどのように変化していますか?
-AI計算の需要が急増しており、データセンターの電力密度が大幅に向上しています。具体的には、RV2ではラックごとに12kW、RV3では36kW、そして最新の高電力ラックでは100kWに達しています。
ブロードコムの51Tスイッチの統合による利点は何ですか?
-51Tスイッチは、同じフロントパネル帯域幅を提供しつつ、6つの25Tスイッチを置き換えることができ、これにより75%の電力を節約できます。
AIクラスターにおける液体冷却の重要性は何ですか?
-液体冷却はAIクラスターにおいて必須であり、従来の空冷システムと比較してネットワーククラスターの電力を35%削減することができます。
アリババのTH5システムにはどのような特徴がありますか?
-TH5システムは高い冷却効率を持ち、より少ないコンポーネントで構成されています。また、複数のGPUをサポートし、空冷と液体冷却の切り替えが容易です。
新しい冷却システムのコスト効率について教えてください。
-35°C未満での運用が標準となり、これにより従来の高温設計と比較してコスト削減が実現しています。液体冷却は、従来の空冷ソリューションに比べて全体的なコストが10%低くなります。
冷却システムの信頼性をどのように確保していますか?
-冷却システムの信頼性を確保するために、厳格な圧力テストを実施し、漏れを防ぐための方法論が確立されています。
IO(入力/出力)に関する最適化はどのように行われていますか?
-AIトレーニングクラスターでは、光ファイバーの数がGPUの数を超えることが多く、IOの最適化が重要です。これにより、電力消費の大幅な削減が可能になります。
液体冷却システムの設計でのカスタマイズについて教えてください。
-アリババでは、液体冷却ソリューションをサポートするためにIOケージをカスタマイズしました。接続部分の性能を維持しつつ、金属部品のケージを調整しています。
温度管理のためにどのような戦略が取られていますか?
-35°C未満での運用が通常であり、これにより毎年のデータセンターの運用コストを大幅に削減しています。
テスト結果についてどのようなデータがありますか?
-実際のデータに基づくと、液体冷却システムは期待を上回り、20ワットまでのサポートが可能です。
Outlines

This section is available to paid users only. Please upgrade to access this part.
Upgrade NowMindmap

This section is available to paid users only. Please upgrade to access this part.
Upgrade NowKeywords

This section is available to paid users only. Please upgrade to access this part.
Upgrade NowHighlights

This section is available to paid users only. Please upgrade to access this part.
Upgrade NowTranscripts

This section is available to paid users only. Please upgrade to access this part.
Upgrade NowBrowse More Related Video

Improving the Odds Immersion and Direct to Chip Cooling Presented by Shell Lubricants

PANEL: Towards an Open, Sustainable AI-Driven Data Center

Roadmap for a Durable Chip Coolant Temperature

Delta is Very Cool in the AI Era presented by Delta

Liquid Cooled AI Infrastructure at Scale Presented by Flex

Beyond ORv3 HPR Rack Vertical Busbar Next Gen Rack Busbar Enabling 200kW AI racks
5.0 / 5 (0 votes)