Live Q+A 2 with Moderator Joseph Provine

@Scale

12 Sept 202431:35

Summary

TLDRこのビデオ脚本では、複雑なネットワークの運用経験について語り合うセッションが展開されています。メタやサラボなどの企業が、ネットワークのバンドWIDTHとパフォーマンスの測定、障害検出、冗長性、そしてAIワークロードに対するネットワークの影響など、多岐にわたるトピックに触れています。また、アクティブモニタリングとパッシブモニタリングの有効性、ネットワークの観測性向上のための取り組み、そして大規模なネットワーク問題の自動化されたトラブルシューティングの重要性などが議論されています。

Takeaways

📊 ネットワークの帯域幅とパフォーマンスを測定する際には、経験則に基づく予想帯域幅を考慮し、メッセージサイズやネットワークのBDP（最大伝送可能データ量）に基づいて帯域幅を予測します。
🔍 エンドポイント障害の検出は、特定のハードウェアグループへの影響が異なるため、根本原因の特定を絞り込むことが重要です。
🔗 スパインスイッチ障害の検出は、多くのプロセスに影響を与えるため、自動化されていない手動でのハードウェアの相関付けが必要です。
🔄 アリババはティアードレッデンシーを達成するために、サーバーごとのアクセラレータ数とアップリンク数を最大化し、デュアルプレーンアーキテクチャを利用しています。
🛠 複雑なネットワークを管理する上で学んだ教訓は、初歩的原理に戻り、明確で理解しやすい目標を定めることです。
🔎 アクティブモニタリングは、ビットフリップなどのアプリケーションレベルの異常を検出し、事前に問題をエスカレート防止するのに役立ちます。
📈 HPCネットワークの改善は、スケールの拡大、安定性の向上、新しいモデルやワークフローへの対応に焦点を当てています。
🚫 スローランクの検出時に、ネットワークの問題かエンドポイントの問題かを特定し、それに応じてジョブを停止または再開する必要があります。
📋 ネットワークの障害に対する優先順位付けは、SLI（サービスレベルインジケーター）を通じて、障害の影響を定量化し、重要な問題に焦点を当てます。
🔍 コレクティブ通信の障害調査では、コレクティブの接続パターンとアルゴリズムの知識を組み合わせて、問題の特定と解決策を見つけます。
📈 ネットワークの混雑を解決するためには、アーキテクチャ設計、ジョブ割り当て戦略、ネットワークとホストの協調的な制御が必要です。

Q & A

メタとSalaboでのネットワーク運用経験から学んだことは何ですか？
-メタとSalaboでは、ネットワークの帯域幅とパフォーマンスを測定し、予想される帯域幅を知るために運用経験を積んでいます。大規模メッセージでは最大帯域幅を期待でき、メッセージサイズが小さい場合はBDパフォーマンスと関数関係にあります。
ネットワークの障害検出では、スピンスイッチの故障はどのように扱われますか？
-スピンスイッチの故障は、多くのプロセスに影響を与えるため、自動的な方法で扱うことはできません。手動でハードウェアマトリックスと関連付けて特定する必要がありますが、プロセスのグループが特定の状態に陥った場合、スイッチの問題であることが指標となります。
アリババはどのようにしてティア間の冗長性を確保していますか？
-アリババでは、アクセラレータとスイッチの1対1の接続に重点を置いています。サーバーには8つのアクセラレータがあり、デュアルプレーンを持っているため、合計16つのスイッチがあります。そのため、1つのスイッチや光学モジュールが故障しても、他の15つのリンクが機能します。
複雑なネットワークを管理する上で学んだ最も価値ある教訓は何ですか？
-最初の原則に戻ることが重要です。AIの需要やワークロードの問題を理解し、ネットワークの障害を迅速かつ正確に特定することが求められます。このアプローチは、多日間続く調査を減らすのに役立ち、問題解決に必要な情報が明確になります。
アプリケーションレベルの異常を検出するために使用された技術や技術は何ですか？
-ビットフリップなどのアプリケーションレベルの異常を検出するためには、まず統計的な量の測定が必要です。その後、自動的なフェールオーバーテストやトリアージプロセスを通じて、問題の特定と軽減を行います。
HPCネットワークの改善のために探求されている領域は何ですか？
-スケールの拡大、迅速な障害検出と対処、新しいモデルやワークフローへの対応などが探求されている領域です。また、クラウドプロバイダーとしての立場から、isolaiton、仮想化、統一フレームワークの提供など新たな課題も扱っています。
ネットワークの遅延が検出された場合、どのように対処しますか？
-ネットワークの遅延が検出された場合、まずネットワークの問題かエンドポイントの問題かを特定する必要があります。ネットワークの問題の場合は、自動化されたプロセスでデバイスをドレインし、パフォーマンスが回復するまで待機します。エンドポイントの問題の場合は、ジョブを停止し、問題ホストを外すことが一般的です。
ネットワークのパフォーマンスと信頼性に与える影響をどのように優先順位付けますか？
-ネットワークSLIを用いて、アクティブおよびパッシブモニタリングを組み合わせることで、障害の影響を測定します。その後、その分析結果を基に、特定のAIゾーンや全体に対する異なるイベントの影響を理解し、優先順位を付けます。
集積コミュニケーションの障害を特定する一般的なアプローチはありますか？
-集積コミュニケーションのパターンとアルゴリズムの知識に基づいて障害を特定するための一般的なアプローチがありますが、新しいアルゴリズムやコミュニケーションが登場するたびに、継続的に更新する必要があります。
ネットワークの混雑をどのように解決していますか？
-アーキテクチャ設計から混雑を避け、ジョブ割り当ての戦略を通じて混雑を軽減します。また、混雑が発生した場合は、ネットワークとホストの協調的な制御やマルチパス動作を通じて混雑を管理します。
パッシブモニタリングとアクティブモニタリング、どちらが最も役立ちますか？
-パッシブモニタリングとアクティブモニタリングは互いに補完し合い、効果的に問題を特定するのに役立ちます。パッシブモニタリングは大部分の問題をカバーし、アクティブモニタリングはパッシブモニタリングがカバーしないギャップを埋めます。
アプリケーション層にインストルメンテーションを加えることなくネットワークの可観測性をどのように確保していますか？
-アプリケーション層にインストルメンテーションを加える前は、ネットワークメトリクスに依存して問題を特定していました。しかし、大規模な問題解決や自動化された障害検出を必要とするため、Nicoレイヤーへのインストルメンテーションが選択されました。