Streaming Telemetry with SONiC UMF
Summary
TLDR本ビデオでは、GoogleとBroadcomのエンジニアがGNMI(gRPCネットワーク管理インターフェース)を活用したストリーミングテレメトリの実装について説明しています。GNMIはスイッチの状態管理を効率化するための仕様で、状態変更やアラームなどのイベントに迅速に反応できるプッシュ型のデータ配信を特徴としています。具体的な使用例として、CPU使用率やメモリ使用量、ネットワークトラフィックの監視、ポート障害の即時通知が紹介され、ネットワーク運用の最適化と自動修復にどのように役立つかが説明されています。
Takeaways
- 😀 GNMI(gRPCネットワーク管理インターフェース)は、スイッチの状態管理とテレメトリーストリーミングに使用されるツールで、gRPCフレームワークに基づいています。
- 😀 GNMIは、設定プッシュを通じてスイッチの状態を変更でき、またスイッチからのテレメトリーデータを取得することもできます。
- 😀 GNMIは、プッシュベースのサブスクリプションモデルを提供し、低遅延でのデータ配信を実現し、冗長データの送信を抑制します。
- 😀 サンプルサブスクリプションでは、スイッチが定期的にデータを送信し、データが変化した場合のみ送信されるように設定できます。
- 😀 オンチェンジサブスクリプションは、データの状態変更時のみ通知が送信されるため、アラートやイベントの管理に適しています。
- 😀 ターゲット定義サブスクリプションは、サンプルとオンチェンジサブスクリプションを自動的に切り替え、データタイプに基づいて最適な方法を選択します。
- 😀 サブスクリプションの際に、キーのワイルドカードを使用して複数のインターフェースやパスに対して同時にデータをリクエストできます。
- 😀 GNMIサーバーは、SonicネイティブスキーマとOpenConfigスキーマの両方をサポートし、クライアントが異なるスキーマをリクエストできる柔軟性を提供します。
- 😀 リアルワールドアプリケーションでは、GNMIを利用してCPUやメモリ使用率、ネットワーク統計などのパフォーマンスメトリクスを監視し、システム負荷を分析します。
- 😀 ネットワークの健全性を保つために、スイッチのポートがダウンした際には即座にアラートが発生し、ネットワークの自己修復が行われます。
- 😀 収集したテレメトリーデータを使用して、パフォーマンスの回帰検出や、リリースごとの改善度を追跡し、未来のデプロイメントに備えます。
Q & A
gNMIとは何ですか?
-gNMI(gRPC Network Management Interface)は、スイッチの状態を管理するためのネットワーク管理インターフェースで、データの取得や構成の変更が可能です。gRPCフレームワークに基づき、Yangモデルを使用して階層構造化されたデータを効率的に伝送します。
gNMIのストリーミング機能の利点は何ですか?
-gNMIのストリーミング機能の主な利点は、プッシュ型モデルを使用することで、低遅延で迅速なイベント通知が可能になる点です。また、冗長データの抑制やスイッチ側でのデータフィルタリングにより、スケーラビリティが向上します。
サンプルサブスクリプションとは何ですか?
-サンプルサブスクリプションは、定期的にスイッチからデータを収集する仕組みで、例えば毎分、スイッチからのデータを定期的にコレクターに送信します。これにより、継続的な監視とトラフィック分析が可能となります。
OnChangeサブスクリプションの特徴は何ですか?
-OnChangeサブスクリプションは、スイッチのデータが変更された場合にのみ通知を送信する仕組みです。これにより、データ変更時に即時に反応でき、不要なデータ転送を減少させることができます。
gNMIでサポートされているデータモデルには何がありますか?
-gNMIでは、Sonic NativeとOpenConfigという2つのデータモデルがサポートされています。これにより、異なるクライアントがそれぞれのニーズに応じてデータを要求することができます。
ワイルドカードサブスクリプションとは何ですか?
-ワイルドカードサブスクリプションは、特定のパスを指定する代わりに、すべてのインターフェースや特定のインデックスに対してデータを要求する方法です。これにより、大量のインターフェースデータを一度に取得することができます。
ターゲット定義サブスクリプションの利点は何ですか?
-ターゲット定義サブスクリプションは、スイッチがクライアントの要求に基づいて、サンプルサブスクリプションとOnChangeサブスクリプションを動的に選択する仕組みです。これにより、データタイプに最適なストリーミング方法が自動的に選ばれます。
実際の運用で収集されたデータはどのように活用されますか?
-収集されたデータは、システム性能の分析、トラブルシューティング、履歴分析に使用されます。例えば、CPU利用率やメモリ使用量のデータを用いて、パフォーマンスの回帰分析や改善の確認、リソースの最適化が行われます。
ネットワーク統計のモニタリングにはどのような方法が使われていますか?
-ネットワーク統計は、インターフェースごとのバイト/秒を監視することで、ネットワークトラフィックの変動を分析します。また、キュー統計を監視することで、混雑状態を検出し、トラフィックエンジニアリングを通じて負荷分散が行われます。
OnChangeサブスクリプションはどのようにアラーム処理に役立ちますか?
-OnChangeサブスクリプションを使用すると、スイッチのポートがダウンした場合などの状態変化を即座に検出し、コントローラーに通知することができます。これにより、ネットワークが自動的に回復し、トラフィックが他のスイッチに再分配されます。
Outlines
This section is available to paid users only. Please upgrade to access this part.
Upgrade NowMindmap
This section is available to paid users only. Please upgrade to access this part.
Upgrade NowKeywords
This section is available to paid users only. Please upgrade to access this part.
Upgrade NowHighlights
This section is available to paid users only. Please upgrade to access this part.
Upgrade NowTranscripts
This section is available to paid users only. Please upgrade to access this part.
Upgrade NowBrowse More Related Video
5.0 / 5 (0 votes)