How do I troubleshoot health check failures for Amazon ECS tasks on Fargate?

Amazon Web Services

30 May 202407:35

Summary

TLDRこのビデオでは、AWSのテクニカルアカウントマネージャーであるモニカが、Amazon Elastic Container Service (ECS) におけるヘルスチェックの失敗をトラブルシューティングする方法を紹介しています。ECS タスクのヘルスチェックに関連するエラーが発生した場合、AWS Management コンソールからECSクラスターを選択し、サービス設定、セキュリティグループの確認、CPU使用率の監視、ヘルスチェックのタイムアウト値の設定、ロードバランサーの設定などを通じて問題を特定し、解決策を提供しています。また、504エラーが発生した場合には、接続タイムアウトやネットワークアクセスコントロールリストの問題をチェックし、アプリケーションログとCloudWatchログを確認して問題を特定することが推奨されています。

Takeaways

🔍 エラーが発生した場合は、AWS Managementコンソールにログインして特定のトラブルシューティングステップに従う必要があります。
📍 ECSクラスターとサービスを選択し、タスク定義のJSONタブでコンテナのポート設定を確認することが重要です。
🛡️ セキュリティグループの受信ルールを確認し、ロードバランサーからのトラフィックが許可されていることを確認します。
🚫 高CPU使用率がアプリケーションの応答を妨げ、ヘルスチェック失敗につながることに注意が必要です。
🕒 ヘルスチェックのタイムアウト値よりもアプリケーションのウォームアップに時間がかかる場合は、ヘルスチェックリスク期間を設定することが推奨されます。
🔄 サービス定義パラメータとしてヘルスチェックリスク期間を指定することで、サービススケジューラに失敗したロードバランサーヘルスチェックを無視させることができます。
🗂️ タスクのログを確認し、アプリケーションエラーやバックエンドデータベースへの接続の問題を特定します。
🚫 504エラーを受け取った場合、ロードバランサーがターゲットに接続できなかったり、アイドルタイムアウト期間が経過したためにターゲットが応答しなかったりする可能性があります。
🔄 タスク定義のヘルスチェックコマンドが正しい構文で正しく渡されているか確認することが重要です。
🔧 Amazon CloudWatchのログを確認し、さらにトラブルシューティングを行うことができます。
💻 ECSタスクがAmazon EC2で実行されている場合、SSHを使用してEC2インスタンスに接続してトラブルシューティングを進めることができます。

Q & A

AWSのElastic Container Service (ECS) とは何ですか？
-AWSのElastic Container Service (ECS)は、コンテナを簡単に実行し管理するためのフルマネージドコンテナオーケストレーションサービスです。
AWS Managementコンソールにログインし、リージョンを選択する必要がある理由は何ですか？
-リージョンを選択することにより、リソースが配置されている地理的な場所を指定し、適切なデータセンターからサービスにアクセスできます。
ECSクラスターとは何で、トラブルシューティングにどのように役立ちますか？
-ECSクラスターは、ECSタスクを実行するための一連のEC2インスタンスのグループです。トラブルシューティングでは、クラスターの構成と状態を確認して問題を特定するのに役立ちます。
タスク定義とは何で、Jsonタブで何を確認する必要がありますか？
-タスク定義は、ECSタスクが実行される際に必要なすべてのパラメータを含むAmazon ECSのリソースです。Jsonタブでは、コンテナのポート構成を確認する必要があります。
セキュリティグループのインバウンドルールを確認する理由は何ですか？
-セキュリティグループのインバウンドルールを確認することで、コンテナが割り当てられたポートでの受信トラフィックが許可されているかを確認できます。
高CPU使用率がアプリケーションにどのような影響を与える可能性がありますか？
-高CPU使用率はアプリケーションが応答不能になり、ターゲットグループのヘルスチェックに失敗する原因となる可能性があります。
ヘルスチェックリスク期間とは何で、どのように設定するのですか？
-ヘルスチェックリスク期間は、タスクが開始された後、事前に定義された期間 동안に失敗したロードバランサーのヘルスチェックを無視するようにサービススケジューラに指示するAmazon ECSサービス定義パラメータです。
ECSサービスのターゲットグループに関連するセキュリティグループの設定を確認する必要性はありますか？
-はい、セキュリティグループの設定が正しくない場合、ロードバランサーはターゲットグループに登録されているタスクを正常でないとマークし、サービススケジューラはタスクをターゲットグループから登録解除します。
504エラーが発生する一般的な理由は何ですか？
-504エラーは、ロードバランサーがターゲットに接続を確立できなかったり、接続タイムアウトが切れた前にターゲットからの応答がない場合に発生します。
アプリケーションログとAmazon CloudWatchログを確認する理由は何ですか？
-アプリケーションログとAmazon CloudWatchログを確認することで、アプリケーションのエラーや異常を特定し、トラブルシューティングに役立てることができます。
AWS Fargateで実行されるタスクをトラブルシューティングする際に、ECSタスクをAmazon EC2で実行し、SSHで接続する理由は何ですか？
-AWS Fargateは管理されたサービスであるため、基盤のホストに直接アクセスすることはできません。EC2インスタンスにタスクを実行し、SSHで接続することで、より詳細なトラブルシューティングが可能です。