オブザーバビリティの導入
1. 目的
現在のシステムは、デプロイされた後に「いまどのように動いているか」が見える化されていません。障害が発生してから状況を把握するまでに時間がかかり、原因特定や復旧にも時間を要します。
そこで、メトリクス・ログ・アラートを組み合わせたオブザーバビリティの仕組みを導入し、システムの状態を継続的に把握できるようにしてみましょう。異常時にすぐ気付け、原因を素早く特定できる運用基盤を整えます。
2. やるべきこと
- 計測すべき指標と、可視化・通知の対象を検討してみましょう
- メトリクス・ログを収集し、ダッシュボードで一覧できる仕組みを構築してみましょう
- 異常時にメールやチャットへ通知が届くアラートを設定してみましょう
3. 余裕があれば
- 複数サービスをまたぐリクエストを追跡できる分散トレーシングまで導入してみましょう
4. ツール・機能の候補
※ 以下のすべてを使う必要はなく、目的に合わせて適切なものを選んでみましょう。ここに無いサービスを使っても構いません。
| ツール・機能名 | 概要 |
|---|---|
| Amazon CloudWatch | メトリクス・ログ・アラート・ダッシュボードを1サービスでカバーするAWS標準のオブザーバビリティ基盤 |
| AWS X-Ray | AWSサービスをまたぐリクエストの経路追跡(分散トレーシング) |
| OpenTelemetry | ベンダ非依存の可観測性データ収集仕様 |
| Grafana | OSSの可視化ダッシュボード。マルチデータソースに対応 |
| Datadog | メトリクス・ログ・APM・分散トレーシングを統合した商用オブザーバビリティプラットフォーム |
| New Relic | アプリケーション性能監視(APM)に強みを持つ商用オブザーバビリティプラットフォーム |
5. 目安期間
2〜3週間