オブザーバビリティの導入

1. 目的

現在のシステムは、デプロイされた後に「いまどのように動いているか」が見える化されていません。障害が発生してから状況を把握するまでに時間がかかり、原因特定や復旧にも時間を要します。

そこで、メトリクス・ログ・アラートを組み合わせたオブザーバビリティの仕組みを導入し、システムの状態を継続的に把握できるようにしてみましょう。異常時にすぐ気付け、原因を素早く特定できる運用基盤を整えます。

2. やるべきこと

  1. 計測すべき指標と、可視化・通知の対象を検討してみましょう
  2. メトリクス・ログを収集し、ダッシュボードで一覧できる仕組みを構築してみましょう
  3. 異常時にメールやチャットへ通知が届くアラートを設定してみましょう

3. 余裕があれば

  1. 複数サービスをまたぐリクエストを追跡できる分散トレーシングまで導入してみましょう

4. ツール・機能の候補

※ 以下のすべてを使う必要はなく、目的に合わせて適切なものを選んでみましょう。ここに無いサービスを使っても構いません。

ツール・機能名 概要
Amazon CloudWatch メトリクス・ログ・アラート・ダッシュボードを1サービスでカバーするAWS標準のオブザーバビリティ基盤
AWS X-Ray AWSサービスをまたぐリクエストの経路追跡(分散トレーシング)
OpenTelemetry ベンダ非依存の可観測性データ収集仕様
Grafana OSSの可視化ダッシュボード。マルチデータソースに対応
Datadog メトリクス・ログ・APM・分散トレーシングを統合した商用オブザーバビリティプラットフォーム
New Relic アプリケーション性能監視(APM)に強みを持つ商用オブザーバビリティプラットフォーム

5. 目安期間

2〜3週間

ポートフォリオ制作のフィードバックはスタンダードプラン以上でご利用いただけます。

プランのアップグレード