Upgrade to Pro — share decks privately, control downloads, hide ads and more …

話しかけるだけでAWS運用 〜 Q Developerで実現する対話型インフラ監視 〜

Avatar for Isomatsu Wakana Isomatsu Wakana
September 04, 2025
210

話しかけるだけでAWS運用 〜 Q Developerで実現する対話型インフラ監視 〜

Avatar for Isomatsu Wakana

Isomatsu Wakana

September 04, 2025
Tweet

Transcript

  1. 2 アジェンダ 1. 従来の運用監視の課題(主観) 2. Amazon Q Developer in chat

    applications で課題解決 3. 運用で活用 4. まとめ
  2. 従来の対応フロー 4 1.  AWSコンソールにログイン 2.  EC2画面でインスタンス確認 3.  CloudWatchメトリクス確認 4.  

    一つずつ状況調査... 5.   原因を推測して対応 ❌ 時間がかかる ❌ 経験が必要
  3. パターン①:EC2 CPU使用率高騰アラート パターン②:ALBヘルスチェックアラート 11 ALB EC2 CloudWatch CloudWatch Alarm SNS

    Amazon Q Developer in chat applications Slack 🔽IAMポリシー ・AmazonQDeveloperAccess ・AmazonEC2ReadOnlyAccess ・ElasticLoadBalancingReadOnly ・CloudWatchReadOnlyAccess IAMロール
  4. 14 対象インスタンス 1. i-0f3e532b5c871d715 - ネットワーク異常 2. i-0e01c402f45ac5a41 - *CPU使用率97.96%まで高騰*(継続

    中) 3. i-05c5a21e8e931ebb9 - ネットワーク異常 現在の状況まとめ • CPU高騰インスタンス: 1台 (i-0e01c402f45ac5a41) • ネットワーク異常インスタンス: 2台 (i-0f3e532b5c871d715, i-05c5a21e8e931ebb9) • 正常稼働インスタンス: その他のインスタンス(もしあれば) 緊急対応が必要 現在、*i-0e01c402f45ac5a41* が最も深刻な状況にあります: • CPU使用率が 97.96% まで達している • この異常は 現在も継続中 • 即座の対応が必要な状態 EC2 CPU使用率高騰アラート 質問① 回答 GOOD
  5. 16 インスタンス別詳細分析 **1. インスタンス i-0e01c402f45ac5a41*:* 最も深刻な状況 • 発生時刻: 2025年8月31日 07:00:00

    UTC • 通常時CPU: 8.65% • 高騰時CPU: 91.51% ~ 97.96% • 最大値: 97.96% • 継続時間: 約 24分間 継続中 • 詳細グラフ: CPUUtilization **2. インスタンス i-0f3e532b5c871d715*:* 同時発生の高CPU使用率 • 発生時刻: 2025年8月31日 07:00:00 UTC • 通常時CPU: 15.77% • 高騰時CPU: 84.21% ~ 97.82% • 最大値: 97.82% • 継続時間: 約 24分間 継続中 • 詳細グラフ: CPUUtilization **3. インスタンス i-05c5a21e8e931ebb9*:* 同時発生の高CPU使用率 • 発生時刻: 2025年8月31日 07:00:00 UTC • 通常時CPU: 26.43% • 高騰時CPU: 73.58% ~ 97.86% • 最大値: 97.86% • 継続時間: 約 24分間 継続中 • 詳細グラフ: CPUUtilization EC2 CPU使用率高騰アラート 質問② 回答 GOOD
  6. 17 共通の特徴 • 発生時刻: 完全に同時 (2025年8月31日 07:00:00 UTC) • 継続時間:

    約24分間 すべて継続中 • CPU使用率: *すべて90%以上*に到達 • 最大値範囲: 97.82% ~ 97.96% 緊急度レベル 1. 最高緊急度: i-0e01c402f45ac5a41 (97.96%) 2. 高緊急度: i-0f3e532b5c871d715 (97.82%) 3. 高緊急度: i-05c5a21e8e931ebb9 (97.86%) 推定される原因 • 外部からの大量トラフィック • スケジュールされたバッチ処理 • DDoS攻撃 • アプリケーションの同期処理 • ロードバランサー経由の負荷分散 *即座の対応が必要な緊急事態*です。すべてのインスタンス が同時に高負荷状態にあり、サービス全体に影響を与えてい る可能性があります。 EC2 CPU使用率高騰アラート 質問② 回答 GOOD
  7. 21 アラーム状況 • アラーム名: demo-alb-alarm • 現在の状態: ALARM(アラート状態) 発生タイミング アラートは

    2024年8月25日 16:18:00頃から継続的に発生 しています。 詳細な原因分析 • 閾値超過: 過去5つのデータポイントすべてが閾値(1.0)以上となったため • 具体的なデータポイント: • 16:22:00 → 1.0 • 16:21:00 → 1.0 • 16:20:00 → 1.0 • 16:19:00 → 1.0 • 16:18:00 → 1.0 根本原因 UnHealthyHostCount(非正常ホスト数)メトリクスが継続的に1.0を示してお り、これは ALBのターゲットグループ内で1つのホストが非正常状態 であること を意味しています。 推奨される対応策 1. ターゲットグループの健全性を確認 2. 非正常なインスタンスの特定と原因調査 3. アプリケーションログの確認 4. ネットワーク接続性の検証 ALBヘルスチェックアラート 質問① 回答 GOOD 惜しい
  8. 23 現在の状態 • 登録されたターゲット数: 1 • 非正常なターゲット数: 1 • 正常なターゲット数:

    0 非正常なターゲットの詳細 • インスタンスID: i-05c5a21e8e931ebb9 • ポート: 80 • 現在の状態: Unhealthy(非正常) • 失敗理由: Target.Timeout(タイムアウト) • 詳細: Request timed out(リクエストがタイムアウト) 問題の原因として考えられる 要因 1. セキュリティグループ設定 - ALBからのトラフィックが許可されていな い 2. アプリケーション応答時間 - 5秒のタイムアウト内に応答していない 3. インスタンス状態 - インスタンスが停止しているか、アプリケーション が利用できない 4. ヘルスチェックパス - /primary/index.htmlにアクセスできない 推奨される対応 • インスタンス i-05c5a21e8e931ebb9 の状態とアプリケーションの動作 確認 • セキュリティグループの設定確認 • ヘルスチェックパスの存在確認 ALBヘルスチェックアラート 質問② 回答 GOOD
  9. 27 従来の方法:5-10分 1. コンソールログイン (30秒) 2. EC2画面移動 (20秒) 3. インスタンス選択

    (1分) 4. CloudWatch確認 (2分) 5. 状況整理 (3分) Q Developerを活用:2分 1. Slackを立ち上げる(10秒) 2. チャネルでプロンプト入力(1分) 3. 状況整理(30秒) 😅毎回リージョンを指定する必要があるのは  若干めんどくさい....