Slide 1

Slide 1 text

話しかけるだけで AWS運用 〜 Q Developerで実現する対話型インフラ監視 〜 いそま クラウド事業本部運用イノベーション部

Slide 2

Slide 2 text

2 アジェンダ 1. 従来の運用監視の課題(主観) 2. Amazon Q Developer in chat applications で課題解決 3. 運用で活用 4. まとめ

Slide 3

Slide 3 text

3 🚨サーバのCPU使用率が100%になりました アラート発生!!

Slide 4

Slide 4 text

従来の対応フロー 4 1.  AWSコンソールにログイン 2.  EC2画面でインスタンス確認 3.  CloudWatchメトリクス確認 4.   一つずつ状況調査... 5.   原因を推測して対応 ❌ 時間がかかる ❌ 経験が必要

Slide 5

Slide 5 text

あったらいいな 5 CPU 使 用 率 が100%になっている サーバーについて調査して! CPU使用率が100%となっている サーバーを調査します。 〜調査結果〜  ----------

Slide 6

Slide 6 text

Amazon Q Developer in chat applications (旧称: AWS Chatbot)

Slide 7

Slide 7 text

7 チャットアプリケーションで Amazon Q Developerと対話

Slide 8

Slide 8 text

8 AWSリソース情報を取得

Slide 9

Slide 9 text

9 ✅ AWSコンソールにログイン不要 ✅ 早急にリソースの情報が欲しい時に便利

Slide 10

Slide 10 text

運用で活用する

Slide 11

Slide 11 text

パターン①:EC2 CPU使用率高騰アラート パターン②:ALBヘルスチェックアラート 11 ALB EC2 CloudWatch CloudWatch Alarm SNS Amazon Q Developer in chat applications Slack 🔽IAMポリシー ・AmazonQDeveloperAccess ・AmazonEC2ReadOnlyAccess ・ElasticLoadBalancingReadOnly ・CloudWatchReadOnlyAccess IAMロール

Slide 12

Slide 12 text

パターン①:EC2 CPU使用率高騰アラート 12

Slide 13

Slide 13 text

13 CPU使用率が高騰している EC2インスタンスを教えてくだ さい。 質問①

Slide 14

Slide 14 text

14 対象インスタンス 1. i-0f3e532b5c871d715 - ネットワーク異常 2. i-0e01c402f45ac5a41 - *CPU使用率97.96%まで高騰*(継続 中) 3. i-05c5a21e8e931ebb9 - ネットワーク異常 現在の状況まとめ • CPU高騰インスタンス: 1台 (i-0e01c402f45ac5a41) • ネットワーク異常インスタンス: 2台 (i-0f3e532b5c871d715, i-05c5a21e8e931ebb9) • 正常稼働インスタンス: その他のインスタンス(もしあれば) 緊急対応が必要 現在、*i-0e01c402f45ac5a41* が最も深刻な状況にあります: • CPU使用率が 97.96% まで達している • この異常は 現在も継続中 • 即座の対応が必要な状態 EC2 CPU使用率高騰アラート 質問① 回答 GOOD

Slide 15

Slide 15 text

15 それぞれのインスタンスで いつ頃からCPUが高騰していて、 どれだけ継続しているか 教えてください。 質問②

Slide 16

Slide 16 text

16 インスタンス別詳細分析 **1. インスタンス i-0e01c402f45ac5a41*:* 最も深刻な状況 • 発生時刻: 2025年8月31日 07:00:00 UTC • 通常時CPU: 8.65% • 高騰時CPU: 91.51% ~ 97.96% • 最大値: 97.96% • 継続時間: 約 24分間 継続中 • 詳細グラフ: CPUUtilization **2. インスタンス i-0f3e532b5c871d715*:* 同時発生の高CPU使用率 • 発生時刻: 2025年8月31日 07:00:00 UTC • 通常時CPU: 15.77% • 高騰時CPU: 84.21% ~ 97.82% • 最大値: 97.82% • 継続時間: 約 24分間 継続中 • 詳細グラフ: CPUUtilization **3. インスタンス i-05c5a21e8e931ebb9*:* 同時発生の高CPU使用率 • 発生時刻: 2025年8月31日 07:00:00 UTC • 通常時CPU: 26.43% • 高騰時CPU: 73.58% ~ 97.86% • 最大値: 97.86% • 継続時間: 約 24分間 継続中 • 詳細グラフ: CPUUtilization EC2 CPU使用率高騰アラート 質問② 回答 GOOD

Slide 17

Slide 17 text

17 共通の特徴 • 発生時刻: 完全に同時 (2025年8月31日 07:00:00 UTC) • 継続時間: 約24分間 すべて継続中 • CPU使用率: *すべて90%以上*に到達 • 最大値範囲: 97.82% ~ 97.96% 緊急度レベル 1. 最高緊急度: i-0e01c402f45ac5a41 (97.96%) 2. 高緊急度: i-0f3e532b5c871d715 (97.82%) 3. 高緊急度: i-05c5a21e8e931ebb9 (97.86%) 推定される原因 • 外部からの大量トラフィック • スケジュールされたバッチ処理 • DDoS攻撃 • アプリケーションの同期処理 • ロードバランサー経由の負荷分散 *即座の対応が必要な緊急事態*です。すべてのインスタンス が同時に高負荷状態にあり、サービス全体に影響を与えてい る可能性があります。 EC2 CPU使用率高騰アラート 質問② 回答 GOOD

Slide 18

Slide 18 text

18 パターン①:EC2 CPU使用率高騰アラートの調査結果 2025年8月25日 16:00頃から約24分間、以下EC2インスタンスのCPU使 用率が高負荷の状態となっています。 ・i-05c5a21e8e931ebb9(demo-ec2) → 最大97.86%まで上昇 ・i-0e01c402f45ac5a41(demo-ec2-1) → 最大97.96%まで上昇 ・i-0f3e532b5c871d715(demo-ec2-2) → 最大97.82%まで上昇 今からEC2インスタンスの状態を調査し、原因を特定します。 報告例

Slide 19

Slide 19 text

19 パターン②:ALBヘルスチェックアラート

Slide 20

Slide 20 text

20 ALBヘルスチェックアラートは いつ頃から、何が原因で上がっ ていますか? 質問①

Slide 21

Slide 21 text

21 アラーム状況 • アラーム名: demo-alb-alarm • 現在の状態: ALARM(アラート状態) 発生タイミング アラートは 2024年8月25日 16:18:00頃から継続的に発生 しています。 詳細な原因分析 • 閾値超過: 過去5つのデータポイントすべてが閾値(1.0)以上となったため • 具体的なデータポイント: • 16:22:00 → 1.0 • 16:21:00 → 1.0 • 16:20:00 → 1.0 • 16:19:00 → 1.0 • 16:18:00 → 1.0 根本原因 UnHealthyHostCount(非正常ホスト数)メトリクスが継続的に1.0を示してお り、これは ALBのターゲットグループ内で1つのホストが非正常状態 であること を意味しています。 推奨される対応策 1. ターゲットグループの健全性を確認 2. 非正常なインスタンスの特定と原因調査 3. アプリケーションログの確認 4. ネットワーク接続性の検証 ALBヘルスチェックアラート 質問① 回答 GOOD 惜しい

Slide 22

Slide 22 text

22 ALBのターゲットグループの 状態を確認し、教えてください。 質問②

Slide 23

Slide 23 text

23 現在の状態 • 登録されたターゲット数: 1 • 非正常なターゲット数: 1 • 正常なターゲット数: 0 非正常なターゲットの詳細 • インスタンスID: i-05c5a21e8e931ebb9 • ポート: 80 • 現在の状態: Unhealthy(非正常) • 失敗理由: Target.Timeout(タイムアウト) • 詳細: Request timed out(リクエストがタイムアウト) 問題の原因として考えられる 要因 1. セキュリティグループ設定 - ALBからのトラフィックが許可されていな い 2. アプリケーション応答時間 - 5秒のタイムアウト内に応答していない 3. インスタンス状態 - インスタンスが停止しているか、アプリケーション が利用できない 4. ヘルスチェックパス - /primary/index.htmlにアクセスできない 推奨される対応 • インスタンス i-05c5a21e8e931ebb9 の状態とアプリケーションの動作 確認 • セキュリティグループの設定確認 • ヘルスチェックパスの存在確認 ALBヘルスチェックアラート 質問② 回答 GOOD

Slide 24

Slide 24 text

24 GOOD ・状況調査素晴らしい(アラーム継続時間の調査など) ・考えられる原因と対応の提示 ・CloudWatchメトリクスのリンクを貼り付けてくれる 惜しい ・プロンプトによっては3ラリー程必要 ・根本的な原因の推測は難しそう

Slide 25

Slide 25 text

25 プロンプトの工夫 欲しい情報をできるだけ詳しく記載する  →事前に質問テンプレートを作成しておくと便利 ☝Point

Slide 26

Slide 26 text

結果

Slide 27

Slide 27 text

27 従来の方法:5-10分 1. コンソールログイン (30秒) 2. EC2画面移動 (20秒) 3. インスタンス選択 (1分) 4. CloudWatch確認 (2分) 5. 状況整理 (3分) Q Developerを活用:2分 1. Slackを立ち上げる(10秒) 2. チャネルでプロンプト入力(1分) 3. 状況整理(30秒) 😅毎回リージョンを指定する必要があるのは  若干めんどくさい....

Slide 28

Slide 28 text

おまけ

Slide 29

Slide 29 text

Amazon Q Business

Slide 30

Slide 30 text

あったらいいな 30 アラートAの 対 応 ドキュメントを 教えて! アラートAの対応ドキュメントは 〇〇です。

Slide 31

Slide 31 text

31 Amazon Q Business Doc ume nt アラート対応ドキュメントを データソースの中から取得 調査(Q Developer) ➡ アラート対応方法確認(Q Business)

Slide 32

Slide 32 text

Amazon Q Businessは東京リージョンで利用できない 32 2025年9月時点で、東京リージョンではまだ利用できませんでした。 今後のアップデートに期待です。

Slide 33

Slide 33 text

まとめ

Slide 34

Slide 34 text

34 自然言語でアラート調査 コンソール操作より圧倒的に早い 初学者でもプロンプトで運用支援 「聞けば答えてくれる」環境

Slide 35

Slide 35 text

運用が対話になる時代へ