Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Amazon DevOps Guru のベースラインを整備して1ヶ月ほど運用してみた #jaw...
Search
MasahiroKawahara
June 09, 2025
Technology
3
340
Amazon DevOps Guru のベースラインを整備して1ヶ月ほど運用してみた #jawsug_asa / Amazon DevOps Guru trial
JAWS-UG朝会 #70 (
https://jawsug-asa.connpass.com/event/348650/
) の発表資料です
MasahiroKawahara
June 09, 2025
Tweet
Share
More Decks by MasahiroKawahara
See All by MasahiroKawahara
生まれ変わった AWS Security Hub (Preview) を紹介 #reInforce_osaka / reInforce New Security Hub
masahirokawahara
0
520
DuckDB MCPサーバーを使ってAWSコストを分析させてみた / AWS cost analysis with DuckDB MCP server
masahirokawahara
0
2k
セキュリティ系アップデート全体像と AWS Organizations 新ポリシー「宣言型ポリシー」を紹介 / reGrowth 2024 Security
masahirokawahara
0
920
わたしとトラックポイント / TrackPoint tips
masahirokawahara
1
460
AWS CLIとシェルスクリプト、いつ使う?活用できる場面とTips紹介 #devio2024 / AWS CLI and Shell Tips
masahirokawahara
0
1.4k
EC2の脆弱性対応で何が使える? Inspector や SSM あたりを整理する #nakanoshima_dev
masahirokawahara
2
2.2k
SSM Inventory を使って便利に EC2 棚卸し(ハマりどころを添えて)
masahirokawahara
2
1.3k
ここが嬉しいABAC ここが辛いよABAC #再解説+補足編
masahirokawahara
1
670
疲弊しない!AWSセキュリティ統制の考え方 #devio_osakaday1
masahirokawahara
6
8.5k
Other Decks in Technology
See All in Technology
振り返りTransit Gateway ~VPCをいい感じでつなげるために~
masakiokuda
4
220
Introduction to Sansan, inc / Sansan Global Development Center, Inc.
sansan33
PRO
0
2.7k
サービスを止めるな! DDoS攻撃へのスマートな備えと最前線の事例
coconala_engineer
1
200
SREのためのeBPF活用ステップアップガイド
egmc
2
1.3k
AI Ready API ─ AI時代に求められるAPI設計とは?/ AI-Ready API - Designing MCP and APIs in the AI Era
yokawasa
16
4.7k
MCP とマネージド PaaS で実現する大規模 AI アプリケーションの高速開発
nahokoxxx
1
670
アクセスピークを制するオートスケール再設計: 障害を乗り越えKEDAで実現したリソース管理の最適化
myamashii
1
740
ClaudeCodeにキレない技術
gtnao
1
900
研究開発部メンバーの働き⽅ / Sansan R&D Profile
sansan33
PRO
3
18k
「Chatwork」のEKS環境を支えるhelmfileを使用したマニフェスト管理術
hanayo04
1
410
(HackFes)米国国防総省のDevSecOpsライフサイクルをAWSのセキュリティサービスとOSSで実現
syoshie
5
530
SRE with AI:実践から学ぶ、運用課題解決と未来への展望
yoshiiryo1
1
450
Featured
See All Featured
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.4k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
26k
The Language of Interfaces
destraynor
158
25k
Reflections from 52 weeks, 52 projects
jeffersonlam
351
21k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
8
840
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
Scaling GitHub
holman
460
140k
Faster Mobile Websites
deanohume
308
31k
Bash Introduction
62gerente
613
210k
A better future with KSS
kneath
238
17k
4 Signs Your Business is Dying
shpigford
184
22k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
8
350
Transcript
Amazon DevOps Guru のベー スラインを整備して1 ヶ月ほ ど運用してみた 川原 征大 2025-06-10
1
Table of Contents イントロ DevOps Guru について DevOps Guru を導入してみた
DevOps Guru を少し運用してみて ( 時間あれば) 通知の仕組み おわりに 2
イントロ 3
自己紹介 Classmethod クラウド事業本部 コンサルティング部 https://dev.classmethod.jp/author/kawahara-masahiro/ 4
最近仕事でやっていること AWS マルチアカウント環境のセキュリティ可視化 コスト最適化いろいろ 好きなこと ツーリング、ゲーム、Emacs 、愛猫と戯れる 5
( 本題の前に) AWS 環境について 6
組織環境 AWS Organizations 環境 AWS アカウント数: 40 以上 複数の利用部門/ システムが存在
7
私の役割 CCoE の技術メンバー として活動 全AWS アカウントの統制( ベースライン) 各利用部門とのコミュニケーション 8
DevOps Guru について 9
DevOps Guru とは? AWS アプリケーションの運用問題を自動検出・予測するマネージド監視サ ービス 機械学習を使ってリソースのメトリクス/ ログを分析 異常なパフォーマンスや障害の兆候を インサイト
として自動生成 10
小ネタ: 昔の公式ドキュメント 機械翻訳 「DevOps アマゾンの達人」 画像引用: ※ Guru = 指導者
AWS 上のアプリの障害監視をAI に任せる(DevOps Guru + Chatbot のカスタム通知) - Zenn 11
インサイトの種類 事後的インサイト(reactive): 既に発生した問題を検出 予測的インサイト(proactive): 将来発生する可能性のある問題を予測 12
ほか補足 エージェント不要でワークロードに影響なし 分析した分の従量課金。気軽に始められる 多くのリソースタイプに対応(25 以上) 13
料金グループA: 約$2/month 14
料金グループB: 約$3/month 15
DevOps Guru を導入してみた 16
導入の目的 1. 信頼性向上 2. パフォーマンス効率向上 3. コスト最適化 RDS が総コストの相当な割合を占有 ボトルネックとなるクエリやDB
固有の問題を特定して、 パフォー マンス効率を改善できれば… → 結果的にコスト最適化に繋がるはず! 17
目標 各利用部門のAWS アカウントにて リソースに特定タグを付与するだけで、 DevOps Guru 分析をすぐに開始できる状態。 18
実装方法 CloudFormation StackSet として全アカウントに展開 AWSTemplateFormatVersion: "2010-09-09" Description: Enable DevOps Guru
baseline Resources: ### リソース収集の設定 CollectionByTagKey: Type: AWS::DevOpsGuru::ResourceCollection Properties: ResourceCollectionFilter: Tags: - AppBoundaryKey: devops-guru-monitoring TagValues: - default # 複数値指定可 ### ログ異常検知機能を有効化(追加コスト無し) EnableLogAnomalyDetection: Type: AWS::DevOpsGuru::LogAnomalyDetectionIntegration DependsOn: CollectionByTagKey 19
補足: 分析対象の登録方法 アカウント全体 サポートされる全てのAWS リソースを分析( コストに注意) CloudFormation スタック単位 特定のスタックに含まれるリソースを分析 タグベース(
★今回の方式) 特定タグベースで分析 20
やらかしポイント: ワイルドカードの罠 少し寄り道します。 21
最初のテンプレート(間違い) Q. このときの挙動はどうなる? .oO( 特定タグが付いているリソース " のみ" が分析される… ?) #
抜粋 CollectionByTagKey: Type: AWS::DevOpsGuru::ResourceCollection Properties: ResourceCollectionFilter: Tags: - AppBoundaryKey: devops-guru-monitoring TagValues: - "*" # ← ワイルドカード! 22
起きたこと A. 全リソーススキャン が発生! その日に気づいてロールバック。 全リソーススキャンが走った日の DevOps Guru 使用タイプ別コスト 23
教訓: タグ値は指定しよう ワイルドカードを設定すると… 1. アカウント内の全リソースをスキャン する ( ここ大事) 2. 指定タグがあれば、その値がアプリケーション境界としてグループ化
される な挙動になる。 24
DevOps Guru を少し運用してみて 25
トライアル 以下2 件、1~2 ヶ月 分析させてみた。 利用部門の Aurora MySQL CCoE 管理の
NAT ゲートウェイ 26
Aurora MySQL での検証 事前に Performance Insights を有効化 ※ タグを付与してもらって分析開始 ※
の前提条件。より高精度/ 詳細なインサイトを生成で きる DevOps Guru for RDS 27
→ 結果: インサイトは特に出なかった😢 ( いい解釈をすると、特に問題は無かった) 28
CCoE 管理 NAT ゲートウェイでの検証 前提: 各AWS アカウントのアウトバウンド通信を、CCoE 管理 NAT ゲートウ
ェイに集約している CCoE 管理NAT ゲートウェイを分析 29
→ 結果: 数件のインサイトが発生 30
NAT ゲートウェイのインサイトを深堀り 31
出てきたインサイト The number of idle connections to NAT Gateway nat-example
increased 32
DevOps Guru のマネコン画面 インサイトの概要 33
グラフ化された異常 34
集約されたメトリクス 35
関連イベントリスト、ほか 36
レコメンデーション 37
追加で確認したこと 「どこからどこへの通信」が局所的に発生したか、 DevOps Guru インサイ トだけでは分からなかった。 38
追加調査1: VPC Flow Logs の分析 Source/Destination のIP を特定する 39
追加調査2: DNS クエリログ の分析 Destination ドメインを特定する 40
最終的なアクション 事象をまとめて利用部門に連携 アプリログなどを見てもらうよう依頼 41
( 時間あれば) 通知の仕組み 42
モチベーション 所感: マネージドCloudWatch アラーム みたいで良い感じ → 高重要度のインサイトはやっぱり通知させたい 43
通知の仕組み構築のハマりポイント 前提: Organizations 連携でメンバーアカウントを委任管理者にできる 委任管理者内でインサイトを集約して確認可能 44
ただし委任管理者内の [ 設定 >SNS トピック] や EventBridge イベントには集 約されない 。
45
最終的に実装した通知アーキテクチャ EventBridge → Lambda → SNS → Q → Slack
46
通知サンプル ( 展望: Bedrock あたりを呼び出して、インサイトを要約させて通知したい) 47
思ったこと インサイトの通知テストがめっちゃ面倒! 機械学習による異常検知のため意図的な発生が難しい GuardDuty のようなサンプル生成 API が欲しい… ! 48
おわりに 49
まとめ DevOps Guru はAWS アプリケーションの運用問題を自動検出・予測するマネ ージド監視サービス 事後的インサイト、予測的インサイトがある 従量課金で気軽に始められる 全リソーススキャンには注意 使ってみた感想
関連するメトリクスやイベントを良い感じに並べてくれる 推奨事項も出してくれる → マネージドCloudWatch アラームみたいな感じで良さそう 50
参考情報 What is Amazon DevOps Guru? - Amazon DevOps Guru
Amazon DevOps Guru | Pricing AWS 上のアプリの障害監視をAI に任せる(DevOps Guru + Chatbot のカス タム通知) - Zenn CloudFormation を使って DevOps Guru ( タグで分析対象を指定) を有効 化する | DevelopersIO 51
聞いていただき、ありがとうございます! 52