Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Amazon DevOps Guru のベースラインを整備して1ヶ月ほど運用してみた #jaw...
Search
MasahiroKawahara
June 09, 2025
Technology
3
270
Amazon DevOps Guru のベースラインを整備して1ヶ月ほど運用してみた #jawsug_asa / Amazon DevOps Guru trial
JAWS-UG朝会 #70 (
https://jawsug-asa.connpass.com/event/348650/
) の発表資料です
MasahiroKawahara
June 09, 2025
Tweet
Share
More Decks by MasahiroKawahara
See All by MasahiroKawahara
DuckDB MCPサーバーを使ってAWSコストを分析させてみた / AWS cost analysis with DuckDB MCP server
masahirokawahara
0
1.9k
セキュリティ系アップデート全体像と AWS Organizations 新ポリシー「宣言型ポリシー」を紹介 / reGrowth 2024 Security
masahirokawahara
0
880
わたしとトラックポイント / TrackPoint tips
masahirokawahara
1
440
AWS CLIとシェルスクリプト、いつ使う?活用できる場面とTips紹介 #devio2024 / AWS CLI and Shell Tips
masahirokawahara
0
1.3k
EC2の脆弱性対応で何が使える? Inspector や SSM あたりを整理する #nakanoshima_dev
masahirokawahara
2
2.2k
SSM Inventory を使って便利に EC2 棚卸し(ハマりどころを添えて)
masahirokawahara
2
1.2k
ここが嬉しいABAC ここが辛いよABAC #再解説+補足編
masahirokawahara
1
660
疲弊しない!AWSセキュリティ統制の考え方 #devio_osakaday1
masahirokawahara
6
8.5k
セキュリティ系アップデートの全体像とSecurity Hub深掘り #AWSreInvent #cmregrowth
masahirokawahara
0
1.9k
Other Decks in Technology
See All in Technology
rubygem開発で鍛える設計力
joker1007
2
190
ひとり情シスなCTOがLLMと始めるオペレーション最適化 / CTO's LLM-Powered Ops
yamitzky
0
420
SalesforceArchitectGroupOsaka#20_CNX'25_Report
atomica7sei
0
150
Javaで作る RAGを活用した Q&Aアプリケーション
recruitengineers
PRO
1
100
低レイヤを知りたいPHPerのためのCコンパイラ作成入門 完全版 / Building a C Compiler for PHPers Who Want to Dive into Low-Level Programming - Expanded
tomzoh
4
3.2k
Oracle Audit Vault and Database Firewall 20 概要
oracle4engineer
PRO
3
1.7k
BrainPadプログラミングコンテスト記念LT会2025_社内イベント&問題解説
brainpadpr
1
160
AIのAIによるAIのための出力評価と改善
chocoyama
2
540
AWS アーキテクチャ作図入門/aws-architecture-diagram-101
ma2shita
29
11k
TechLION vol.41~MySQLユーザ会のほうから来ました / techlion41_mysql
sakaik
0
180
MySQL5.6から8.4へ 戦いの記録
kyoshidaxx
1
200
GitHub Copilot の概要
tomokusaba
1
130
Featured
See All Featured
It's Worth the Effort
3n
185
28k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
2.8k
Writing Fast Ruby
sferik
628
61k
Why Our Code Smells
bkeepers
PRO
337
57k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.7k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
138
34k
Automating Front-end Workflow
addyosmani
1370
200k
How to Think Like a Performance Engineer
csswizardry
24
1.7k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
228
22k
Code Reviewing Like a Champion
maltzj
524
40k
Embracing the Ebb and Flow
colly
86
4.7k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
10
930
Transcript
Amazon DevOps Guru のベー スラインを整備して1 ヶ月ほ ど運用してみた 川原 征大 2025-06-10
1
Table of Contents イントロ DevOps Guru について DevOps Guru を導入してみた
DevOps Guru を少し運用してみて ( 時間あれば) 通知の仕組み おわりに 2
イントロ 3
自己紹介 Classmethod クラウド事業本部 コンサルティング部 https://dev.classmethod.jp/author/kawahara-masahiro/ 4
最近仕事でやっていること AWS マルチアカウント環境のセキュリティ可視化 コスト最適化いろいろ 好きなこと ツーリング、ゲーム、Emacs 、愛猫と戯れる 5
( 本題の前に) AWS 環境について 6
組織環境 AWS Organizations 環境 AWS アカウント数: 40 以上 複数の利用部門/ システムが存在
7
私の役割 CCoE の技術メンバー として活動 全AWS アカウントの統制( ベースライン) 各利用部門とのコミュニケーション 8
DevOps Guru について 9
DevOps Guru とは? AWS アプリケーションの運用問題を自動検出・予測するマネージド監視サ ービス 機械学習を使ってリソースのメトリクス/ ログを分析 異常なパフォーマンスや障害の兆候を インサイト
として自動生成 10
小ネタ: 昔の公式ドキュメント 機械翻訳 「DevOps アマゾンの達人」 画像引用: ※ Guru = 指導者
AWS 上のアプリの障害監視をAI に任せる(DevOps Guru + Chatbot のカスタム通知) - Zenn 11
インサイトの種類 事後的インサイト(reactive): 既に発生した問題を検出 予測的インサイト(proactive): 将来発生する可能性のある問題を予測 12
ほか補足 エージェント不要でワークロードに影響なし 分析した分の従量課金。気軽に始められる 多くのリソースタイプに対応(25 以上) 13
料金グループA: 約$2/month 14
料金グループB: 約$3/month 15
DevOps Guru を導入してみた 16
導入の目的 1. 信頼性向上 2. パフォーマンス効率向上 3. コスト最適化 RDS が総コストの相当な割合を占有 ボトルネックとなるクエリやDB
固有の問題を特定して、 パフォー マンス効率を改善できれば… → 結果的にコスト最適化に繋がるはず! 17
目標 各利用部門のAWS アカウントにて リソースに特定タグを付与するだけで、 DevOps Guru 分析をすぐに開始できる状態。 18
実装方法 CloudFormation StackSet として全アカウントに展開 AWSTemplateFormatVersion: "2010-09-09" Description: Enable DevOps Guru
baseline Resources: ### リソース収集の設定 CollectionByTagKey: Type: AWS::DevOpsGuru::ResourceCollection Properties: ResourceCollectionFilter: Tags: - AppBoundaryKey: devops-guru-monitoring TagValues: - default # 複数値指定可 ### ログ異常検知機能を有効化(追加コスト無し) EnableLogAnomalyDetection: Type: AWS::DevOpsGuru::LogAnomalyDetectionIntegration DependsOn: CollectionByTagKey 19
補足: 分析対象の登録方法 アカウント全体 サポートされる全てのAWS リソースを分析( コストに注意) CloudFormation スタック単位 特定のスタックに含まれるリソースを分析 タグベース(
★今回の方式) 特定タグベースで分析 20
やらかしポイント: ワイルドカードの罠 少し寄り道します。 21
最初のテンプレート(間違い) Q. このときの挙動はどうなる? .oO( 特定タグが付いているリソース " のみ" が分析される… ?) #
抜粋 CollectionByTagKey: Type: AWS::DevOpsGuru::ResourceCollection Properties: ResourceCollectionFilter: Tags: - AppBoundaryKey: devops-guru-monitoring TagValues: - "*" # ← ワイルドカード! 22
起きたこと A. 全リソーススキャン が発生! その日に気づいてロールバック。 全リソーススキャンが走った日の DevOps Guru 使用タイプ別コスト 23
教訓: タグ値は指定しよう ワイルドカードを設定すると… 1. アカウント内の全リソースをスキャン する ( ここ大事) 2. 指定タグがあれば、その値がアプリケーション境界としてグループ化
される な挙動になる。 24
DevOps Guru を少し運用してみて 25
トライアル 以下2 件、1~2 ヶ月 分析させてみた。 利用部門の Aurora MySQL CCoE 管理の
NAT ゲートウェイ 26
Aurora MySQL での検証 事前に Performance Insights を有効化 ※ タグを付与してもらって分析開始 ※
の前提条件。より高精度/ 詳細なインサイトを生成で きる DevOps Guru for RDS 27
→ 結果: インサイトは特に出なかった😢 ( いい解釈をすると、特に問題は無かった) 28
CCoE 管理 NAT ゲートウェイでの検証 前提: 各AWS アカウントのアウトバウンド通信を、CCoE 管理 NAT ゲートウ
ェイに集約している CCoE 管理NAT ゲートウェイを分析 29
→ 結果: 数件のインサイトが発生 30
NAT ゲートウェイのインサイトを深堀り 31
出てきたインサイト The number of idle connections to NAT Gateway nat-example
increased 32
DevOps Guru のマネコン画面 インサイトの概要 33
グラフ化された異常 34
集約されたメトリクス 35
関連イベントリスト、ほか 36
レコメンデーション 37
追加で確認したこと 「どこからどこへの通信」が局所的に発生したか、 DevOps Guru インサイ トだけでは分からなかった。 38
追加調査1: VPC Flow Logs の分析 Source/Destination のIP を特定する 39
追加調査2: DNS クエリログ の分析 Destination ドメインを特定する 40
最終的なアクション 事象をまとめて利用部門に連携 アプリログなどを見てもらうよう依頼 41
( 時間あれば) 通知の仕組み 42
モチベーション 所感: マネージドCloudWatch アラーム みたいで良い感じ → 高重要度のインサイトはやっぱり通知させたい 43
通知の仕組み構築のハマりポイント 前提: Organizations 連携でメンバーアカウントを委任管理者にできる 委任管理者内でインサイトを集約して確認可能 44
ただし委任管理者内の [ 設定 >SNS トピック] や EventBridge イベントには集 約されない 。
45
最終的に実装した通知アーキテクチャ EventBridge → Lambda → SNS → Q → Slack
46
通知サンプル ( 展望: Bedrock あたりを呼び出して、インサイトを要約させて通知したい) 47
思ったこと インサイトの通知テストがめっちゃ面倒! 機械学習による異常検知のため意図的な発生が難しい GuardDuty のようなサンプル生成 API が欲しい… ! 48
おわりに 49
まとめ DevOps Guru はAWS アプリケーションの運用問題を自動検出・予測するマネ ージド監視サービス 事後的インサイト、予測的インサイトがある 従量課金で気軽に始められる 全リソーススキャンには注意 使ってみた感想
関連するメトリクスやイベントを良い感じに並べてくれる 推奨事項も出してくれる → マネージドCloudWatch アラームみたいな感じで良さそう 50
参考情報 What is Amazon DevOps Guru? - Amazon DevOps Guru
Amazon DevOps Guru | Pricing AWS 上のアプリの障害監視をAI に任せる(DevOps Guru + Chatbot のカス タム通知) - Zenn CloudFormation を使って DevOps Guru ( タグで分析対象を指定) を有効 化する | DevelopersIO 51
聞いていただき、ありがとうございます! 52