Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Amazon DevOps Guru のベースラインを整備して1ヶ月ほど運用してみた #jaw...
Search
MasahiroKawahara
June 09, 2025
Technology
3
380
Amazon DevOps Guru のベースラインを整備して1ヶ月ほど運用してみた #jawsug_asa / Amazon DevOps Guru trial
JAWS-UG朝会 #70 (
https://jawsug-asa.connpass.com/event/348650/
) の発表資料です
MasahiroKawahara
June 09, 2025
Tweet
Share
More Decks by MasahiroKawahara
See All by MasahiroKawahara
生まれ変わった AWS Security Hub (Preview) を紹介 #reInforce_osaka / reInforce New Security Hub
masahirokawahara
0
730
DuckDB MCPサーバーを使ってAWSコストを分析させてみた / AWS cost analysis with DuckDB MCP server
masahirokawahara
0
2.2k
セキュリティ系アップデート全体像と AWS Organizations 新ポリシー「宣言型ポリシー」を紹介 / reGrowth 2024 Security
masahirokawahara
0
970
わたしとトラックポイント / TrackPoint tips
masahirokawahara
1
500
AWS CLIとシェルスクリプト、いつ使う?活用できる場面とTips紹介 #devio2024 / AWS CLI and Shell Tips
masahirokawahara
0
1.4k
EC2の脆弱性対応で何が使える? Inspector や SSM あたりを整理する #nakanoshima_dev
masahirokawahara
2
2.3k
SSM Inventory を使って便利に EC2 棚卸し(ハマりどころを添えて)
masahirokawahara
2
1.3k
ここが嬉しいABAC ここが辛いよABAC #再解説+補足編
masahirokawahara
1
700
疲弊しない!AWSセキュリティ統制の考え方 #devio_osakaday1
masahirokawahara
6
8.6k
Other Decks in Technology
See All in Technology
Preferred Networks (PFN) とLLM Post-Training チームの紹介 / 第4回 関東Kaggler会 スポンサーセッション
pfn
PRO
1
260
絶対に失敗できないキャンペーンページの高速かつ安全な開発、WINTICKET × microCMS の開発事例
microcms
0
170
マイクロモビリティシェアサービスを支える プラットフォームアーキテクチャ
grimoh
1
260
認知戦の理解と、市民としての対抗策
hogehuga
0
390
制約理論(ToC)入門
recruitengineers
PRO
7
2.7k
[CVPR2025論文読み会] Linguistics-aware Masked Image Modelingfor Self-supervised Scene Text Recognition
s_aiueo32
0
220
AIとTDDによるNext.js「隙間ツール」開発の実践
makotot
6
750
Backboneとしてのtimm2025
yu4u
4
1.7k
Yahoo!広告ビジネス基盤におけるバックエンド開発
lycorptech_jp
PRO
1
290
どこで動かすか、誰が動かすか 〜 kintoneのインフラ基盤刷新と運用体制のシフト 〜
ueokande
0
200
知られざるprops命名の慣習 アクション編
uhyo
11
2.7k
株式会社ARAV 採用案内
maqui
0
380
Featured
See All Featured
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
44
2.5k
Designing for Performance
lara
610
69k
[RailsConf 2023] Rails as a piece of cake
palkan
56
5.8k
VelocityConf: Rendering Performance Case Studies
addyosmani
332
24k
Making Projects Easy
brettharned
117
6.3k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.5k
Building Adaptive Systems
keathley
43
2.7k
Into the Great Unknown - MozCon
thekraken
40
2k
Why Our Code Smells
bkeepers
PRO
338
57k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.8k
Stop Working from a Prison Cell
hatefulcrawdad
271
21k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
9
780
Transcript
Amazon DevOps Guru のベー スラインを整備して1 ヶ月ほ ど運用してみた 川原 征大 2025-06-10
1
Table of Contents イントロ DevOps Guru について DevOps Guru を導入してみた
DevOps Guru を少し運用してみて ( 時間あれば) 通知の仕組み おわりに 2
イントロ 3
自己紹介 Classmethod クラウド事業本部 コンサルティング部 https://dev.classmethod.jp/author/kawahara-masahiro/ 4
最近仕事でやっていること AWS マルチアカウント環境のセキュリティ可視化 コスト最適化いろいろ 好きなこと ツーリング、ゲーム、Emacs 、愛猫と戯れる 5
( 本題の前に) AWS 環境について 6
組織環境 AWS Organizations 環境 AWS アカウント数: 40 以上 複数の利用部門/ システムが存在
7
私の役割 CCoE の技術メンバー として活動 全AWS アカウントの統制( ベースライン) 各利用部門とのコミュニケーション 8
DevOps Guru について 9
DevOps Guru とは? AWS アプリケーションの運用問題を自動検出・予測するマネージド監視サ ービス 機械学習を使ってリソースのメトリクス/ ログを分析 異常なパフォーマンスや障害の兆候を インサイト
として自動生成 10
小ネタ: 昔の公式ドキュメント 機械翻訳 「DevOps アマゾンの達人」 画像引用: ※ Guru = 指導者
AWS 上のアプリの障害監視をAI に任せる(DevOps Guru + Chatbot のカスタム通知) - Zenn 11
インサイトの種類 事後的インサイト(reactive): 既に発生した問題を検出 予測的インサイト(proactive): 将来発生する可能性のある問題を予測 12
ほか補足 エージェント不要でワークロードに影響なし 分析した分の従量課金。気軽に始められる 多くのリソースタイプに対応(25 以上) 13
料金グループA: 約$2/month 14
料金グループB: 約$3/month 15
DevOps Guru を導入してみた 16
導入の目的 1. 信頼性向上 2. パフォーマンス効率向上 3. コスト最適化 RDS が総コストの相当な割合を占有 ボトルネックとなるクエリやDB
固有の問題を特定して、 パフォー マンス効率を改善できれば… → 結果的にコスト最適化に繋がるはず! 17
目標 各利用部門のAWS アカウントにて リソースに特定タグを付与するだけで、 DevOps Guru 分析をすぐに開始できる状態。 18
実装方法 CloudFormation StackSet として全アカウントに展開 AWSTemplateFormatVersion: "2010-09-09" Description: Enable DevOps Guru
baseline Resources: ### リソース収集の設定 CollectionByTagKey: Type: AWS::DevOpsGuru::ResourceCollection Properties: ResourceCollectionFilter: Tags: - AppBoundaryKey: devops-guru-monitoring TagValues: - default # 複数値指定可 ### ログ異常検知機能を有効化(追加コスト無し) EnableLogAnomalyDetection: Type: AWS::DevOpsGuru::LogAnomalyDetectionIntegration DependsOn: CollectionByTagKey 19
補足: 分析対象の登録方法 アカウント全体 サポートされる全てのAWS リソースを分析( コストに注意) CloudFormation スタック単位 特定のスタックに含まれるリソースを分析 タグベース(
★今回の方式) 特定タグベースで分析 20
やらかしポイント: ワイルドカードの罠 少し寄り道します。 21
最初のテンプレート(間違い) Q. このときの挙動はどうなる? .oO( 特定タグが付いているリソース " のみ" が分析される… ?) #
抜粋 CollectionByTagKey: Type: AWS::DevOpsGuru::ResourceCollection Properties: ResourceCollectionFilter: Tags: - AppBoundaryKey: devops-guru-monitoring TagValues: - "*" # ← ワイルドカード! 22
起きたこと A. 全リソーススキャン が発生! その日に気づいてロールバック。 全リソーススキャンが走った日の DevOps Guru 使用タイプ別コスト 23
教訓: タグ値は指定しよう ワイルドカードを設定すると… 1. アカウント内の全リソースをスキャン する ( ここ大事) 2. 指定タグがあれば、その値がアプリケーション境界としてグループ化
される な挙動になる。 24
DevOps Guru を少し運用してみて 25
トライアル 以下2 件、1~2 ヶ月 分析させてみた。 利用部門の Aurora MySQL CCoE 管理の
NAT ゲートウェイ 26
Aurora MySQL での検証 事前に Performance Insights を有効化 ※ タグを付与してもらって分析開始 ※
の前提条件。より高精度/ 詳細なインサイトを生成で きる DevOps Guru for RDS 27
→ 結果: インサイトは特に出なかった😢 ( いい解釈をすると、特に問題は無かった) 28
CCoE 管理 NAT ゲートウェイでの検証 前提: 各AWS アカウントのアウトバウンド通信を、CCoE 管理 NAT ゲートウ
ェイに集約している CCoE 管理NAT ゲートウェイを分析 29
→ 結果: 数件のインサイトが発生 30
NAT ゲートウェイのインサイトを深堀り 31
出てきたインサイト The number of idle connections to NAT Gateway nat-example
increased 32
DevOps Guru のマネコン画面 インサイトの概要 33
グラフ化された異常 34
集約されたメトリクス 35
関連イベントリスト、ほか 36
レコメンデーション 37
追加で確認したこと 「どこからどこへの通信」が局所的に発生したか、 DevOps Guru インサイ トだけでは分からなかった。 38
追加調査1: VPC Flow Logs の分析 Source/Destination のIP を特定する 39
追加調査2: DNS クエリログ の分析 Destination ドメインを特定する 40
最終的なアクション 事象をまとめて利用部門に連携 アプリログなどを見てもらうよう依頼 41
( 時間あれば) 通知の仕組み 42
モチベーション 所感: マネージドCloudWatch アラーム みたいで良い感じ → 高重要度のインサイトはやっぱり通知させたい 43
通知の仕組み構築のハマりポイント 前提: Organizations 連携でメンバーアカウントを委任管理者にできる 委任管理者内でインサイトを集約して確認可能 44
ただし委任管理者内の [ 設定 >SNS トピック] や EventBridge イベントには集 約されない 。
45
最終的に実装した通知アーキテクチャ EventBridge → Lambda → SNS → Q → Slack
46
通知サンプル ( 展望: Bedrock あたりを呼び出して、インサイトを要約させて通知したい) 47
思ったこと インサイトの通知テストがめっちゃ面倒! 機械学習による異常検知のため意図的な発生が難しい GuardDuty のようなサンプル生成 API が欲しい… ! 48
おわりに 49
まとめ DevOps Guru はAWS アプリケーションの運用問題を自動検出・予測するマネ ージド監視サービス 事後的インサイト、予測的インサイトがある 従量課金で気軽に始められる 全リソーススキャンには注意 使ってみた感想
関連するメトリクスやイベントを良い感じに並べてくれる 推奨事項も出してくれる → マネージドCloudWatch アラームみたいな感じで良さそう 50
参考情報 What is Amazon DevOps Guru? - Amazon DevOps Guru
Amazon DevOps Guru | Pricing AWS 上のアプリの障害監視をAI に任せる(DevOps Guru + Chatbot のカス タム通知) - Zenn CloudFormation を使って DevOps Guru ( タグで分析対象を指定) を有効 化する | DevelopersIO 51
聞いていただき、ありがとうございます! 52