Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Amazon CloudWatchでSLOを監視してみた CODT 2024 クロージングイベント版
Search
iwamot
September 06, 2024
Technology
0
61
Amazon CloudWatchでSLOを監視してみた CODT 2024 クロージングイベント版
2024-09-06
Cloud Operator Days Tokyo 2024
https://cloudopsdays.com/closing/
iwamot
September 06, 2024
Tweet
Share
More Decks by iwamot
See All by iwamot
RAGもファインチューニングも使わない 素朴なAIチャットボットを職場に導入した結果
iwamot
0
63
Cost-Effective SLO Error Budget Monitoring with Athena and CloudWatch
iwamot
0
740
Amazon CloudWatchでSLOを監視してみた
iwamot
0
27
AWS Protonの概要
iwamot
0
97
ENECHANGEが実現した管理者の工数負担を削減しながらもAWSセキュリティを強化した方法とは
iwamot
0
130
Web APIのAWS Lambda移行で工夫したこと
iwamot
4
3.2k
ECS on FargateへのSeekable OCI導入レポート
iwamot
0
490
サービスクォータ、ちゃんと監視してますか?
iwamot
0
1.1k
AWS Well-Architected Toolで信頼性をレビューした結果
iwamot
0
490
Other Decks in Technology
See All in Technology
AWS SAW を広めたい @四国クラウドお遍路
kazzpapa3
0
230
Estrategias de escalabilidade para projetos web
jessilyneh
2
240
四国クラウドお遍路 2024 in 高知 オープニング
yukataoka
0
200
Jetpack Compose Modifier 徹底解説 / Jetpack Compose Modifier
wiroha
0
160
Analytics-Backed App Widget Development - Served with Jetpack Glance
miyabigouji
0
390
Oracle Base Database Service:サービス概要のご紹介
oracle4engineer
PRO
0
13k
とあるOSSを継続可能にするための取り組みについて / OSS Refactoring Process
bun913
1
120
Google CloudのLLM活用の選択肢を広げるVertex AIのパートナーモデル
nayuts
0
120
AI活用したくてもできなかった不動産SaaSの今とこれから
nealle
0
320
The XZ Backdoor Story
fr0gger
0
3.6k
PDF Viewer作成の今までとこれから
hunachi
0
290
社内の学びの場・コミュニティ形成とエンジニア同士のリレーションシップ構築/devreljapan2024
nishiuma
3
270
Featured
See All Featured
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
26
2k
Six Lessons from altMBA
skipperchong
26
3.3k
Large-scale JavaScript Application Architecture
addyosmani
508
110k
How STYLIGHT went responsive
nonsquared
93
5.1k
Rails Girls Zürich Keynote
gr2m
93
13k
Side Projects
sachag
451
42k
The Invisible Side of Design
smashingmag
295
50k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.2k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
190
16k
Web Components: a chance to create the future
zenorocha
308
42k
Git: the NoSQL Database
bkeepers
PRO
425
64k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
663
120k
Transcript
Amazon CloudWatchでSLOを監視してみた CODT 2024 クロージングイベント版 2024-09-06 Cloud Operator Days Tokyo
2024 https://cloudopsdays.com/closing/ ENECHANGE株式会社 岩本隆史
岩本 隆史 / Takashi Iwamoto 現職:ENECHANGE株式会社 VPoT 前職:AWS Japan クラウドサポートアソシエイト
AWS Community Builder (Cloud Operations) https://x.com/iwamot
セッション動画 https://event2024.cloudopsdays.com/2024/07/06/10/ 3/18
Amazon CloudWatchでSLOを監視してみた 1. 複数ウィンドウ、複数バーンレートの監視が大前提 2. ENECHANGEではCloudWatchで監視中 3. 「複合アラーム」と「カスタムメトリクス」の活用が肝 4. コストは月20ドルほど
https://speakerdeck.com/iwamot/amazon-cloudwatch-slo-monitoring?slide=3 4/18
Q. なぜSLOの監視を始めたのか? 5/18
A. 「オオカミ少年アラート」を減らすため 以前は、CPUやメモリの使用率といったリソースのメトリクスを直接的に監視し ており、サービスが問題なく提供できていてもアラートが飛ぶ状況でした。いわ ゆる「オオカミ少年アラート」の多い状況です。 https://findy-tools.io/products/amazon-cloudwatch/36/197 6/18
指針:「原因」より「症状」にアラートを クラウドを使うにあたって、うまくアラートを設定するには SLI/SLO をきちんと 定義し、それに応じたアラートの度合いを決めるのがよいです。また、SLO の対 象となる指標としては、原因じゃなくて症状、つまりユーザへの具体的な影響を 測れるものが良いです。そして、ある程度のエラーを許容しつつユーザへの影響 がでないようなシステムの作りを目指しましょう。 https://medium.com/google-cloud-jp/alerting-in-cloud-deb0aa35ec16
7/18
成果:可用性やレイテンシの悪化に気づけるように オオカミ少年アラートが削減できた一方で、可用性やレイテンシの悪化にすぐ気 づけるようになりました。また、それらの指標に対する開発チームの意識が高ま りました。 https://findy-tools.io/products/amazon-cloudwatch/36/197 8/18
現時点の監視対象:7件のサービス、12件のURL https://speakerdeck.com/iwamot/amazon-cloudwatch-slo-monitoring?slide=15 9/18
Q. CloudWatchを選んだ理由は? 10/18
A. 理想の条件式、かつ、低コストで監視できるから ツール 理想の条件式 低コスト CloudWatch ◯ ◯ New Relic
△(検証当時) △ Datadog ✕(検証当時) - 11/18
『ワークブック』の条件式が理想 expr: ( job:slo_errors_per_request:ratio_rate1h{job="myjob"} > (14.4*0.001) and job:slo_errors_per_request:ratio_rate5m{job="myjob"} > (14.4*0.001)
) or ( job:slo_errors_per_request:ratio_rate6h{job="myjob"} > (6*0.001) and job:slo_errors_per_request:ratio_rate30m{job="myjob"} > (6*0.001) ) https://sre.google/workbook/alerting-on-slos/ 12/18
CloudWatchなら、1件20ドル/月で監視可能 課金対象 件数 コスト (ドル/月) ダッシュボード 1 3.0 メトリクス 28
8.4 アラーム 17 1.7 複合アラーム 5 2.5 https://speakerdeck.com/iwamot/amazon-cloudwatch-slo-monitoring?slide=24 13/18
実装もそれほど難しくなかった https://findy-tools.io/products/amazon-cloudwatch/36/197 14/18
Amazon曰く「倹約は創意工夫、自立心、発明の源」 Frugality 私たちは少ないリソースでより多くのことを実現します。倹約の精神は創意工 夫、自立心、発明を育む源になります。スタッフの人数、予算、固定費は多けれ ばよいというものではありません。 https://www.amazon.jobs/content/jp/our-workplace/leadership-principles 15/18
Q. 今後の展望は? 16/18
A. ツールの発展に応じて柔軟に ローリングウィンドウ機能がCloudWatchに実装されれば作り込みが減らせるの で、AWSに機能追加の要望を出そうと考えています。 一方で、New RelicやDatadogでも柔軟な実装が可能になれば、それらのツールに 移行することもありえます。CloudWatchに比べ、サービスレベル低下の原因調査 がしやすくなるためです。 https://findy-tools.io/products/amazon-cloudwatch/36/197 17/18
ご清聴ありがとうございました Amazon CloudWatchでSLOを監視してみた なぜSLOの監視を始めたのか? 「オオカミ少年アラート」を減らすため CloudWatchを選んだ理由は? 理想の条件式、かつ、低コストで監視できるから 今後の展望は? ツールの発展に応じて柔軟に 18/18