Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AWS Well-Architected から考えるオブザーバビリティの勘所 / Consid...
Search
SMS tech
July 18, 2025
Technology
1
61
AWS Well-Architected から考えるオブザーバビリティの勘所 / Considering the Essentials of Observability from AWS Well-Architected
Japan Datadog User Group Meetup#11@福岡
https://datadog-jp.connpass.com/event/358184/
SMS tech
July 18, 2025
Tweet
Share
More Decks by SMS tech
See All by SMS tech
失敗ら再構築した開発推進チームの立ち上げ
sms_tech
0
23
一体いつから ――― DataLoader が 並列実行されていると錯覚していた?
sms_tech
0
230
カイポケリニューアル プロダクトマネジメントの現在地 / Where we are now with Kaipoke Renewal Product Management
sms_tech
0
990
ユーザーに向き合うデザインが介護・福祉の現場を変える / User-facing design changes the field of care and welfare
sms_tech
0
380
Amazon CloudWatchで小さく始めるWebサービスのオブザーバビリティ / How to start Observability for Web Sevices with Amazon CloudWatch
sms_tech
4
1.2k
SaaSのマーケティングを進めるサービスサイトを育てる取り組み / Designship 2024 Main Stage
sms_tech
1
1.7k
GitHub Actions で始める Salesforce CI
sms_tech
0
740
How to achieve full-stack Observability with AWS
sms_tech
1
380
フルスタックオブザーバビリティを AWSで実現する方法 / How to achieve full-stack Observability with AWS (ja)
sms_tech
1
420
Other Decks in Technology
See All in Technology
Delegating the chores of authenticating users to Keycloak
ahus1
0
190
AIでテストプロセス自動化に挑戦する
sakatakazunori
1
520
セキュアなAI活用のためのLiteLLMの可能性
tk3fftk
1
330
LIXIL基幹システム刷新に立ち向かう技術的アプローチについて
tsukuha
1
370
SRE with AI:実践から学ぶ、運用課題解決と未来への展望
yoshiiryo1
0
270
PHPからはじめるコンピュータアーキテクチャ / From Scripts to Silicon: A Journey Through the Layers of Computing
tomzoh
2
110
TLSから見るSREの未来
atpons
2
310
本当にわかりやすいAIエージェント入門
segavvy
1
170
「Chatwork」のEKS環境を支えるhelmfileを使用したマニフェスト管理術
hanayo04
1
390
マルチプロダクト環境におけるSREの役割 / SRE NEXT 2025 lunch session
sugamasao
1
730
ソフトウェアテストのAI活用_ver1.25
fumisuke
1
610
“日本一のM&A企業”を支える、少人数SREの効率化戦略 / SRE NEXT 2025
genda
1
260
Featured
See All Featured
Code Reviewing Like a Champion
maltzj
524
40k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
181
54k
KATA
mclloyd
30
14k
Product Roadmaps are Hard
iamctodd
PRO
54
11k
How STYLIGHT went responsive
nonsquared
100
5.6k
Large-scale JavaScript Application Architecture
addyosmani
512
110k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
229
22k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
45
7.5k
Building an army of robots
kneath
306
45k
Balancing Empowerment & Direction
lara
1
450
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
48
2.9k
Optimising Largest Contentful Paint
csswizardry
37
3.3k
Transcript
© SMS Co., Ltd. 加我 貴志 (株式会社エス・エム・エス) Japan Datadog User
Group Meetup#11@福岡 (2025/07/18) AWS Well-Architected から考える オブザーバビリティの勘所
© SMS Co., Ltd. 本日の発表は文字多めです
© SMS Co., Ltd. 自己紹介 • 加我 貴志 ( TAKA_0411)
• 株式会社エス・エム・エス プロダクト推進本部 カイポケ開発部 • Media-JAWS / JAWS-UG札幌運営 • JDDUG 札幌運営メンバー (1) • 気になるサービス : Bits AI SRE
© SMS Co., Ltd. JDDUG 札幌運営メンバー (1) https://x.com/k6s4i53rx/status/1927667815429161451
© SMS Co., Ltd. 突然ですが AWS Well-Architected ご存知ですか?
© SMS Co., Ltd. AWS Well-Architected (1) AWS Well-Architected https://aws.amazon.com/jp/architecture/well-architected/
© SMS Co., Ltd. AWS Well-Architected (2) AWS Well-Architected https://aws.amazon.com/jp/architecture/well-architected/
© SMS Co., Ltd. つまり AWS Well-Architected とは - AWSにおける設計や運用のベストプラクティスの指針
- 6つの柱 (カテゴリ) で構成されている - 特定の業界やテクノロジー領域に広げたものや、 特定のユースケース、テクノロジーに焦点を当てたものもある
© SMS Co., Ltd. ここで問題です
© SMS Co., Ltd. オブザーバビリティに関する柱はどれでしょう AWS Well-Architected https://aws.amazon.com/jp/architecture/well-architected/
© SMS Co., Ltd. 正解は・・・
© SMS Co., Ltd. オペレーショナルエクセレンスの柱でした AWS Well-Architected https://aws.amazon.com/jp/architecture/well-architected/
© SMS Co., Ltd. オペレーショナル エクセレンス
© SMS Co., Ltd. オペレーショナルエクセレンス (1) オペレーショナルエクセレンス https://docs.aws.amazon.com/ja_jp/wellarchitected/latest/framework/operational-excellence.html 運用上の優秀性 (OE)
とは、優れたカスタマーエクスペリエンスを着実 に提供しながら、ソフトウェアを正しく構築する取り組みです。 運用上の優秀性の柱となるのは、チームの編成、ワークロードの設計、 ワークロードの大規模な運用、経時的な進化のためのベストプラクティス です。 お客様に満足してもらうため、チー ムで協力しシステムを安全・効率的 に動かし続けること
© SMS Co., Ltd. オペレーショナルエクセレンス (2) オペレーショナルエクセレンス https://docs.aws.amazon.com/ja_jp/wellarchitected/latest/framework/operational-excellence.html 運用上の優秀性を実現するための設計原則 -
ビジネス成果を中心にチームを編成する - オブザーバビリティを実装して実用的なインサイトを得る - 可能な場合は安全に自動化する - 小規模かつ可逆的な変更を頻繁に行う - オペレーション手順を頻繁に改善する - 障害を予測する - 運用上のイベントとメトリクスから学ぶ - マネージドサービスを使用する
© SMS Co., Ltd. オブザーバビリティの 実装 準備
© SMS Co., Ltd. オブザーバビリティの実装 - OPS04-BP01 主要業績評価指標を特定する - OPS04-BP02
アプリケーションテレメトリを実装する - OPS04-BP03 ユーザーエクスペリエンステレメトリを実装する - OPS04-BP04 依存関係のテレメトリを実装する - OPS04-BP05 分散トレースを実装する
© SMS Co., Ltd. OPS04-BP01 主要業績評価指標を特定する OPS04-BP01 主要業績評価指標を特定する https://docs.aws.amazon.com/ja_jp/wellarchitected/latest/operational-excellence-pillar/ops_observability_identify_kpis.html これは何か
オブザーバビリティを実装するためにはワークロードの状態を理解し、 ビジネス目標に直結するKPIの定義に基づいてモニタリングを行う。 なぜやるのか KPIは技術的なメトリクスよりも問題発生時の特定やビジネスへの影響把握が容易であり、 モニタリングアクティビティがビジネス成果につながっていることを確認できる。 主なアンチパターン ビジネスの成果と直接の相互関係がない、または実際の問題との関連性が 明らかでない技術的なメトリクスに重点が置かれている。
© SMS Co., Ltd. OPS04-BP02 アプリケーションテレメトリを実装する OPS04-BP02 アプリケーションテレメトリを実装する https://docs.aws.amazon.com/ja_jp/wellarchitected/latest/operational-excellence-pillar/ops_observability_application_telemetry.html これは何か
ワークロードの状態やビジネスの成果に関するテレメトリを送出するため、 メトリクス、ログ、トレースといった主要なテレメトリを利用する。 なぜやるのか ワークロードのパフォーマンスに関するインサイトを活用することで、パフォーマンスの 最適化に関する意思決定や運用の効率化、CI/CDの合理化、リソースの最適化につながる。 主なアンチパターン データが複数のツールやシステムに分散している場合、ワークロードの状態と パフォーマンスを包括的に把握することが困難になる。
© SMS Co., Ltd. OPS04-BP03 ユーザーエクスペリエンステレメトリを実装する OPS04-BP03 ユーザーエクスペリエンステレメトリを実装する https://docs.aws.amazon.com/ja_jp/wellarchitected/latest/operational-excellence-pillar/ops_observability_customer_telemetry.html これは何か
リアルユーザーモニタリングや合成トランザクションを利用し、 ユーザー体験の質を可視化する。 なぜやるのか ユーザーエクスペリエンステレメトリを実装することで、システムの健全性と顧客満足度の 向上が期待でき、実際のユーザーに影響が及ぶ前に潜在的な問題を検出できる。 主なアンチパターン このテレメトリを実装しない場合、ユーザーからの苦情があるまでパフォーマンスの ボトルネックや問題に気付けずユーザーの満足度に影響を及ぼす可能性がある。
© SMS Co., Ltd. OPS04-BP04 依存関係のテレメトリを実装する OPS04-BP04 依存関係のテレメトリを実装する https://docs.aws.amazon.com/ja_jp/wellarchitected/latest/operational-excellence-pillar/ops_observability_dependency_telemetry.html これは何か
ワークロードが依存する外部サービスのテレメトリを出力し、 外部サービスの状態とパフォーマンスを可視化する。 なぜやるのか ワークロードを支える依存関係が期待どおりに機能し、潜在的な障害やボトルネックを 早期に発見・対処することでワークロード全体のパフォーマンスと健全性を維持できる。 主なアンチパターン アプリケーションのメトリクスのみを重視し、外部の依存関係に関連するメトリクスを おろそかにすると問題の発見を遅らせてしまう。
© SMS Co., Ltd. OPS04-BP05 分散トレースを実装する OPS04-BP05 分散トレースを実装する https://docs.aws.amazon.com/ja_jp/wellarchitected/latest/operational-excellence-pillar/ops_observability_dist_trace.html これは何か
分散システムのリクエストをモニタリングし、リクエストの流れや ワークロードに発生している問題を把握する。 なぜやるのか 分散システムを通過するリクエストを包括的に把握することにより、正確なデバッグ、 パフォーマンスの最適化、ユーザー体験の向上が期待できる。 主なアンチパターン 一部サービスのみでトレースを実装し、全体像が把握できていない。
© SMS Co., Ltd. ワークロードの オブザーバビリティ活用 運用
© SMS Co., Ltd. ワークロードのオブザーバビリティの活用 - OPS08-BP01 ワークロードメトリクスを分析する - OPS08-BP02
ワークロードログを分析する - OPS08-BP03 ワークロードのトレースを分析する - OPS08-BP04 実践的なアラートを作成する - OPS08-BP05 ダッシュボードを作成する
© SMS Co., Ltd. OPS08-BP01 ワークロードメトリクスを分析する OPS08-BP01 ワークロードメトリクスを分析する https://docs.aws.amazon.com/ja_jp/wellarchitected/latest/operational-excellence-pillar/ops_workload_observability_analyze_workload_metrics.html これは何か
アプリケーションテレメトリを実装したら収集したメトリクスを定期的に分析する。 なぜやるのか ワークロードのパフォーマンスを正確に把握することで、データに基づいた 意思決定ができるようになり、ビジネス目標と合致させることができる。 主なアンチパターン ビジネス上のメトリクスを重視せず、過度に技術メトリクスに頼ってしまったり、 メトリクスを定期的に見直さないために変化や異常を見逃している。
© SMS Co., Ltd. OPS08-BP02 ワークロードログを分析する OPS08-BP02 ワークロードログを分析する https://docs.aws.amazon.com/ja_jp/wellarchitected/latest/operational-excellence-pillar/ops_workload_observability_analyze_workload_logs.html これは何か
ワークロードの動作やパフォーマンス、セキュリティといった問題を把握するため、 ワークロードログを定期的に分析・可視化する。 なぜやるのか 詳細なログ分析を行うことでアプリケーションの動作と運用に関するインサイトが得られ、 運用上のボトルネックやセキュリティリスクを事前に検出できる。 主なアンチパターン 重大なインシデント時のみログを見る対応や、ツールを十分に活用せず 手動での確認に頼る運用、分析そのものを怠り重要なインサイトを見逃している。
© SMS Co., Ltd. OPS08-BP03 ワークロードのトレースを分析する OPS08-BP03 ワークロードのトレースを分析する https://docs.aws.amazon.com/ja_jp/wellarchitected/latest/operational-excellence-pillar/ops_workload_observability_analyze_workload_traces.html これは何か
コンポーネント間の相互作用を可視化して把握し、パフォーマンスチューニング、 ボトルネックの特定、ユーザーエクスペリエンスの向上に活用する。 なぜやるのか アプリケーションやサービスの間で発生する処理の流れを可視化することにより、 各コンポーネントのパフォーマンスや依存関係、エラーの根本原因を特定できる。 主なアンチパターン ログとメトリクスのみに依存しておりトレースデータを見落としてしまったり、 トレースデータが関連するログと関連付けられていない。
© SMS Co., Ltd. OPS08-BP04 実践的なアラートを作成する OPS08-BP04 実践的なアラートを作成する https://docs.aws.amazon.com/ja_jp/wellarchitected/latest/operational-excellence-pillar/ops_workload_observability_create_alerts.html これは何か
業務やシステムにインパクトがあるような重要なアラートを設定する。 なぜやるのか KPIと連動したアラートを設定することでビジネスへの影響が小さい警告や 無関係なアラートの乱発を避け、ノイズによる「アラート疲れ」を防止する。 主なアンチパターン 重要ではないアラートが多すぎて、本当に重大なインシデントを見逃してしまったり、 KPIによる優先度付けがなくて対応の優先順位がつけられない。
© SMS Co., Ltd. OPS08-BP05 ダッシュボードを作成する OPS08-BP05 ダッシュボードを作成する https://docs.aws.amazon.com/ja_jp/wellarchitected/latest/operational-excellence-pillar/ops_workload_observability_create_dashboards.html これは何か
ワークロードのテレメトリデータを視覚化するダッシュボードを構築し、 システムやビジネスの状態をリアルタイムに把握・共有する。 なぜやるのか 重要なKPIとシステムメトリクスを即座に可視化し、 システムの健全性やビジネス成果に関するインサイトを即座に提供できる。 主なアンチパターン メトリクスが多すぎてダッシュボードが複雑化し使いにくくなってしまったり、 システムやワークロードの変更にダッシュボードが追従できていない。
© SMS Co., Ltd. まとめ
© SMS Co., Ltd. まとめ - オブザーバビリティを実装・活用するうえで AWS Well-Architected はとても参考になります
- Datadogをより上手に活用するための指針としても オペレーショナル・エクセレンスの章はオススメです - 改めてビジネスと連携したモニタリングアクティビティが できているのかを振り返ってみませんか?