Upgrade to Pro — share decks privately, control downloads, hide ads and more …

サイト信頼性エンジニアリングとAmazon Web Services / SRE and AWS

サイト信頼性エンジニアリングとAmazon Web Services / SRE and AWS

JAWS DAYS 2025 B-1 にて発表した際の資料です。SREの基礎的な話とAWSの各種サービスでSREのプラクティスを便利にする機能を紹介しています。
https://jawsdays2025.jaws-ug.jp/sessions/B-1

ymotongpoo

March 01, 2025
Tweet

More Decks by ymotongpoo

Other Decks in Technology

Transcript

  1. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 1 © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. サイト信頼性エンジニアリングと Amazon Web Services SRE and AWS Yoshi Yamaguchi (@ymotongpoo) J A W S D A Y S 2 0 2 5 B - 1 Senior Developer Advocate Amazon Web Services Inc.
  2. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 2 © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. ⾃⼰紹介 ⼭⼝ 能迪(やまぐち よしふみ) アマゾンウェブサービスジャパン合同会社 シニアデベロッパーアドボケイト 専⾨領域 • オブザーバビリティ • SRE全般 @ymotongpoo
  3. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 3 • SRE の基本概念と主要プラクティス • AWS におけるコンテキスト • SRE 実践のための AWS サービス • これからの SRE アジェンダ
  4. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 4 © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. SRE の基本概念と 主要プラクティス
  5. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 5 なぜ SRE が重要なのか
  6. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 6 『SRE サイトリライアビリティエンジニアリング』 第1章 SREとは、ソフトウェアエンジニアに運⽤ チームの設計を依頼したときにできあがる ものです。
  7. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 7 『SREをはじめよう』 第1章 サイトリライアビリティエンジニアリングは、 組織がシステム、サービス、製品において適 切なレベルの信頼性を持続的に達成できるよ う⽀援することを⽬的とした⼯学分野である。
  8. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 8 SRE の⽬的 『信頼性』を中⼼にバランスを取る • 開発者: アジリティ • 運⽤担当者: 安定性
  9. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 9 SRE のプラクティス オブザーバビリティ • SLO • エラーバジェット • ダッシュボード • アラート チェンジマネジメント • CI/CD • リリースプロセス • 設計⽀援 • ⾃動化 ⽂化 • トイルの削減 • エンジニアリング • ⾮難をしない 緊急対応 • オンコール • 分析 • インシデント後のレ ビュー キャパシティ計画 • 予測 • 需要駆動 • 性能
  10. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 10 SRE のプラクティス Dickerson の信頼性の階層構造 インシデント後のレビュー インシデントレスポンス モニタリング/オブザーバビリティ UX 開発 テスト/リリース キャパシティ/スケール 信頼性の情報源 『SRE をはじめよう』 14章より 信頼性の維持と持続可能な組織 障害を価値に変えるプロセス 障害の軽減 ビジネスの成⻑
  11. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 11 モニタリング/オブザーバビリティ
  12. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 12 サービスレベル⽬標 SLO /サービスレベル指標 SLI 信頼性 = ユーザーがサービスに期待する性能品質 SLI SLO
  13. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 13 SLIの計算⽅法 例: 商品をカートに⼊れるのにかかる時間 商品をカートに⼊れる時間がある期間で均して速い /cart エンドポイントへのリクエストの レイテンシーが28⽇間のP90において、 500ms以下である割合 • ユーザーの⾏為はシステムにどう影響するのか • 計測する期間はどれくらいか • 速さの絶対的な基準はなにか SLI SLO 90% だいたい 定義前 定義後
  14. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 14 エラーバジェット エラーバジェット = 100% - SLO 余裕がある SLO違反 SLO SLO SLI エラーバジェット 新規開発のリスクが取れる すでに信頼性を毀損している 100% 90% 97% 93%
  15. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 15 インシデント管理 通常業務とは異なる対応が必要 • 指揮者と対応者 • 対応⽅法 • 連絡系統 • 記録⽅法
  16. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 16 インシデント後のレビュー https://aws.amazon.com/message/073024/ ⾮難なく失敗を改善に活かす • 事実を時系列に記録 • 決定事項の記録 • 対応中に参照した⽂章、グラフの添付 プロセスやシステムに焦点を当てる https://jaws-ug.jp/for-participant/
  17. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 17 ⾃動化 継続的デプロイメント 継続的デリバリー 継続的インテグレーション コード管理/アーティファクト 変更をコミット ビルドとテスト ビルドとユニットテストの実⾏ ステージング テスト環境にデプロイ 統合テストと負荷テストを実⾏ 本番環境 本番環境へデプロイ ⾃動デプロイ ⼿動承認 ⾃動化 ⾃動化 デプロイ
  18. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 18 © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS におけるコンテキスト
  19. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 19 責任共有モデル クラウドのセキュリティでの⽂脈 https://aws.amazon.com/jp/compliance/shared-responsibility-model/
  20. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 20 責任共有モデル 信頼性においても同様 お客様 クラウド内の 信頼性に対する責任 AWS クラウドの 信頼性に対する責任
  21. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 21 AWS Well-Architected フレームワーク AWS上でシステムを構築する上での6つの柱 • オペレーショナルエクセレンス (OE) • 回復⼒(信頼性) • パフォーマンス効率 • 持続可能性 • コスト最適化 • セキュリティ https://aws.amazon.com/jp/architecture/well-architected/
  22. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 22 AWS Well-Architected フレームワーク AWS上でシステムを構築する上での6つの柱 • オペレーショナルエクセレンス (OE) • 回復⼒(信頼性) • パフォーマンス効率 • 持続可能性 • コスト最適化 • セキュリティ 特に SRE と多くの共通事項 SRE の定義や⽬的と照らし合わせる
  23. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 23 © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. SRE 実践のための AWS サービス
  24. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 24 AWS における SRE 関連サービス ツールやサービスとしてSRE実践をサポート インシデント後のレビュー インシデントレスポンス モニタリング/オブザーバビリティ UX 開発 テスト/リリース キャパシティ/スケール CloudWatch CloudWatch, SSM CodePipeline, CodeBuild, CodeDeploy ELB, Auto Scaling
  25. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 25 メトリクス Synthetics オブザーバビリティ in AWS ログ RUM Amazon CloudWatch ユーザー体験 可視化 インサイト/分析 基礎 パートナー/統合 計装/収集 Internet Monitor トレース Container Insights Lambda Insights Contributor Insights Application Insights メトリクス ストリーム CloudWatch Embedded Metric Format メトリクス エクスプローラー ダッシュボード Live Tail Logs Insights クロスアカウント オブザーバビリティ OpenTelemetry CloudWatch Agent Application Signals
  26. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 26 例: ユーザー体験の観測 AWS Cloud
  27. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 27 RUM & Synthetics ユーザーの観点から計測 AWS Cloud
  28. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 28 SLIとSLOを⽐較する 例: レイテンシーSLOがP90で3秒 AWS Cloud レイテンシー (SLI) の現状を確認したい
  29. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 29 CloudWatch Application Signals SLIのSLOに対する現状を把握
  30. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 30 バーンレートアラート 思ってたよりエラーバジェットが速く減ってたら知らせる エラーバジェット 時間 28d 14d 2.8d 100% 緊急事態の減り⽅ 予想よりは速いけど 余裕はある
  31. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 31 インシデントレスポンス in AWS 例: 復旧のためにランブックを活⽤ • Amazon所有のランブック • 独⾃のランブック https://aws.amazon.com/jp/blogs/mt/use-aws-systems-manager-automation-runbooks-to-resolve-operational-tasks/
  32. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 32 AWS X-Ray 分散トレース
  33. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 33 構成管理 in AWS ⼿動 スクリプト ⽣成 抽象化 宣⾔的 Wiki、プレイブック、仙⼈ #!/bin/bash CloudFormation,Terraform Troposphere AWS CDK, Pulumi
  34. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 34 CI/CD in AWS CodePipeline Git repository Lambda function appspec.yml S3 Bucket OK ? v1 v2 90% 10%
  35. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 35 キャパシティ/スケール in AWS Virtual private cloud (VPC) Availability Zone Availability Zone Auto Scaling group
  36. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 36 © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. これからのSRE
  37. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 37 AIツールの隆盛 AIツールは新しい⾃動化 • コードや設定を解説させる • ⾃然⾔語からクエリ⾔語に変換させる • パターン分析、異常の検出、変化の相関を⾏わせる • インシデントの記録を整理して⽂書化する etc… ただし⾮決定的なので現状では補助に使うのが良い
  38. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 38 コードの解説 Amazon Q Developer の IDE での利⽤
  39. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 39 クエリ⾔語の作成 CloudWatch Logs Insights: Query generator
  40. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 40 パターン分析 CloudWatch Logs Insights: パターン分析
  41. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 41 異常の検出 CloudWatch Logs Insights: ⽐較モード
  42. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 42 © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 資料など
  43. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 43 AWS オブザーバビリティ ベストプラクティス https://aws-observability.github.io/observability-best-practices/ja/
  44. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 44 AWS Skill Builder SRE 関連トピックを無料で学べる • ⽇本語コンテンツが250以上 • プラクティスと製品をつなげる https://explore.skillbuilder.aws/
  45. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 45 まとめ • SRE とは信頼性という測定値を中⼼としたエンジニアリングによる運⽤開発の形 • AWS には責任共有モデル、Well-Architected フレームワークが⼟台にあった • 各種プラクティスを⽀援する building block が提供されている • AI による⽀援で SRE が加速される • 最初の⼀歩を今⽇から始めましょう︕ SREの定義とAWSのアプローチ、そしてこれからのSRE
  46. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 46 AWS Builder IDで • AWS Skill Builder の600以上の無料コース • Amazon Q Developer の利⽤ • Amazon CodeCatalyst の利⽤ • AWS builders コミュニティ への参加 が可能になります。 Do more with Builder ID
  47. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 47 Thank you! © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. Yoshi Yamaguchi @ymotongpoo Any questions?