Slide 1

Slide 1 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 1 © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. サイト信頼性エンジニアリングと Amazon Web Services SRE and AWS Yoshi Yamaguchi (@ymotongpoo) J A W S D A Y S 2 0 2 5 B - 1 Senior Developer Advocate Amazon Web Services Inc.

Slide 2

Slide 2 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 2 © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. ⾃⼰紹介 ⼭⼝ 能迪(やまぐち よしふみ) アマゾンウェブサービスジャパン合同会社 シニアデベロッパーアドボケイト 専⾨領域 • オブザーバビリティ • SRE全般 @ymotongpoo

Slide 3

Slide 3 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 3 • SRE の基本概念と主要プラクティス • AWS におけるコンテキスト • SRE 実践のための AWS サービス • これからの SRE アジェンダ

Slide 4

Slide 4 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 4 © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. SRE の基本概念と 主要プラクティス

Slide 5

Slide 5 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 5 なぜ SRE が重要なのか

Slide 6

Slide 6 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 6 『SRE サイトリライアビリティエンジニアリング』 第1章 SREとは、ソフトウェアエンジニアに運⽤ チームの設計を依頼したときにできあがる ものです。

Slide 7

Slide 7 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 7 『SREをはじめよう』 第1章 サイトリライアビリティエンジニアリングは、 組織がシステム、サービス、製品において適 切なレベルの信頼性を持続的に達成できるよ う⽀援することを⽬的とした⼯学分野である。

Slide 8

Slide 8 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 8 SRE の⽬的 『信頼性』を中⼼にバランスを取る • 開発者: アジリティ • 運⽤担当者: 安定性

Slide 9

Slide 9 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 9 SRE のプラクティス オブザーバビリティ • SLO • エラーバジェット • ダッシュボード • アラート チェンジマネジメント • CI/CD • リリースプロセス • 設計⽀援 • ⾃動化 ⽂化 • トイルの削減 • エンジニアリング • ⾮難をしない 緊急対応 • オンコール • 分析 • インシデント後のレ ビュー キャパシティ計画 • 予測 • 需要駆動 • 性能

Slide 10

Slide 10 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 10 SRE のプラクティス Dickerson の信頼性の階層構造 インシデント後のレビュー インシデントレスポンス モニタリング/オブザーバビリティ UX 開発 テスト/リリース キャパシティ/スケール 信頼性の情報源 『SRE をはじめよう』 14章より 信頼性の維持と持続可能な組織 障害を価値に変えるプロセス 障害の軽減 ビジネスの成⻑

Slide 11

Slide 11 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 11 モニタリング/オブザーバビリティ

Slide 12

Slide 12 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 12 サービスレベル⽬標 SLO /サービスレベル指標 SLI 信頼性 = ユーザーがサービスに期待する性能品質 SLI SLO

Slide 13

Slide 13 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 13 SLIの計算⽅法 例: 商品をカートに⼊れるのにかかる時間 商品をカートに⼊れる時間がある期間で均して速い /cart エンドポイントへのリクエストの レイテンシーが28⽇間のP90において、 500ms以下である割合 • ユーザーの⾏為はシステムにどう影響するのか • 計測する期間はどれくらいか • 速さの絶対的な基準はなにか SLI SLO 90% だいたい 定義前 定義後

Slide 14

Slide 14 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 14 エラーバジェット エラーバジェット = 100% - SLO 余裕がある SLO違反 SLO SLO SLI エラーバジェット 新規開発のリスクが取れる すでに信頼性を毀損している 100% 90% 97% 93%

Slide 15

Slide 15 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 15 インシデント管理 通常業務とは異なる対応が必要 • 指揮者と対応者 • 対応⽅法 • 連絡系統 • 記録⽅法

Slide 16

Slide 16 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 16 インシデント後のレビュー https://aws.amazon.com/message/073024/ ⾮難なく失敗を改善に活かす • 事実を時系列に記録 • 決定事項の記録 • 対応中に参照した⽂章、グラフの添付 プロセスやシステムに焦点を当てる https://jaws-ug.jp/for-participant/

Slide 17

Slide 17 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 17 ⾃動化 継続的デプロイメント 継続的デリバリー 継続的インテグレーション コード管理/アーティファクト 変更をコミット ビルドとテスト ビルドとユニットテストの実⾏ ステージング テスト環境にデプロイ 統合テストと負荷テストを実⾏ 本番環境 本番環境へデプロイ ⾃動デプロイ ⼿動承認 ⾃動化 ⾃動化 デプロイ

Slide 18

Slide 18 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 18 © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS におけるコンテキスト

Slide 19

Slide 19 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 19 責任共有モデル クラウドのセキュリティでの⽂脈 https://aws.amazon.com/jp/compliance/shared-responsibility-model/

Slide 20

Slide 20 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 20 責任共有モデル 信頼性においても同様 お客様 クラウド内の 信頼性に対する責任 AWS クラウドの 信頼性に対する責任

Slide 21

Slide 21 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 21 AWS Well-Architected フレームワーク AWS上でシステムを構築する上での6つの柱 • オペレーショナルエクセレンス (OE) • 回復⼒(信頼性) • パフォーマンス効率 • 持続可能性 • コスト最適化 • セキュリティ https://aws.amazon.com/jp/architecture/well-architected/

Slide 22

Slide 22 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 22 AWS Well-Architected フレームワーク AWS上でシステムを構築する上での6つの柱 • オペレーショナルエクセレンス (OE) • 回復⼒(信頼性) • パフォーマンス効率 • 持続可能性 • コスト最適化 • セキュリティ 特に SRE と多くの共通事項 SRE の定義や⽬的と照らし合わせる

Slide 23

Slide 23 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 23 © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. SRE 実践のための AWS サービス

Slide 24

Slide 24 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 24 AWS における SRE 関連サービス ツールやサービスとしてSRE実践をサポート インシデント後のレビュー インシデントレスポンス モニタリング/オブザーバビリティ UX 開発 テスト/リリース キャパシティ/スケール CloudWatch CloudWatch, SSM CodePipeline, CodeBuild, CodeDeploy ELB, Auto Scaling

Slide 25

Slide 25 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 25 メトリクス Synthetics オブザーバビリティ in AWS ログ RUM Amazon CloudWatch ユーザー体験 可視化 インサイト/分析 基礎 パートナー/統合 計装/収集 Internet Monitor トレース Container Insights Lambda Insights Contributor Insights Application Insights メトリクス ストリーム CloudWatch Embedded Metric Format メトリクス エクスプローラー ダッシュボード Live Tail Logs Insights クロスアカウント オブザーバビリティ OpenTelemetry CloudWatch Agent Application Signals

Slide 26

Slide 26 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 26 例: ユーザー体験の観測 AWS Cloud

Slide 27

Slide 27 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 27 RUM & Synthetics ユーザーの観点から計測 AWS Cloud

Slide 28

Slide 28 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 28 SLIとSLOを⽐較する 例: レイテンシーSLOがP90で3秒 AWS Cloud レイテンシー (SLI) の現状を確認したい

Slide 29

Slide 29 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 29 CloudWatch Application Signals SLIのSLOに対する現状を把握

Slide 30

Slide 30 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 30 バーンレートアラート 思ってたよりエラーバジェットが速く減ってたら知らせる エラーバジェット 時間 28d 14d 2.8d 100% 緊急事態の減り⽅ 予想よりは速いけど 余裕はある

Slide 31

Slide 31 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 31 インシデントレスポンス in AWS 例: 復旧のためにランブックを活⽤ • Amazon所有のランブック • 独⾃のランブック https://aws.amazon.com/jp/blogs/mt/use-aws-systems-manager-automation-runbooks-to-resolve-operational-tasks/

Slide 32

Slide 32 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 32 AWS X-Ray 分散トレース

Slide 33

Slide 33 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 33 構成管理 in AWS ⼿動 スクリプト ⽣成 抽象化 宣⾔的 Wiki、プレイブック、仙⼈ #!/bin/bash CloudFormation,Terraform Troposphere AWS CDK, Pulumi

Slide 34

Slide 34 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 34 CI/CD in AWS CodePipeline Git repository Lambda function appspec.yml S3 Bucket OK ? v1 v2 90% 10%

Slide 35

Slide 35 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 35 キャパシティ/スケール in AWS Virtual private cloud (VPC) Availability Zone Availability Zone Auto Scaling group

Slide 36

Slide 36 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 36 © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. これからのSRE

Slide 37

Slide 37 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 37 AIツールの隆盛 AIツールは新しい⾃動化 • コードや設定を解説させる • ⾃然⾔語からクエリ⾔語に変換させる • パターン分析、異常の検出、変化の相関を⾏わせる • インシデントの記録を整理して⽂書化する etc… ただし⾮決定的なので現状では補助に使うのが良い

Slide 38

Slide 38 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 38 コードの解説 Amazon Q Developer の IDE での利⽤

Slide 39

Slide 39 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 39 クエリ⾔語の作成 CloudWatch Logs Insights: Query generator

Slide 40

Slide 40 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 40 パターン分析 CloudWatch Logs Insights: パターン分析

Slide 41

Slide 41 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 41 異常の検出 CloudWatch Logs Insights: ⽐較モード

Slide 42

Slide 42 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 42 © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 資料など

Slide 43

Slide 43 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 43 AWS オブザーバビリティ ベストプラクティス https://aws-observability.github.io/observability-best-practices/ja/

Slide 44

Slide 44 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 44 AWS Skill Builder SRE 関連トピックを無料で学べる • ⽇本語コンテンツが250以上 • プラクティスと製品をつなげる https://explore.skillbuilder.aws/

Slide 45

Slide 45 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 45 まとめ • SRE とは信頼性という測定値を中⼼としたエンジニアリングによる運⽤開発の形 • AWS には責任共有モデル、Well-Architected フレームワークが⼟台にあった • 各種プラクティスを⽀援する building block が提供されている • AI による⽀援で SRE が加速される • 最初の⼀歩を今⽇から始めましょう︕ SREの定義とAWSのアプローチ、そしてこれからのSRE

Slide 46

Slide 46 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 46 AWS Builder IDで • AWS Skill Builder の600以上の無料コース • Amazon Q Developer の利⽤ • Amazon CodeCatalyst の利⽤ • AWS builders コミュニティ への参加 が可能になります。 Do more with Builder ID

Slide 47

Slide 47 text

© 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 47 Thank you! © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. Yoshi Yamaguchi @ymotongpoo Any questions?

Slide 48

Slide 48 text

No content