Slide 1

Slide 1 text

SRE(Site Reliability Engineering) 入門ハンドブック version0.0 Copyright © 3-shake, Inc. All Rights Reserved.

Slide 2

Slide 2 text

はじめに Copyright © 3-shake, Inc. All Rights Reserved. confidential 2 本資料は非エンジニアの方に向けてSREを解説し スリーシェイクのSREビジネスについて理解を頂くための資料です ▶ 対象: スリーシェイクでのSREビジネス職を検討されている方

Slide 3

Slide 3 text

前提知識 00 Copyright © 3-shake, Inc. All Rights Reserved.

Slide 4

Slide 4 text

インターネット(IT)業界について Copyright © 3-shake, Inc. All Rights Reserved. confidential 4 インターネット(IT)業界は主に5つのサービスに分類されます IT業界 インターネットを介した サービスを提供する企業 通信業界 携帯、固定通信   インターネット などの通信事業 Webサービス業界 SNS、EC、SaaS等の インターネット関連 サービス ハードウェア業界   IT関連デバイスを提供 OS, IaaS業界 ITを支えるOSや クラウドリソース を提供 情報処理サービス(SI)   システム構築、運用、 コンサルティングを提供 例:NTTデータ、野村総合研究所、富士通、 NEC、TIS、SCSK 例: ソフトバンク、NTTドコモ、 KDDI、J:COM 例:楽天、メルカリ、 LINE、freee、マ ネーフォワード 例:Apple、Dell、HITACHI、NEC 例:Microsoft、AWS、Google Cloud、 IBM、Oracle

Slide 5

Slide 5 text

IT業界を支えるシステム(アプリケーション) Copyright © 3-shake, Inc. All Rights Reserved. confidential 5 物理ネットワーク 物理スペース / 電源設備 / 空調設備 物理サーバー /ストレージ NW機器 Hypervisor OS 物理サーバー /ストレージ 仮想サーバー 仮想ストレージ 仮想NW ゲストOS ミドルウェア / プログラム実行環境 アプリケーション コンテンツ ユーザーの業務や目的に応じて企業が提 供するプログラム 例: Webアプリケーション, API アプリケーションが動作するための基盤と なるソフトウェア(PaaS利用時は不要) 例: OS, ミドルウェア, データベース プログラム実行環境を動かすための物理 的な設備やインターネットと通信するため の設備(IaaS利用時は不要) 例: データセンター、サーバー、 NW機器 (一般的に)インフラエンジニアリン グ領域と呼ばれる AWSやGCP,Azureなどのパブリッククラウドが 主に提供している範囲 インターネット業界を支えるシステム(アプリケーション)は、 インフラとアプリケーションが一体となった仕組みが無ければ動きません サービス提供企業が主にプログラムやコンテン ツを提供する範囲

Slide 6

Slide 6 text

DevOps Copyright © 3-shake, Inc. All Rights Reserved. confidential 6 インフラエンジニアリングにDevOpsは不可欠な考え方(開発担当と運用担当の融合)です 開発者はサービス機能を優先し、運用者は安定性 /信頼性を重視した業務を 行う(開発者と運用者が分断された状態)のがシステム領域の構図でした 一方で... ・インフラ領域もアプリケーション領域と同様に、作ってリリースして完成では なく、継続的な改善( PDCA)が必要 ・インフラ領域とアプリケーション領域は密接な連携が必要であり、 その連携を迅速かつ簡素にするために仕組み化が必要 という中で、DevOpsという考えが2010年代後半から浸透しています 全てを計測、可視化 ツールと自動化の活用 組織のサイロ化削減 エラーを前提とした 開発運用 段階的変更、継続的改善

Slide 7

Slide 7 text

オンプレミスとクラウド(IaaS/PaaS)の違いについて Copyright © 3-shake, Inc. All Rights Reserved. confidential 7 クラウドの台頭とDevOpsによってアプリケーション開発との境界が曖昧に(両方できないといけない) オンプレミス クラウド(IaaS/PaaS) 初期投資 高(場所確保、ハード購入が必要) 低、DevOps活用でスピーディに スケーラビリティ 物理的なリソース追加必要 柔軟に拡張縮小可能 DevOps活用で秒単位での調整可能 メンテナンス/アップデート 全てのレイヤで自社で対応必要 基本はMW/アプリケーションから上の レイヤのみ対応 カスタマイズ 完全カスタマイズ可能 基本はMW/アプリケーションから上の レイヤのみカスタマイズ可能 しかしDevOpsのエコシステムを活用す ることで柔軟なカスタマイズは可能 求められるエンジニア ハードやインフラのスキル インフラとソフトウェアのスキル

Slide 8

Slide 8 text

SREについて 01 Copyright © 3-shake, Inc. All Rights Reserved.

Slide 9

Slide 9 text

SRE(Site Reliability Engineering)とは Copyright © 3-shake, Inc. All Rights Reserved. confidential 9 SRE = Google発のIT信頼性を向上させる技術的アプローチ 開発者とインフラで同じツールや技術を使 い、オーナーシップを共有する (= 顧客への提供価値最大化を目指す) 失敗/トラブルとリリースのバランスを取る 失敗のコストを減らし、迅速な行動を促す (= 柔軟性を保ちつつ、機会損失を最小限に し、顧客の信頼を得る) システムに長期的な価値をもたらす仕事に集 中するために、手作業を最小限にする (= トラブルの火種、手作業を減らし、自動化 により、顧客の信頼を得る) システム運用はソフトウェアで解決できる、を 前提に全ての運用を測定 /可視化して判断、 行動する (= データドリブンな行動で継続的且つ客観 的な運用になり顧客の信頼を得られる) サービス(= サイト)が顧客から信頼を勝ち得るには、機能そのものが優れて いるだけでなく、 ・リリース頻度の高さ(頻度高く機能が Updateされているか) ・スケーラビリティの高さ(ユーザーが増えても耐えれるか) ・復旧の素早さ(障害からリカバリーまでの時間) など、顧客が利用したいタイミングで意図した通り快適に機能が提供できて いるかどうか、新しい価値を提供できるサイクルが回せているかどうか 、が 「サイト信頼性」であり その「サイト信頼性」に向けてソフトウェアエンジニアが 設計やアプローチ、チームビルディングを行うことが SRE *DevOpsを踏まえた具体的な実装方法が SRE SRE

Slide 10

Slide 10 text

SREを支える取組例: トイル(労苦)の制限、自動化 Copyright © 3-shake, Inc. All Rights Reserved. confidential 10 トイルを測定し、自動化、振り返りを繰り返すことで顧客信頼向上に向けたエンジニアリング最大化に繋がる 手作業のシステム業務 繰り返されるシステム業務 自動化可能なシステム業務 戦術的なシステム業務 長期的な価値を持たない システム業務 サービスの成長に比例して 増加するシステム業務 トイル ・エンジニアの工数削減 ・エンジニアの士気向上 ・エンジニアチームの生産性向上 ・エンジニアリング(オペレーション)のプロセス明確化 ・ヒューマンエラーの削減 ・顧客要望のレスポンス改善 (顧客要望に注力できる時間を確保できる結果、信頼性向上に 繋がる)

Slide 11

Slide 11 text

SREを支える取組例: システムとしての目標定量化(SLI/SLO/SLA) Copyright © 3-shake, Inc. All Rights Reserved. confidential 11 システムが目指すべき定量的(現実的)な目標を定めることで、正しいエンジニアリングができる リスクと効率のバランス問題 ・システム100%の信頼はありえない (システムは必ず障害を起こす) ・過度の信頼(安全性)を作るには莫大なコストが かかる ・安全性を追い求めると機能リリースの頻度が減 る(顧客体験が向上しない) ・顧客はそもそも高い信頼(安全性)と「極端に」高 い信頼性の違いはわからない、気づかない システムが目指す指標をたてる SLI(Service Level Indicator) ・サービスレベル目標 ・何をもとにシステム良し悪しを判断するか 指標となるもの SLO(Service Level Objective) ・サービスレベルに対する社内の目標値 ・目標を超えるまで不具合解消を優先 SLA(Service Level Agreement) ・サービスレベルに対する対外的な保証値 エンジニアリングとして、新規機 能を優先すべきか不具合解消を 優先するべきか目標が明確にな ることで、ビジネス側との連携も しやすくなる (共通認識を持つことができる)

Slide 12

Slide 12 text

SREを支える取組例: オブザーバビリティ(収集・分析・可視化) Copyright © 3-shake, Inc. All Rights Reserved. confidential 12 システム(アプリケーション)の動きを監視し正確に対処できる状態をつくり予測不可能な状態を防ぐ システムの状態: 外形(ユーザー視点の)監視、メトリクス (システム内部状態の)監視、ログ監視、 APM実装(アプリケーションのパフォーマ ンス監視)などを可能な限り行い、システ ムの状態を客観的に把握できるようにす る コストの状態: システムは正常だが、クラウド利用料な どのコストが急増することがあるためコ ストの可視化を行う セキュリティ・品質管理の状態: セキュリティの状態可視化、警告通知に対 してのエンジニアの対応時間、CICD(継 続的なソフトウェアのデリバリー)の実行時 間などの開発生産性の可視化を行う

Slide 13

Slide 13 text

SREを支える組織 Copyright © 3-shake, Inc. All Rights Reserved. confidential 13 SREはあらゆるレイヤーと密接に関わる(= 顧客の信頼に関わるエンジニアリングをする集団故に) Biz Ops Dev SRE 「サイト信頼性エンジニアリング = 顧客の信頼に関わるエンジ ニアリング」を支えるSRE業務は、運用業務だけでなく、当然 アプリケーションの開発業務にも密接に関わる また、システムの目標であるSLOやSLAの定義を行うために ビジネスサイドとも密接に関わる つまりSRE は単一組織として自分たちのタスクに終始すれば 良いものではなく、様々な組織や役割と密接に連携し合いな がら実践していく必要がある横断的なチーム

Slide 14

Slide 14 text

SREの国内導入事例 Copyright © 3-shake, Inc. All Rights Reserved. confidential 14 スタートアップからエンタープライズまで幅広い企業に採用が増えている ・SRE Next スポンサー企業 https://sre-next.dev/2023/ (参照 2023/10/30) ・弁護士ドットコム株式会社 ・株式会社Flatt Security ・株式会社リンクアンドモチベーション ・合同会社DMM.com ・株式会社プレイド ・ニフティ株式会社 ・株式会社Topotal ・株式会社ビットキー ・株式会社Luup ・株式会社はてな ・NE株式会社 ・株式会社サイバーエージェント ・株式会社X-Tech5 ・株式会社メタップスホールディングス ・株式会社カオナビ ・Top Out Human Capital株式会社 ・株式会社エス・エム・エス ・ミイダス株式会社 ・株式会社クラウドワークス ・株式会社サムザップ ・ウォンテッドリー株式会社 ・株式会社アンドパッド ・株式会社メドレー ・株式会社カオナビ ・株式会社ヌーラボ

Slide 15

Slide 15 text

スリーシェイクが提供する SREコンサルティング(Sreake)について 02 Copyright © 3-shake, Inc. All Rights Reserved.

Slide 16

Slide 16 text

SREの内製化を支えるSreake(スリーク)概要 Copyright © 3-shake, Inc. All Rights Reserved. confidential 16 運用支援 アセスメント (パフォーマンス/セキュリティ) 構築/実装 支援 システム設計 技術戦略 コンサルティング SREの考え方に従って、AWSやGoogle Cloudを利用しているサービスの 技術戦略、設計、構築、運用までワンストップで対応 伴走型の支援で最終的にお客様の内製化・自走がゴール 各フェーズで適した人材をアサインす ることで、Sreakeのノウハウ・技術を 活用可能 お客様と同じチーム での支援 マイクロサービス、k8sなどクラウドネ イティブな技術領域に強みを持つ支 援を行う クラウドネイティブ支援 作って終わりではなく、お客様が運用 できるようにコンサル〜運用まで一貫 した支援を行う 運用を考えた支援

Slide 17

Slide 17 text

Sreake(スリーク)の支援内容 Copyright © 3-shake, Inc. All Rights Reserved. confidential 17 GOAL Entry ・クラウドアセスメント ・Googleクラウドワークショップ ・AWSワークショップ Starter ・ベストプラクティス環境パイロット Professional ・ネットワーク設計・構築・運用支援 ・アーキテクチャー設計構築・運用支援 ・マイグレーション設計・構築・運用支援 Forward support ・SRE導入支援 ・SRE組織構築支援 ・マイクロサービスの考え方 ・k8s入門 ・DevOpsの考え方 ・EKS、GKEパイロット ・Cloud runパイロット ・CI/CDパイロット ・Anthosパイロット ・k8s設計・構築・運用支援 ・CI/CD設計・構築・運用支援 ・業界別ワークショップ ・業界別ソリューション構築・  運用支援 ・BigQueryワークショップ ・Lookerワークショップ ・BigQueryパイロット ・Lookerパイロット ・データ基盤設計・構築・運用支援 ー ・MLアセスメント ・MLシリーズ(BQ ML, Dataflow ML, VertexAI)ワークショップ ・MLシリーズパイロット ・ML基盤設計・構築・運用支援 ー ・クラウドセキュリティアセスメント ・クラウドセキュリティパイロット ・セキュリティ設計・構築・運用支援 ・脆弱性診断サービス ・バグバウンティサービス Infra- Modernazation App- Modernazation Data/Analytics AI/ML Security ・APM・外形監視ワークショップ ・PagerDutyを利用したアラート対応改善 ・DatadogやCloudMonitoringなどのパイ ロット ・PagerDutyのパイロット導入 ・DatadogやCloudMonitoringなどを使用した 監視設計・構築・運用支援 ・PagerDutyを利用した運用効率化支援 ー Monitoring ・技術Q&A 共通

Slide 18

Slide 18 text

Sreake(スリーク)の強み Copyright © 3-shake, Inc. All Rights Reserved. confidential 18 モダナイゼーション クラウド利活用をさらに促進するための モダナイゼーション支援 Observability 様々なクラウド・技術を利用し複雑化し たサービスをリアルタイムに可視化 SRE セキュリティ、データ基盤、 MLに ついてもSREの考え方を応用して 支援(全てお客様が運用できるこ とを考えてご支援) セキュリティ・DBRE・MLOps CI/CDや各種改善など SREのメソッ ドをお客様のサービスに適用し、継 続的に改善が続けられるように支援 Sreake コンサル SI プラットフォームに 依存しない最新技 術を扱うことができ るか 他社に依存せず自 社で完結すること ができるか SRE支援ができる か お客様の内製化を ゴールにすることが できるか ▲ ✖ ✖ ▲ ▲