Upgrade to Pro — share decks privately, control downloads, hide ads and more …

オープンセミナー2024@広島 − XRE エンジニアを支える組織_信頼性を高めるって結局何だ...

tomo
November 08, 2024
1.3k

オープンセミナー2024@広島 − XRE エンジニアを支える組織_信頼性を高めるって結局何だったの?

「オープンセミナー2024@広島 − XRE エンジニアを支える組織」でお話させていただいた、「信頼性を高めるって結局何だったの?」と題したセッションの資料です。

tomo

November 08, 2024
Tweet

Transcript

  1. 8 XREの種類 SRE サイトやサービスの信頼性とパフォーマンスを 確保するために、ソフトウェアエンジニアリング の手法を用いてシステムを運用・管理します。 監視、インシデント対応、自動化、 キャパシティプランニングなどが 主な仕事です。 DBRE

    データベースの信頼性、パフォーマンス、 スケーラビリティを確保することに特化した役割です。 データベースシステムの最適化、運用自動化、 バックアップやリカバリー計画の策定などを 主に行います。 Site Reliability Engineering Database Reliability Engineering
  2. 9 XREの種類 CRE 主にクラウドプロバイダーや大規模サービスを 運営する企業において、顧客のシステムが高い信頼性を 持つよう支援する役割です。 顧客と緊密に連携して、信頼性向上のための ベストプラクティスを提供します。 PRE クラウドプラットフォームや社内のインフラ基盤の

    信頼性を高めるための役割です。 Kubernetes、CI/CDシステム、クラウドサービス などのプラットフォームの設計・運用が 主なフォーカスです。 Customer Reliability Engineering Platform Reliability Engineering
  3. 10 XREの種類 NRE ネットワークインフラの信頼性を確保する役割です。 ネットワークの設計、監視、インシデント対応、 トラフィック最適化などが主な業務です。 ネットワークと言っても大規模ネットワーク だけでなく、オフィス内ネットワーク等 広範囲に渡ます。 MRE

    機械学習モデルの運用、デプロイ、監視、信頼性の 確保に特化した役割です。 データパイプラインの監視やモデルの スケールアウト、自動化などを行います。 Network Reliability Engineering Machine Learning Reliability Engineering
  4. 22 個の信頼性 • 最初に築く信頼性は「個」 ◦ XREの基礎。各オライリーに主に書いて   あるのは、この分野のノウハウ ◦ 人、システム、もう少しミクロなもので   あることもある

    ▪ 早期かつポイントを押さえたポストモーテム ▪ 障害に対する迅速な原因究明・暫定恒久   対処の立案 ◦ 技術的な対応だけでなく、論理的に説明   するなど、技術以外の手段も重要 ▪ クリティカルシンキング等 • せっかく取ったメトリクスも、うまく  説明できなかったらもったいない
  5. 24 組織の信頼性 • 「個」から「組織」へ ◦ XREの各オライリーにこの分野も記載され ている ◦ 組織としての定量的なGOALを定めるこは当 たり前として、それがお客様に    ど

    のように貢献できるのかを定める ▪ 言うのは簡単だが、難しい… • 効果出しづらいので、マネジメント層が頭を  悩ませるところ • ユーザー体験向上って、早い=良い、でもない ◦ 「あの部署にお願いしたら大丈夫」と思わ れたら
  6. 25 企業の信頼性 • 「組織」から「企業」へ ◦ 組織の信頼から、企業への信頼へ ◦ 企業クラスになると、主に以下のポイント が重視される ▪

    市場における信頼性 ▪ 企業間 ▪ etc… 個と組織の積み重ねによって 築き上げてきたもの 「当たり前にある」もの 企業にとっての命 この努力によって 築き上げた信頼を 一瞬で失うのが セキュリティ事故