Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SREの仕事とは

h-nago
May 17, 2024
770

 SREの仕事とは

 SREは敷居が⾼く取り⼊れることが難しく思えます。SREについて調べてみて
も、⾃分には関係ないような⼤きな話だったり難しい概念がでてきます。
 ですが私はSREとはもっととっつきやすい⾝近な活動なんじゃないかと思って
います。
 今回は敷居が⾼く感じるSREが⾝近に感じられるように、業務改善活動との共
通点などをみながら話してみたいと思います。

h-nago

May 17, 2024
Tweet

Transcript

  1. ©2024 Metaps Holdings, Inc. 社名
 株式会社メタップスホールディングス 
 (Metaps Holdings, Inc.)

    
 設立
 2023年1月26日  
 資本金
 100百万円(資本準備金を含む)
 ※2023年12月末時点
 所在地
 東京都渋谷区渋谷二丁目24番12号 
 渋谷スクランブルスクエア 
 従業員数
 72名 ※2023年12月末時点
 経営陣
 代表取締役 山﨑 祐一郎 取締役   原 大輔 
 取締役   青沼 克典 
 社外取締役 大谷 仁人 
 監査役   萩野矢 宏樹 事業内容
 クラウドとAIを中心にしたインキュベーション 
 テクノロジー企業への投資 
 
 MISSION テクノロジーでお金と経済のあり方を変える 
 
 世界を解き放つ
 
 
 VISION 会社概要
  2. ©2024 Metaps Holdings, Inc. ⾃⼰紹介 略歴 受託開発2年、SES2年、その後メタップス 趣味 紅茶、ウマ娘、FGO、アニメ 名古

    ⽞天 株式会社メタップスホールディングス SREリードエンジニア Nago Harutaka @nago_harutaka
  3. ©2024 Metaps Holdings, Inc. ©2024 Metaps Holdings, Inc. 5 インフラ基盤

    アプリケーションが 動いてる環境 アプリケーションのエラーを トラッキングするツール オンコール担当 (SRE) に障害を エスカレーションするサービス インフラ基盤の監視 エラートラッキング オンコール通知 srestは各種インフラサービスのインテグレーション先となり、 各サービスのイベントログを集積‧可視化する基盤に イベントログの集積‧可視化 システムメトリクス 監視ツール 5 5 無料トライアル実施中 >
  4. ©2024 Metaps Holdings, Inc. 今⽇話すこと: SREの仕事とは • 敷居が⾼そうに⾒えるSRE • 実は敷居が低いSRE活動

    ◦ SREでよく聞く課題 ◦ SREはシステム開発‧運⽤業務の業務改善活動 ◦ 業務改善活動だと思えば敷居はない ◦ ⼩さな改善と⼤きな改善は分けて考える ◦ ソリューションを使うことが正解ではない • SREエンジニアと呼ばれる⼈は何者なのか
  5. ©2024 Metaps Holdings, Inc. 敷居が⾼そうに⾒えるSRE AWSより サイト信頼性エンジニアリング(SRE)は、ソフトウェアツールを使用して、システム管理やアプリケーション監視などのITインフラストラクチャタスクを自動 化する方法です。組織はSREを使用して、開発チームからの頻繁な更新の中でソフトウェアアプリケーションの信頼性を維持します。ソフトウェアを使用 して大規模システムを管理する方が、数百台のマシンを手動で管理するよりも持続可能であるため、SREは特にスケーラブルなソフトウェアシステムの 信頼性を向上させます。


    https://aws.amazon.com/jp/what-is/sre/
 PagerDutyより 「SRE(Site Reliability Engineering)」とはシステム運用方法の一つで、日本語では「サイト信頼性エンジニアリング」と言います。Webサイトの安定的な運 用を支えるための方法論として、Google社が2004年に提唱しました。SREの大きな特徴として、「信頼性」をシステムの重要な機能の一つとしてとらえて いる点が挙げられます。システムの信頼性を確保し、より良いサービス提供につなげるためのツールやアプローチ方法を常に模索します。例えば、繰 り返しの作業や煩雑な手作業の削減、ソフトウェアを使用したITインフラにおけるシステムの自動化などに注力します。
 https://www.pagerduty.co.jp/blog/what-is-sre/

  6. ©2024 Metaps Holdings, Inc. 敷居が⾼そうに⾒えるSRE • 組織や⽂化の変⾰に⾔及するものも多い • リーダーシップとか⼈を動かす⼒が必要そう •

    たくさんSaaSやOSSを駆使している • 必要な知識の範囲がとても広い(インフラ、アプリケーション、CI/CD、セ キュリティetc.) • 規模がでかい • 開発者とともに作るSite Reliability Enginieering ( https://speakerdeck.com/chaspy/sreing-with-developers )
 • エンタープライズ企業でのSRE立ち上げ挑戦の際に意識した事と気付き、現在地とこれから (https://speakerdeck.com/aeonpeople/sre-next-2023-entapuraizuqi-ye-denosreli-tishang-getiao-zhan-noji-niyi-shi-sitashi-toqi-fu-ki-xian-zai-di-tokorekara )
 • SREの組織に適したリーダーシップ理論の模索( https://speakerdeck.com/kenta_hi/srenozu-zhi-lei-xing-niokeruritasituhunokao-cha?slide=12 )
 • アラート駆動でログやメトリックを自動収集する仕組みによる恩恵 (https://speakerdeck.com/mashiike/warningaratowofang-zhi-sinai-aratoqu-dong-deroguyametoritukuwozi-dong-shou-ji-surushi-zu-miniyoruen-hui )
 • 増え続ける公開アプリケーションへの悪意あるアクセス。多層防御を取り入れるSRE活動。 (https://speakerdeck.com/yoshiiryo1/zeng-esok-kerugong-kai-ahurikesiyonhenoe-yi-aruakusesu-duo-ceng-fang-yu-woqu-riru-rerusrehuo-dong )
 • LINEスタンプのSREing事例集: 大きなスパイクアクセスをサバうた目のSREing( https://speakerdeck.com/line_developers/new-year-greeting-preparation-in-line-sticker )

  7. ©2024 Metaps Holdings, Inc. SREでよく聞く課題 • 合意形成が難しい • 導⼊した解決策が使われないことがある •

    反対勢⼒が現れることがある • 権限の問題でやれることが限られる(予算を持っていないとか) • 現場とSREの課題感がずれることがある コミュニケーションが重要 コミュニケーションが重要 コミュニケーションが重要
  8. ©2024 Metaps Holdings, Inc. SREでよく聞く課題 • 合意形成が難しい • 導⼊した解決策が使われないことがある •

    反対勢⼒が現れることがある • 権限の問題でやれることが限られる(予算を持っていないとか) • 現場とSREの課題感がずれることがある コミュニケーションが重要 コミュニケーションが重要 コミュニケーションが重要 業務改⾰‧業務改善
  9. ©2024 Metaps Holdings, Inc. SREはシステム開発‧運⽤業務の業務改善活動 • Service Level Objectives ◦

    投資判断に使うKPI。判断に使えるならなんだっていい。 • Eliminating Toil、Release Engineering ◦ 業務効率化 • Simplicity ◦ いわゆるECRS(Eliminate, Combine, Rearrange, Simplify)
  10. ©2024 Metaps Holdings, Inc. 業務改善活動だと思えば敷居はない • 仮説を持ち • 状況を分析し •

    対策を検討し • やるかやらないか判断し • 実⾏する 現場や組織の課題解決
  11. ©2024 Metaps Holdings, Inc. 業務改善活動だと思えば敷居はない • デプロイ難しすぎてAさんしかできない。Aさん忙しくてデプロイできない ◦ デプロイスクリプト書く •

    本番環境で1つリソース作り忘れてコケる(チェックリストはあったんですけ どね、、) ◦ IaC化して確実に同じもの揃うようにしようか • 各AWSアカウントにMFA使ってログインし直すのが地味に⾯倒、、 ◦ Swich Role?Identity Center?今使ってるIDPからログイン? • ⻑⼤なメソッド多くて理解しにくい ◦ lintいれてこれ以上は埋め込まないようにしようか • なんか上⼿く回ってないけど何していいかわかんない! ◦ 勉強会しよう、コンサル⼊れよう
  12. ©2024 Metaps Holdings, Inc. ⼩さな改善と⼤きな改善は分けて考える • ⼩さな改善 ◦ ⾃分や⾃分のチームで完結する内容 ▪

    チームで使う管理ツール⼊れてみようか ◦ すぐ終わる内容 ▪ これスクリプト書いてみよっか • ⼤きな改善 ◦ 複数チームに影響する内容 ▪ SLOで意思決定を! ◦ 実施に時間がかかる内容 ▪ データ可視化⽤の基盤を作りましょう
  13. ©2024 Metaps Holdings, Inc. ⼩さな改善と⼤きな改善は分けて考える • ⼩さな改善 ◦ 普段からこれちょっと⾯倒だよね、を意識してみる。改善案は即実⾏。 ◦

    改善結果を振り返ってみる(KPT) • ⼤きな改善 ◦ ⾃分だけで抱え込んではいけません! ◦ しっかり課題分析や対策検討を実施した上で意思決定者を巻き込むべき ◦ 課題分析の時間もとれないのなら、課題があると折につけ声を上げる ◦ こと⼤きな改善については業務改善系のいい書籍がいっぱいある ▪ 改善議論には実際に業務をしている⼈を巻き込む ▪ 上から改善の意義を ▪ 伝え⽅の⼯夫をする(広報や総務(コミュニケーションと環境設定のプロ)を巻き込む) ▪ 提案者と実⾏者は分ける ▪ ↑「業務改善の問題地図」より
  14. ©2024 Metaps Holdings, Inc. 余談:ソリューションを使うことが正解ではない • オブザーバビリティツールで分散トレースしましょう! • SLOを作りました!⾒てください! •

    CI/CDはマストです!⼿作業をこちらのパイプラインに乗せてください! • 今時Dockerです!コンテナ化しましょう! • ECSだ!k8sだ! • いまどきPHPはね、、、いけてるRustで作り直しましょう! • サーバーの⾃動復旧やオートスケーリングをしないなんて考えられないで す。
  15. ©2024 Metaps Holdings, Inc. 余談:ソリューションを使うことが正解ではない • オブザーバビリティツールで分散トレースしましょう! • SLOを作りました!⾒てください! •

    CI/CDはマストです!⼿作業をこちらのパイプラインに乗せてください! • 今時Dockerです!コンテナ化しましょう! • ECSだ!k8sだ! • いまどきPHPはね、、、いけてるRustで作り直しましょう! • サーバーの⾃動復旧やオートスケーリングをしないなんて考えられないで す。 本当に?
  16. ©2024 Metaps Holdings, Inc. 余談:ソリューションを使うことが正解ではない • オブザーバビリティツールで分散トレースしましょう! ◦ ログで⼗分なことも多々あります •

    SLOを作りました!⾒てください! ◦ SLOを必要とする課題感を現場や経営層は持ってますか? • CI/CDはマストです!⼿作業をこちらのパイプラインに乗せてください! ◦ ⼿作業にどれだけかかっていますか?ミスはどれだけありますか? • 今時Dockerです!コンテナ化しましょう! • ECSだ!k8sだ! ◦ コンテナに載せ替える労⼒に⾜るメリットはありますか? • いまどきPHPはね、、、いけてるRustで作り直しましょう! ◦ 作り直してどれだけなんの改善が⾒込めますか? • サーバーの⾃動復旧やオートスケーリングをしないなんて考えられないです。 ◦ ホットスタンバイ1台起動しておくだけで可⽤性⼗分じゃないですか?
  17. ©2024 Metaps Holdings, Inc. SREエンジニアは、業務改善活動のプロジェクトメンバー • 業務改善活動はチームで実施することが多い。そのチームメンバー。 • 専任の場合もあれば兼務の場合もあるので、基本インフラエンジニアなんで すが、、、という場合でもSREエンジニアでいいと思う

    • フロントエンドしかしりません!だったとしても改善チームにいるのであれ ばSREエンジニア ◦ フロントエンドの詳細や利⽤ユーザー⽬線での発⾔なんてフロントエン ドやカスタマーサクセス系の⼈に勝るものはいない ◦ もちろん本気で取り組むなら他の分野のことも知った⽅がいいけど • もちろんそれを本業としたりコンサルティングをする⼈だったりもする