SREの仕事とは
by
h-nago
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
©2024 Metaps Holdings, Inc. 株式会社メタップスホールディングス SREリードエンジニア 名古 ⽞天 SREの仕事とは
Slide 2
Slide 2 text
©2024 Metaps Holdings, Inc. 社名 株式会社メタップスホールディングス (Metaps Holdings, Inc.) 設立 2023年1月26日 資本金 100百万円(資本準備金を含む) ※2023年12月末時点 所在地 東京都渋谷区渋谷二丁目24番12号 渋谷スクランブルスクエア 従業員数 72名 ※2023年12月末時点 経営陣 代表取締役 山﨑 祐一郎 取締役 原 大輔 取締役 青沼 克典 社外取締役 大谷 仁人 監査役 萩野矢 宏樹 事業内容 クラウドとAIを中心にしたインキュベーション テクノロジー企業への投資 MISSION テクノロジーでお金と経済のあり方を変える 世界を解き放つ VISION 会社概要
Slide 3
Slide 3 text
©2024 Metaps Holdings, Inc. ⾃⼰紹介 略歴 受託開発2年、SES2年、その後メタップス 趣味 紅茶、ウマ娘、FGO、アニメ 名古 ⽞天 株式会社メタップスホールディングス SREリードエンジニア Nago Harutaka @nago_harutaka
Slide 4
Slide 4 text
©2024 Metaps Holdings, Inc. 4 srestはAWSファンデーショナルテクニカルレビュー (FTR)認証を取得しています 無料トライアル実施中 >
Slide 5
Slide 5 text
©2024 Metaps Holdings, Inc. ©2024 Metaps Holdings, Inc. 5 インフラ基盤 アプリケーションが 動いてる環境 アプリケーションのエラーを トラッキングするツール オンコール担当 (SRE) に障害を エスカレーションするサービス インフラ基盤の監視 エラートラッキング オンコール通知 srestは各種インフラサービスのインテグレーション先となり、 各サービスのイベントログを集積‧可視化する基盤に イベントログの集積‧可視化 システムメトリクス 監視ツール 5 5 無料トライアル実施中 >
Slide 6
Slide 6 text
©2024 Metaps Holdings, Inc. はじめに SREは敷居が⾼く取り⼊れることが難しく思えます。SREについて調べてみて も、⾃分には関係ないような⼤きな話だったり難しい概念がでてきます。 ですが私はSREとはもっととっつきやすい⾝近な活動なんじゃないかと思って います。 今回は敷居が⾼く感じるSREが⾝近に感じられるように、業務改善活動との共 通点などをみながら話してみたいと思います。
Slide 7
Slide 7 text
©2024 Metaps Holdings, Inc. 今⽇話すこと: SREの仕事とは ● 敷居が⾼そうに⾒えるSRE ● 実は敷居が低いSRE活動 ○ SREでよく聞く課題 ○ SREはシステム開発‧運⽤業務の業務改善活動 ○ 業務改善活動だと思えば敷居はない ○ ⼩さな改善と⼤きな改善は分けて考える ○ ソリューションを使うことが正解ではない ● SREエンジニアと呼ばれる⼈は何者なのか
Slide 8
Slide 8 text
©2024 Metaps Holdings, Inc. 敷居が⾼そうに⾒えるSRE
Slide 9
Slide 9 text
©2024 Metaps Holdings, Inc. 敷居が⾼そうに⾒えるSRE AWSより サイト信頼性エンジニアリング(SRE)は、ソフトウェアツールを使用して、システム管理やアプリケーション監視などのITインフラストラクチャタスクを自動 化する方法です。組織はSREを使用して、開発チームからの頻繁な更新の中でソフトウェアアプリケーションの信頼性を維持します。ソフトウェアを使用 して大規模システムを管理する方が、数百台のマシンを手動で管理するよりも持続可能であるため、SREは特にスケーラブルなソフトウェアシステムの 信頼性を向上させます。 https://aws.amazon.com/jp/what-is/sre/ PagerDutyより 「SRE(Site Reliability Engineering)」とはシステム運用方法の一つで、日本語では「サイト信頼性エンジニアリング」と言います。Webサイトの安定的な運 用を支えるための方法論として、Google社が2004年に提唱しました。SREの大きな特徴として、「信頼性」をシステムの重要な機能の一つとしてとらえて いる点が挙げられます。システムの信頼性を確保し、より良いサービス提供につなげるためのツールやアプローチ方法を常に模索します。例えば、繰 り返しの作業や煩雑な手作業の削減、ソフトウェアを使用したITインフラにおけるシステムの自動化などに注力します。 https://www.pagerduty.co.jp/blog/what-is-sre/
Slide 10
Slide 10 text
©2024 Metaps Holdings, Inc. 敷居が⾼そうに⾒えるSRE ● 組織や⽂化の変⾰に⾔及するものも多い ● リーダーシップとか⼈を動かす⼒が必要そう ● たくさんSaaSやOSSを駆使している ● 必要な知識の範囲がとても広い(インフラ、アプリケーション、CI/CD、セ キュリティetc.) ● 規模がでかい ● 開発者とともに作るSite Reliability Enginieering ( https://speakerdeck.com/chaspy/sreing-with-developers ) ● エンタープライズ企業でのSRE立ち上げ挑戦の際に意識した事と気付き、現在地とこれから (https://speakerdeck.com/aeonpeople/sre-next-2023-entapuraizuqi-ye-denosreli-tishang-getiao-zhan-noji-niyi-shi-sitashi-toqi-fu-ki-xian-zai-di-tokorekara ) ● SREの組織に適したリーダーシップ理論の模索( https://speakerdeck.com/kenta_hi/srenozu-zhi-lei-xing-niokeruritasituhunokao-cha?slide=12 ) ● アラート駆動でログやメトリックを自動収集する仕組みによる恩恵 (https://speakerdeck.com/mashiike/warningaratowofang-zhi-sinai-aratoqu-dong-deroguyametoritukuwozi-dong-shou-ji-surushi-zu-miniyoruen-hui ) ● 増え続ける公開アプリケーションへの悪意あるアクセス。多層防御を取り入れるSRE活動。 (https://speakerdeck.com/yoshiiryo1/zeng-esok-kerugong-kai-ahurikesiyonhenoe-yi-aruakusesu-duo-ceng-fang-yu-woqu-riru-rerusrehuo-dong ) ● LINEスタンプのSREing事例集: 大きなスパイクアクセスをサバうた目のSREing( https://speakerdeck.com/line_developers/new-year-greeting-preparation-in-line-sticker )
Slide 11
Slide 11 text
©2024 Metaps Holdings, Inc. 実は敷居が低いSRE活動
Slide 12
Slide 12 text
©2024 Metaps Holdings, Inc. SREでよく聞く課題 ● 合意形成が難しい ● 導⼊した解決策が使われないことがある ● 反対勢⼒が現れることがある ● 権限の問題でやれることが限られる(予算を持っていないとか) ● 現場とSREの課題感がずれることがある コミュニケーションが重要 コミュニケーションが重要 コミュニケーションが重要
Slide 13
Slide 13 text
©2024 Metaps Holdings, Inc. SREでよく聞く課題 ● 合意形成が難しい ● 導⼊した解決策が使われないことがある ● 反対勢⼒が現れることがある ● 権限の問題でやれることが限られる(予算を持っていないとか) ● 現場とSREの課題感がずれることがある コミュニケーションが重要 コミュニケーションが重要 コミュニケーションが重要 業務改⾰‧業務改善
Slide 14
Slide 14 text
©2024 Metaps Holdings, Inc. SREはシステム開発‧運⽤業務の業務改善活動 ● Service Level Objectives ○ 投資判断に使うKPI。判断に使えるならなんだっていい。 ● Eliminating Toil、Release Engineering ○ 業務効率化 ● Simplicity ○ いわゆるECRS(Eliminate, Combine, Rearrange, Simplify)
Slide 15
Slide 15 text
©2024 Metaps Holdings, Inc. 業務改善活動だと思えば敷居はない ● 仮説を持ち ● 状況を分析し ● 対策を検討し ● やるかやらないか判断し ● 実⾏する 現場や組織の課題解決
Slide 16
Slide 16 text
©2024 Metaps Holdings, Inc. 業務改善活動だと思えば敷居はない ● デプロイ難しすぎてAさんしかできない。Aさん忙しくてデプロイできない ○ デプロイスクリプト書く ● 本番環境で1つリソース作り忘れてコケる(チェックリストはあったんですけ どね、、) ○ IaC化して確実に同じもの揃うようにしようか ● 各AWSアカウントにMFA使ってログインし直すのが地味に⾯倒、、 ○ Swich Role?Identity Center?今使ってるIDPからログイン? ● ⻑⼤なメソッド多くて理解しにくい ○ lintいれてこれ以上は埋め込まないようにしようか ● なんか上⼿く回ってないけど何していいかわかんない! ○ 勉強会しよう、コンサル⼊れよう
Slide 17
Slide 17 text
©2024 Metaps Holdings, Inc. ⼩さな改善と⼤きな改善は分けて考える ● ⼩さな改善 ○ ⾃分や⾃分のチームで完結する内容 ■ チームで使う管理ツール⼊れてみようか ○ すぐ終わる内容 ■ これスクリプト書いてみよっか ● ⼤きな改善 ○ 複数チームに影響する内容 ■ SLOで意思決定を! ○ 実施に時間がかかる内容 ■ データ可視化⽤の基盤を作りましょう
Slide 18
Slide 18 text
©2024 Metaps Holdings, Inc. ⼩さな改善と⼤きな改善は分けて考える ● ⼩さな改善 ○ 普段からこれちょっと⾯倒だよね、を意識してみる。改善案は即実⾏。 ○ 改善結果を振り返ってみる(KPT) ● ⼤きな改善 ○ ⾃分だけで抱え込んではいけません! ○ しっかり課題分析や対策検討を実施した上で意思決定者を巻き込むべき ○ 課題分析の時間もとれないのなら、課題があると折につけ声を上げる ○ こと⼤きな改善については業務改善系のいい書籍がいっぱいある ■ 改善議論には実際に業務をしている⼈を巻き込む ■ 上から改善の意義を ■ 伝え⽅の⼯夫をする(広報や総務(コミュニケーションと環境設定のプロ)を巻き込む) ■ 提案者と実⾏者は分ける ■ ↑「業務改善の問題地図」より
Slide 19
Slide 19 text
©2024 Metaps Holdings, Inc. スーパーマンである必要はない 分からないことは AWS詳しいです! AWSのサービス使えば実現で きたりするのかな
Slide 20
Slide 20 text
©2024 Metaps Holdings, Inc. スーパーマンである必要はない 聞けばいい AWS詳しいです! 教えて!
Slide 21
Slide 21 text
©2024 Metaps Holdings, Inc. 全員がスーパーマンはいいことか それぞれが「俺の考えた最強の」を実⾏した世界 想像してください
Slide 22
Slide 22 text
©2024 Metaps Holdings, Inc. 全員がスーパーマンはいいことか 我々は組織で働いています 単独プレーが横⾏すれば属⼈化によって滅ぼされます
Slide 23
Slide 23 text
©2024 Metaps Holdings, Inc. 余談:ソリューションを使うことが正解ではない ● オブザーバビリティツールで分散トレースしましょう! ● SLOを作りました!⾒てください! ● CI/CDはマストです!⼿作業をこちらのパイプラインに乗せてください! ● 今時Dockerです!コンテナ化しましょう! ● ECSだ!k8sだ! ● いまどきPHPはね、、、いけてるRustで作り直しましょう! ● サーバーの⾃動復旧やオートスケーリングをしないなんて考えられないで す。
Slide 24
Slide 24 text
©2024 Metaps Holdings, Inc. 余談:ソリューションを使うことが正解ではない ● オブザーバビリティツールで分散トレースしましょう! ● SLOを作りました!⾒てください! ● CI/CDはマストです!⼿作業をこちらのパイプラインに乗せてください! ● 今時Dockerです!コンテナ化しましょう! ● ECSだ!k8sだ! ● いまどきPHPはね、、、いけてるRustで作り直しましょう! ● サーバーの⾃動復旧やオートスケーリングをしないなんて考えられないで す。 本当に?
Slide 25
Slide 25 text
©2024 Metaps Holdings, Inc. 余談:ソリューションを使うことが正解ではない ● オブザーバビリティツールで分散トレースしましょう! ○ ログで⼗分なことも多々あります ● SLOを作りました!⾒てください! ○ SLOを必要とする課題感を現場や経営層は持ってますか? ● CI/CDはマストです!⼿作業をこちらのパイプラインに乗せてください! ○ ⼿作業にどれだけかかっていますか?ミスはどれだけありますか? ● 今時Dockerです!コンテナ化しましょう! ● ECSだ!k8sだ! ○ コンテナに載せ替える労⼒に⾜るメリットはありますか? ● いまどきPHPはね、、、いけてるRustで作り直しましょう! ○ 作り直してどれだけなんの改善が⾒込めますか? ● サーバーの⾃動復旧やオートスケーリングをしないなんて考えられないです。 ○ ホットスタンバイ1台起動しておくだけで可⽤性⼗分じゃないですか?
Slide 26
Slide 26 text
©2024 Metaps Holdings, Inc. SREエンジニアと呼ばれる⼈は何者なのか
Slide 27
Slide 27 text
©2024 Metaps Holdings, Inc. SREエンジニアは、業務改善活動のプロジェクトメンバー ● 業務改善活動はチームで実施することが多い。そのチームメンバー。 ● 専任の場合もあれば兼務の場合もあるので、基本インフラエンジニアなんで すが、、、という場合でもSREエンジニアでいいと思う ● フロントエンドしかしりません!だったとしても改善チームにいるのであれ ばSREエンジニア ○ フロントエンドの詳細や利⽤ユーザー⽬線での発⾔なんてフロントエン ドやカスタマーサクセス系の⼈に勝るものはいない ○ もちろん本気で取り組むなら他の分野のことも知った⽅がいいけど ● もちろんそれを本業としたりコンサルティングをする⼈だったりもする
Slide 28
Slide 28 text
©2024 Metaps Holdings, Inc. SREは業務改善活動 SREエンジニアは改善プロジェクトメンバー
Slide 29
Slide 29 text
©2024 Metaps Holdings, Inc. SREを実現するのは現場の皆さんです
Slide 30
Slide 30 text
©2024 Metaps Holdings, Inc. 怯まずより良いSREライフを そしてより良いシステムを