Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ゆるSRE勉強会 #8 組織的にSREが始まる中で意識したこと
Search
abnoumaru
November 29, 2024
Technology
2
1.6k
ゆるSRE勉強会 #8 組織的にSREが始まる中で意識したこと
ゆるSRE勉強会 #8 で話したときの資料です
https://yuru-sre.connpass.com/event/332731/
abnoumaru
November 29, 2024
Tweet
Share
More Decks by abnoumaru
See All by abnoumaru
IVRyエンジニア忘年LT大会2024 クリティカルユーザージャーニーの整理
abnoumaru
0
220
3-shake SRE Tech Talk #10 LLMのO11yに触れる
abnoumaru
2
11k
マイクロサービスの現場からプラットフォームエンジニアリングの可能性を探る!
abnoumaru
2
9.9k
SLOいつ決めましょう?
abnoumaru
5
2.4k
あなたらしくSRE(公開用)
abnoumaru
5
7.8k
SRE Lounge 20180117
abnoumaru
0
6.6k
IDCFクラウドを使ってどこまでチューニングできるか試してみた
abnoumaru
0
220
AWS認定ソリューションアーキテクトを受けた話
abnoumaru
1
1.9k
Other Decks in Technology
See All in Technology
CNAPPから考えるAWSガバナンスの実践と最適化
yuobayashi
5
680
Grafanaのvariables機能について
tiina
0
180
もし今からGraphQLを採用するなら
kazukihayase
9
4.2k
Skip Skip Run Run Run ♫
temoki
0
360
アクセシブルなマークアップの上に成り立つユーザーファーストなドロップダウンメニューの実装 / 20250127_cloudsign_User1st_FE
bengo4com
2
1.2k
Postman Vaultを使った秘密情報の安全な管理
nagix
3
130
エンジニアとしてプロダクトマネジメントに向き合った1年半
sansantech
PRO
0
100
Site Reliability Engineering on Kubernetes
nwiizo
6
4.4k
Redmineの意外と知らない便利機能 (Redmine 6.0対応版)
vividtone
0
190
panicを深ぼってみる
kworkdev
PRO
2
150
[2024年10月版] Notebook 2.0のご紹介 / Notebook2.0
databricksjapan
0
1.6k
マルチデータプロダクト開発・運用に耐えるためのデータ組織・アーキテクチャの遷移
mtpooh
0
110
Featured
See All Featured
A Tale of Four Properties
chriscoyier
157
23k
Large-scale JavaScript Application Architecture
addyosmani
510
110k
What's in a price? How to price your products and services
michaelherold
244
12k
Adopting Sorbet at Scale
ufuk
74
9.2k
Fashionably flexible responsive web design (full day workshop)
malarkey
406
66k
How to Think Like a Performance Engineer
csswizardry
22
1.3k
Building a Scalable Design System with Sketch
lauravandoore
460
33k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
Product Roadmaps are Hard
iamctodd
PRO
50
11k
BBQ
matthewcrist
85
9.4k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
6
220
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
356
29k
Transcript
組織的にSREが始まる中で意識したこと 2024/11/29 ゆるSRE勉強会 #8 abnoumaru @ IVRy Inc.
⾃⼰紹介 学⽣アルバイト兼1社⽬ - 株式会社ハートビーツ 2社⽬ - 株式会社スリーシェイク 3社⽬ - 株式会社IVRy(現職)
id: abnoumaru 2 Engineer Circle / Platform Team
対話型⾳声AI SaaS IVRy 3 ⽉額2,980円からカスタム電話をカンタンに作成できるサービス 全ての電話業務を誰でもすぐにAIを使って効率化できます
電話を当たり前に取れない時代 4
業態に合わせた⾃由な応答設定 5 ダイヤルプッシュとAIの対話をハイブリッドで設定し、 受けたい電話と⾃動化したい電話を分類。電話業務を効率化できる
なぜ話そうと思ったか?
経歴 7 1社⽬:MSP事業で24/365のインフラ運⽤‧監視‧移設‧構築 2社⽬:SREの考えをベースに技術‧組織⽀援 会社の内側からSREの考えを活かして サービスや組織にアプローチする働き⽅をしてみたくなり事業会社に転職 ⼊社エントリ 👉 https://note.com/abnoumaru/n/n1d4833b8a2f5
組織的にSREが始まろうとしている 8 10⽉⼊社でQの⽬標としてもらったタスクが組織的なSLO導⼊ これまでの経験は活きているかな?を整理したくなった 新しく⼊った組織でSREを始めるにあたり意識していることや SLO導⼊をどう実施しているか共有したい これにより誰かの助けになったり懇親会で議論の端緒にしたい
背景
IVRyのアーキテクチャ 10 つながって当たり前(電話) + 間違った情報を発話すると取り返しがつかない(LLM) ⾼いサービスレベルとチャレンジングな領域が混ざり合うエキサイティングな環境 詳しいアーキテクチャは弊社町⽥の資料をご覧ください 🙇 https://speakerdeck.com/ymachida/architecture-of-a-large-scale-automated-phone-response-service-supporting-25-million-cumulative-calls
IVRyのSRE 11 2023年末3名→2024年11⽉現在6名(ローテーション組める!) インフラ‧基盤の改善やSREの⽂化づくりに軸を置くメンバーが増えてきている SREをはじめよう 「16章 SRE組織の進化段階」でいうと 消防⼠からゲートキーパーに⾜を踏み⼊れたような段階 ex. 権限管理が本格的に始まる
https://zenn.dev/ivry/articles/9d62808ec3eb61 David N. Blank-Edelman 著; 山口 能迪 訳; “SREをはじめよう ―個人と組織による信頼性獲得への第一歩 ”, O’Reilly Japan, 2024年.
SREに関連しそうなトピック 12 2020/11 2021/05 2021/08 2023/04 2024/11 サービス成⻑や開発速度を ⾒据えてインフラ移管計画 (完全にECSに移動、
Terraform…) エンジニアの⼈数増加 2022年1Q 2名 2024年4Q 34名 個から組織/仕組みへの転換 インフラに軸を置く 正社員が⼊社 (インフラリリースで 奥⻄の⽴ち会いが不要に) コロナのワクチン接種予約 初めてのスパイク 正式リリース CEOの奥⻄はエンジニアのバックグラウンドがある
現状
元々信頼性に関する良い⽂化がたくさんある! 14 インシデントレスポンス 組織全体で不具合をキャッチ/報告する⽂化が強いと感じる(ボールを拾う) PdMがインシデントコマンダーを実施している ポストモーテムもすでに始まっていた ユーザに届けたい/届いている価値は何か?を意識する瞬間が多い 「ユーザからこういう嬉しい声が届きました」が集まるReacjiがある 導⼊事例インタビューに誰でも参加可能 (モチベーションアップ、フィードバックを得やすい)
新メンバーによるあるべき論の議論 15 新メンバーでも⾃分なりの考えやこれまでの経験をベースにツールや⽂化を いい⽅向に持っていくような問題提起をしやすい環境かつ⽂章に残すメンバーが多い印象 新メンバーから議論が残っていて助かるという声が⽴て続けにあり ⾔語化の⼤切さを改めて認識
データ/リリース/O11yの基盤整備が促進 16 メンバーが増え新しい仕組みの導⼊や構成変更が活発になってきた 例えばDatadog APMの導⼊により... リリース後の不審なシステムメトリクスや意図しない挙動を 理解し説明できる尺度が上がってきた👍 課題もある リアクティブに対応が⾏われている部分をなるべく減らしたい O11yが向上により明らかになるメトリクスやエラーに対応する基準を作りたい
SREとして意識していること
リリースや障害対応に積極的に参加 18 SREの探求「20.1.3 アクティブラーニングの実例」を意識 積極的に議論に参加して何もわからない状態から ⾃分で調べて不明点は後で有識者に聞くドキュメントで答え合わせする SREに好奇⼼は重要な要素 (SREをはじめようにも書いてある) わからないことがある前提で動くということは 新しい顧客の知らない環境に⾶び込む経験が活きていそう
David N. Blank-Edelman 編、山口 能迪 監訳、渡邉 了介 訳; “SREの探求 ―様々な企業におけるサイトリライアビリティエンジニアリングの導入と実践 ”, O’Reilly Japan, 2021年.
歴史を学ぶ 19 組織やシステムの歴史を理解することは、信頼を築くひとつの⽅法 過去の課題や選択や感情や価値観(ストーリー)を理解することで 現状も理解できるし改善提案に説得⼒が増し、チームの協⼒を得やすくなる SREをはじめようでも5.5でストーリーテリングの重要性について語られている 他社と働くでいうナラティヴの溝を超える感覚 前職までの経験則としても⼤事だと感じる (⾃分が単純に楽しそうにそういう話をしているのを聞くの好きなだけかも) 宇田川
元一 著; “他者と働く~「わかりあえなさ」から始める組織論~ ”, NewsPicksパブリッシング , 2019年.
⚠ お伺い⽴てすぎない 20 これまでの顧客の環境に変更を加えるスタイルだと 見えない背景も多いので報告してから実施がベターな場合もあった もちろん環境が違えばスタイルも違うので 出せるはずのスピードが最初出せていなかったのは反省 フィードバックやサポートでアンラーンが促進して ありがたかった!
SLO導⼊の例
⻑期的な施策になりがち 22 カルチャーやドメイン知識が必要でハイコンテクスト 技術的には地道に計測/視覚化/通知やレポートの整備が必要 ⼩さく始めてイテレーションを繰り返し改善していく ⾃然と関係者も多くなる 活動として迷⼦、⾃然消滅が発⽣する
ドキュメントやマイルストーンの管理する 23 ⽅向性を⽰すこと、⼩さくても進んでいることが周囲に伝わりやすい努⼒が⼤事 前職まで提案や⽀援の計画を整備していた経験は活きている
嬉しかったこと 24 CUJを把握するMTGにPdMやデザイナーを巻き込めて⼤変いい時間だった 前職までワークショップや説明をする役を多くした経験は活きている
SLOの現状 25 仮置きでも項⽬を増やして週次定例で値の推移を⼀部観察し始めている Datadog APMとSLOの機能を利⽤(以下はレイテンシ) 値の推移が追える👍 「実はここ遅かったのか」という気付き👍 ⾚いところあるけどまだ項⽬ごと適切なターゲットではない ex. リクエスト数が少なく⾚くなりやすい部分は要調整
SLOの課題 26 ELBではなくAPMを優先した理由 /hoge/:id のようなパスを集計がAPMならデフォルトでできる 今後ユーザの近いELBでも取得したいので以下を考える 上記のようなパス集計をどの仕組みでやるか? (DatadogのLog pipeline?自分でLambdaなどでやる?) 4xx台をエラーをどう集計するか?
(WAFの4xx台はGood…?/TwilioとELB間の460はBad)
最後に 27 IVRyの背景や⽂化を紹介しつつ はじめて事業会社に⼊ったメンバーが SREのプラクティス導⼊をするうえで意識していることや これまでの経験で活きていることを紹介した あなたの会社の良い⽂化‧SREのプラクティス導⼊の進め⽅ ぜひ教えて下さい!
None