Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ゆるSRE勉強会 #8 組織的にSREが始まる中で意識したこと
Search
abnoumaru
November 29, 2024
Technology
2
1.5k
ゆるSRE勉強会 #8 組織的にSREが始まる中で意識したこと
ゆるSRE勉強会 #8 で話したときの資料です
https://yuru-sre.connpass.com/event/332731/
abnoumaru
November 29, 2024
Tweet
Share
More Decks by abnoumaru
See All by abnoumaru
IVRyエンジニア忘年LT大会2024 クリティカルユーザージャーニーの整理
abnoumaru
0
190
3-shake SRE Tech Talk #10 LLMのO11yに触れる
abnoumaru
2
10k
マイクロサービスの現場からプラットフォームエンジニアリングの可能性を探る!
abnoumaru
2
9.5k
SLOいつ決めましょう?
abnoumaru
5
2.3k
あなたらしくSRE(公開用)
abnoumaru
4
7.7k
SRE Lounge 20180117
abnoumaru
0
6.6k
IDCFクラウドを使ってどこまでチューニングできるか試してみた
abnoumaru
0
210
AWS認定ソリューションアーキテクトを受けた話
abnoumaru
1
1.9k
Other Decks in Technology
See All in Technology
Storage Browser for Amazon S3
miu_crescent
1
320
社内イベント管理システムを1週間でAKSからACAに移行した話し
shingo_kawahara
0
230
組織に自動テストを書く文化を根付かせる戦略(2024冬版) / Building Automated Test Culture 2024 Winter Edition
twada
PRO
23
6.5k
非機能品質を作り込むための実践アーキテクチャ
knih
6
1.7k
サーバーなしでWordPress運用、できますよ。
sogaoh
PRO
0
150
[Oracle TechNight#85] Oracle Autonomous Databaseを使ったAI活用入門
oracle4engineer
PRO
1
180
多領域インシデントマネジメントへの挑戦:ハードウェアとソフトウェアの融合が生む課題/Challenge to multidisciplinary incident management: Issues created by the fusion of hardware and software
bitkey
PRO
2
130
終了の危機にあった15年続くWebサービスを全力で存続させる - phpcon2024
yositosi
28
24k
ガバナンスを支える新サービス / New Services to Support Governance
sejima1105
1
650
Unlearn Product Development - Unleashed Edition
lemiorhan
PRO
2
150
Google Cloud で始める Cloud Run 〜AWSとの比較と実例デモで解説〜
risatube
PRO
0
120
Oracle Cloudの生成AIサービスって実際どこまで使えるの? エンジニア目線で試してみた
minorun365
PRO
5
320
Featured
See All Featured
How to Ace a Technical Interview
jacobian
276
23k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
6
470
VelocityConf: Rendering Performance Case Studies
addyosmani
326
24k
Side Projects
sachag
452
42k
A better future with KSS
kneath
238
17k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
27
1.5k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
365
25k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
26
1.9k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
3
310
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
232
17k
Rebuilding a faster, lazier Slack
samanthasiow
79
8.7k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
Transcript
組織的にSREが始まる中で意識したこと 2024/11/29 ゆるSRE勉強会 #8 abnoumaru @ IVRy Inc.
⾃⼰紹介 学⽣アルバイト兼1社⽬ - 株式会社ハートビーツ 2社⽬ - 株式会社スリーシェイク 3社⽬ - 株式会社IVRy(現職)
id: abnoumaru 2 Engineer Circle / Platform Team
対話型⾳声AI SaaS IVRy 3 ⽉額2,980円からカスタム電話をカンタンに作成できるサービス 全ての電話業務を誰でもすぐにAIを使って効率化できます
電話を当たり前に取れない時代 4
業態に合わせた⾃由な応答設定 5 ダイヤルプッシュとAIの対話をハイブリッドで設定し、 受けたい電話と⾃動化したい電話を分類。電話業務を効率化できる
なぜ話そうと思ったか?
経歴 7 1社⽬:MSP事業で24/365のインフラ運⽤‧監視‧移設‧構築 2社⽬:SREの考えをベースに技術‧組織⽀援 会社の内側からSREの考えを活かして サービスや組織にアプローチする働き⽅をしてみたくなり事業会社に転職 ⼊社エントリ 👉 https://note.com/abnoumaru/n/n1d4833b8a2f5
組織的にSREが始まろうとしている 8 10⽉⼊社でQの⽬標としてもらったタスクが組織的なSLO導⼊ これまでの経験は活きているかな?を整理したくなった 新しく⼊った組織でSREを始めるにあたり意識していることや SLO導⼊をどう実施しているか共有したい これにより誰かの助けになったり懇親会で議論の端緒にしたい
背景
IVRyのアーキテクチャ 10 つながって当たり前(電話) + 間違った情報を発話すると取り返しがつかない(LLM) ⾼いサービスレベルとチャレンジングな領域が混ざり合うエキサイティングな環境 詳しいアーキテクチャは弊社町⽥の資料をご覧ください 🙇 https://speakerdeck.com/ymachida/architecture-of-a-large-scale-automated-phone-response-service-supporting-25-million-cumulative-calls
IVRyのSRE 11 2023年末3名→2024年11⽉現在6名(ローテーション組める!) インフラ‧基盤の改善やSREの⽂化づくりに軸を置くメンバーが増えてきている SREをはじめよう 「16章 SRE組織の進化段階」でいうと 消防⼠からゲートキーパーに⾜を踏み⼊れたような段階 ex. 権限管理が本格的に始まる
https://zenn.dev/ivry/articles/9d62808ec3eb61 David N. Blank-Edelman 著; 山口 能迪 訳; “SREをはじめよう ―個人と組織による信頼性獲得への第一歩 ”, O’Reilly Japan, 2024年.
SREに関連しそうなトピック 12 2020/11 2021/05 2021/08 2023/04 2024/11 サービス成⻑や開発速度を ⾒据えてインフラ移管計画 (完全にECSに移動、
Terraform…) エンジニアの⼈数増加 2022年1Q 2名 2024年4Q 34名 個から組織/仕組みへの転換 インフラに軸を置く 正社員が⼊社 (インフラリリースで 奥⻄の⽴ち会いが不要に) コロナのワクチン接種予約 初めてのスパイク 正式リリース CEOの奥⻄はエンジニアのバックグラウンドがある
現状
元々信頼性に関する良い⽂化がたくさんある! 14 インシデントレスポンス 組織全体で不具合をキャッチ/報告する⽂化が強いと感じる(ボールを拾う) PdMがインシデントコマンダーを実施している ポストモーテムもすでに始まっていた ユーザに届けたい/届いている価値は何か?を意識する瞬間が多い 「ユーザからこういう嬉しい声が届きました」が集まるReacjiがある 導⼊事例インタビューに誰でも参加可能 (モチベーションアップ、フィードバックを得やすい)
新メンバーによるあるべき論の議論 15 新メンバーでも⾃分なりの考えやこれまでの経験をベースにツールや⽂化を いい⽅向に持っていくような問題提起をしやすい環境かつ⽂章に残すメンバーが多い印象 新メンバーから議論が残っていて助かるという声が⽴て続けにあり ⾔語化の⼤切さを改めて認識
データ/リリース/O11yの基盤整備が促進 16 メンバーが増え新しい仕組みの導⼊や構成変更が活発になってきた 例えばDatadog APMの導⼊により... リリース後の不審なシステムメトリクスや意図しない挙動を 理解し説明できる尺度が上がってきた👍 課題もある リアクティブに対応が⾏われている部分をなるべく減らしたい O11yが向上により明らかになるメトリクスやエラーに対応する基準を作りたい
SREとして意識していること
リリースや障害対応に積極的に参加 18 SREの探求「20.1.3 アクティブラーニングの実例」を意識 積極的に議論に参加して何もわからない状態から ⾃分で調べて不明点は後で有識者に聞くドキュメントで答え合わせする SREに好奇⼼は重要な要素 (SREをはじめようにも書いてある) わからないことがある前提で動くということは 新しい顧客の知らない環境に⾶び込む経験が活きていそう
David N. Blank-Edelman 編、山口 能迪 監訳、渡邉 了介 訳; “SREの探求 ―様々な企業におけるサイトリライアビリティエンジニアリングの導入と実践 ”, O’Reilly Japan, 2021年.
歴史を学ぶ 19 組織やシステムの歴史を理解することは、信頼を築くひとつの⽅法 過去の課題や選択や感情や価値観(ストーリー)を理解することで 現状も理解できるし改善提案に説得⼒が増し、チームの協⼒を得やすくなる SREをはじめようでも5.5でストーリーテリングの重要性について語られている 他社と働くでいうナラティヴの溝を超える感覚 前職までの経験則としても⼤事だと感じる (⾃分が単純に楽しそうにそういう話をしているのを聞くの好きなだけかも) 宇田川
元一 著; “他者と働く~「わかりあえなさ」から始める組織論~ ”, NewsPicksパブリッシング , 2019年.
⚠ お伺い⽴てすぎない 20 これまでの顧客の環境に変更を加えるスタイルだと 見えない背景も多いので報告してから実施がベターな場合もあった もちろん環境が違えばスタイルも違うので 出せるはずのスピードが最初出せていなかったのは反省 フィードバックやサポートでアンラーンが促進して ありがたかった!
SLO導⼊の例
⻑期的な施策になりがち 22 カルチャーやドメイン知識が必要でハイコンテクスト 技術的には地道に計測/視覚化/通知やレポートの整備が必要 ⼩さく始めてイテレーションを繰り返し改善していく ⾃然と関係者も多くなる 活動として迷⼦、⾃然消滅が発⽣する
ドキュメントやマイルストーンの管理する 23 ⽅向性を⽰すこと、⼩さくても進んでいることが周囲に伝わりやすい努⼒が⼤事 前職まで提案や⽀援の計画を整備していた経験は活きている
嬉しかったこと 24 CUJを把握するMTGにPdMやデザイナーを巻き込めて⼤変いい時間だった 前職までワークショップや説明をする役を多くした経験は活きている
SLOの現状 25 仮置きでも項⽬を増やして週次定例で値の推移を⼀部観察し始めている Datadog APMとSLOの機能を利⽤(以下はレイテンシ) 値の推移が追える👍 「実はここ遅かったのか」という気付き👍 ⾚いところあるけどまだ項⽬ごと適切なターゲットではない ex. リクエスト数が少なく⾚くなりやすい部分は要調整
SLOの課題 26 ELBではなくAPMを優先した理由 /hoge/:id のようなパスを集計がAPMならデフォルトでできる 今後ユーザの近いELBでも取得したいので以下を考える 上記のようなパス集計をどの仕組みでやるか? (DatadogのLog pipeline?自分でLambdaなどでやる?) 4xx台をエラーをどう集計するか?
(WAFの4xx台はGood…?/TwilioとELB間の460はBad)
最後に 27 IVRyの背景や⽂化を紹介しつつ はじめて事業会社に⼊ったメンバーが SREのプラクティス導⼊をするうえで意識していることや これまでの経験で活きていることを紹介した あなたの会社の良い⽂化‧SREのプラクティス導⼊の進め⽅ ぜひ教えて下さい!
None