Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ゆるSRE勉強会 #8 組織的にSREが始まる中で意識したこと
Search
abnoumaru
November 29, 2024
Technology
1
650
ゆるSRE勉強会 #8 組織的にSREが始まる中で意識したこと
ゆるSRE勉強会 #8 で話したときの資料です
https://yuru-sre.connpass.com/event/332731/
abnoumaru
November 29, 2024
Tweet
Share
More Decks by abnoumaru
See All by abnoumaru
3-shake SRE Tech Talk #10 LLMのO11yに触れる
abnoumaru
2
10k
マイクロサービスの現場からプラットフォームエンジニアリングの可能性を探る!
abnoumaru
2
9.1k
SLOいつ決めましょう?
abnoumaru
5
2.2k
あなたらしくSRE(公開用)
abnoumaru
4
7.5k
SRE Lounge 20180117
abnoumaru
0
6.6k
IDCFクラウドを使ってどこまでチューニングできるか試してみた
abnoumaru
0
210
AWS認定ソリューションアーキテクトを受けた話
abnoumaru
1
1.9k
Other Decks in Technology
See All in Technology
もう一度、 事業を支えるシステムに。
leveragestech
5
2.9k
総会員数1,500万人のレストランWeb予約サービスにおけるRustの活用
kymmt90
3
2.6k
GDGoC開発体験談 - Gemini生成AI活用ハッカソン / GASとFirebaseで挑むパン屋のフードロス解決 -
hotekagi
1
280
乗っ取れKubernetes!!~リスクから学ぶKubernetesセキュリティの考え方~/k8s-risk-and-security
mochizuki875
3
370
AWS re:Invent 2024 予選落ちのBedrockアプデをまとめて解説!
minorun365
PRO
2
210
静的解析で実現した効率的なi18n対応の仕組みづくり
minako__ph
2
2.3k
CDCL による厳密解法を採用した MILP ソルバー
imai448
5
430
LINEヤフーにおける超大規模プラットフォーム実現への挑戦と学び / Challenges and Lessons in Building an Ultra-Large-Scale Platform at LY Corporation
hhiroshell
1
800
今はまだ小さい東京ガス内製開発チームが、これからもKubernetesと共に歩み続けるために
yussugi
3
440
徹底解説!Microsoft 365 Copilot の拡張機能 / Complete guide to Microsoft 365 Copilot extensions
karamem0
1
1.2k
Nutanixにいらっしゃいませ。Moveと仮想マシン移行のポイント紹介
shadowhat
0
120
日本全国・都市3D化プロジェクト「PLATEAU」とデータ変換OSS「PLATEAU GIS Converter」の公開
nokonoko1203
2
250
Featured
See All Featured
Designing for humans not robots
tammielis
250
25k
Practical Orchestrator
shlominoach
186
10k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
356
29k
A designer walks into a library…
pauljervisheath
204
24k
The Art of Programming - Codeland 2020
erikaheidi
52
13k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
59k
Docker and Python
trallard
40
3.1k
Building Better People: How to give real-time feedback that sticks.
wjessup
364
19k
The Pragmatic Product Professional
lauravandoore
31
6.3k
How to Think Like a Performance Engineer
csswizardry
20
1.1k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
44
2.2k
The Invisible Side of Design
smashingmag
298
50k
Transcript
組織的にSREが始まる中で意識したこと 2024/11/29 ゆるSRE勉強会 #8 abnoumaru @ IVRy Inc.
⾃⼰紹介 学⽣アルバイト兼1社⽬ - 株式会社ハートビーツ 2社⽬ - 株式会社スリーシェイク 3社⽬ - 株式会社IVRy(現職)
id: abnoumaru 2 Engineer Circle / Platform Team
対話型⾳声AI SaaS IVRy 3 ⽉額2,980円からカスタム電話をカンタンに作成できるサービス 全ての電話業務を誰でもすぐにAIを使って効率化できます
電話を当たり前に取れない時代 4
業態に合わせた⾃由な応答設定 5 ダイヤルプッシュとAIの対話をハイブリッドで設定し、 受けたい電話と⾃動化したい電話を分類。電話業務を効率化できる
なぜ話そうと思ったか?
経歴 7 1社⽬:MSP事業で24/365のインフラ運⽤‧監視‧移設‧構築 2社⽬:SREの考えをベースに技術‧組織⽀援 会社の内側からSREの考えを活かして サービスや組織にアプローチする働き⽅をしてみたくなり事業会社に転職 ⼊社エントリ 👉 https://note.com/abnoumaru/n/n1d4833b8a2f5
組織的にSREが始まろうとしている 8 10⽉⼊社でQの⽬標としてもらったタスクが組織的なSLO導⼊ これまでの経験は活きているかな?を整理したくなった 新しく⼊った組織でSREを始めるにあたり意識していることや SLO導⼊をどう実施しているか共有したい これにより誰かの助けになったり懇親会で議論の端緒にしたい
背景
IVRyのアーキテクチャ 10 つながって当たり前(電話) + 間違った情報を発話すると取り返しがつかない(LLM) ⾼いサービスレベルとチャレンジングな領域が混ざり合うエキサイティングな環境 詳しいアーキテクチャは弊社町⽥の資料をご覧ください 🙇 https://speakerdeck.com/ymachida/architecture-of-a-large-scale-automated-phone-response-service-supporting-25-million-cumulative-calls
IVRyのSRE 11 2023年末3名→2024年11⽉現在6名(ローテーション組める!) インフラ‧基盤の改善やSREの⽂化づくりに軸を置くメンバーが増えてきている SREをはじめよう 「16章 SRE組織の進化段階」でいうと 消防⼠からゲートキーパーに⾜を踏み⼊れたような段階 ex. 権限管理が本格的に始まる
https://zenn.dev/ivry/articles/9d62808ec3eb61 David N. Blank-Edelman 著; 山口 能迪 訳; “SREをはじめよう ―個人と組織による信頼性獲得への第一歩 ”, O’Reilly Japan, 2024年.
SREに関連しそうなトピック 12 2020/11 2021/05 2021/08 2023/04 2024/11 サービス成⻑や開発速度を ⾒据えてインフラ移管計画 (完全にECSに移動、
Terraform…) エンジニアの⼈数増加 2022年1Q 2名 2024年4Q 34名 個から組織/仕組みへの転換 インフラに軸を置く 正社員が⼊社 (インフラリリースで 奥⻄の⽴ち会いが不要に) コロナのワクチン接種予約 初めてのスパイク 正式リリース CEOの奥⻄はエンジニアのバックグラウンドがある
現状
元々信頼性に関する良い⽂化がたくさんある! 14 インシデントレスポンス 組織全体で不具合をキャッチ/報告する⽂化が強いと感じる(ボールを拾う) PdMがインシデントコマンダーを実施している ポストモーテムもすでに始まっていた ユーザに届けたい/届いている価値は何か?を意識する瞬間が多い 「ユーザからこういう嬉しい声が届きました」が集まるReacjiがある 導⼊事例インタビューに誰でも参加可能 (モチベーションアップ、フィードバックを得やすい)
新メンバーによるあるべき論の議論 15 新メンバーでも⾃分なりの考えやこれまでの経験をベースにツールや⽂化を いい⽅向に持っていくような問題提起をしやすい環境かつ⽂章に残すメンバーが多い印象 新メンバーから議論が残っていて助かるという声が⽴て続けにあり ⾔語化の⼤切さを改めて認識
データ/リリース/O11yの基盤整備が促進 16 メンバーが増え新しい仕組みの導⼊や構成変更が活発になってきた 例えばDatadog APMの導⼊により... リリース後の不審なシステムメトリクスや意図しない挙動を 理解し説明できる尺度が上がってきた👍 課題もある リアクティブに対応が⾏われている部分をなるべく減らしたい O11yが向上により明らかになるメトリクスやエラーに対応する基準を作りたい
SREとして意識していること
リリースや障害対応に積極的に参加 18 SREの探求「20.1.3 アクティブラーニングの実例」を意識 積極的に議論に参加して何もわからない状態から ⾃分で調べて不明点は後で有識者に聞くドキュメントで答え合わせする SREに好奇⼼は重要な要素 (SREをはじめようにも書いてある) わからないことがある前提で動くということは 新しい顧客の知らない環境に⾶び込む経験が活きていそう
David N. Blank-Edelman 編、山口 能迪 監訳、渡邉 了介 訳; “SREの探求 ―様々な企業におけるサイトリライアビリティエンジニアリングの導入と実践 ”, O’Reilly Japan, 2021年.
歴史を学ぶ 19 組織やシステムの歴史を理解することは、信頼を築くひとつの⽅法 過去の課題や選択や感情や価値観(ストーリー)を理解することで 現状も理解できるし改善提案に説得⼒が増し、チームの協⼒を得やすくなる SREをはじめようでも5.5でストーリーテリングの重要性について語られている 他社と働くでいうナラティヴの溝を超える感覚 前職までの経験則としても⼤事だと感じる (⾃分が単純に楽しそうにそういう話をしているのを聞くの好きなだけかも) 宇田川
元一 著; “他者と働く~「わかりあえなさ」から始める組織論~ ”, NewsPicksパブリッシング , 2019年.
⚠ お伺い⽴てすぎない 20 これまでの顧客の環境に変更を加えるスタイルだと 見えない背景も多いので報告してから実施がベターな場合もあった もちろん環境が違えばスタイルも違うので 出せるはずのスピードが最初出せていなかったのは反省 フィードバックやサポートでアンラーンが促進して ありがたかった!
SLO導⼊の例
⻑期的な施策になりがち 22 カルチャーやドメイン知識が必要でハイコンテクスト 技術的には地道に計測/視覚化/通知やレポートの整備が必要 ⼩さく始めてイテレーションを繰り返し改善していく ⾃然と関係者も多くなる 活動として迷⼦、⾃然消滅が発⽣する
ドキュメントやマイルストーンの管理する 23 ⽅向性を⽰すこと、⼩さくても進んでいることが周囲に伝わりやすい努⼒が⼤事 前職まで提案や⽀援の計画を整備していた経験は活きている
嬉しかったこと 24 CUJを把握するMTGにPdMやデザイナーを巻き込めて⼤変いい時間だった 前職までワークショップや説明をする役を多くした経験は活きている
SLOの現状 25 仮置きでも項⽬を増やして週次定例で値の推移を⼀部観察し始めている Datadog APMとSLOの機能を利⽤(以下はレイテンシ) 値の推移が追える👍 「実はここ遅かったのか」という気付き👍 ⾚いところあるけどまだ項⽬ごと適切なターゲットではない ex. リクエスト数が少なく⾚くなりやすい部分は要調整
SLOの課題 26 ELBではなくAPMを優先した理由 /hoge/:id のようなパスを集計がAPMならデフォルトでできる 今後ユーザの近いELBでも取得したいので以下を考える 上記のようなパス集計をどの仕組みでやるか? (DatadogのLog pipeline?自分でLambdaなどでやる?) 4xx台をエラーをどう集計するか?
(WAFの4xx台はGood…?/TwilioとELB間の460はBad)
最後に 27 IVRyの背景や⽂化を紹介しつつ はじめて事業会社に⼊ったメンバーが SREのプラクティス導⼊をするうえで意識していることや これまでの経験で活きていることを紹介した あなたの会社の良い⽂化‧SREのプラクティス導⼊の進め⽅ ぜひ教えて下さい!
None