Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ゆるSRE勉強会 #8 組織的にSREが始まる中で意識したこと
Search
abnoumaru
November 29, 2024
Technology
2
1.8k
ゆるSRE勉強会 #8 組織的にSREが始まる中で意識したこと
ゆるSRE勉強会 #8 で話したときの資料です
https://yuru-sre.connpass.com/event/332731/
abnoumaru
November 29, 2024
Tweet
Share
More Decks by abnoumaru
See All by abnoumaru
Road to SRE NEXT@仙台 IVRyの組織の形とSLO運用の現状
abnoumaru
1
470
IVRyエンジニア忘年LT大会2024 クリティカルユーザージャーニーの整理
abnoumaru
0
360
3-shake SRE Tech Talk #10 LLMのO11yに触れる
abnoumaru
2
11k
マイクロサービスの現場からプラットフォームエンジニアリングの可能性を探る!
abnoumaru
2
11k
SLOいつ決めましょう?
abnoumaru
4
2.4k
あなたらしくSRE(公開用)
abnoumaru
5
8k
SRE Lounge 20180117
abnoumaru
0
6.7k
IDCFクラウドを使ってどこまでチューニングできるか試してみた
abnoumaru
0
240
AWS認定ソリューションアーキテクトを受けた話
abnoumaru
1
1.9k
Other Decks in Technology
See All in Technology
AIと開発者の共創: エージェント時代におけるAIフレンドリーなDevOpsの実践
bicstone
1
210
こんなデータマートは嫌だ。どんな? / waiwai-data-meetup-202504
shuntak
5
1.7k
【2025年度新卒技術研修】100分で学ぶ サイバーエージェントのデータベース 活用事例とMySQLパフォーマンス調査
cyberagentdevelopers
PRO
3
6k
ゆるくVPC Latticeについてまとめてみたら、意外と奥深い件
masakiokuda
2
230
.mdc駆動ナレッジマネジメント/.mdc-driven knowledge management
yodakeisuke
24
10k
LLM as プロダクト開発のパワードスーツ
layerx
PRO
1
140
自分の軸足を見つけろ
tsuemura
2
550
やさしいMCP入門
minorun365
PRO
146
93k
Amazon S3 Tables + Amazon Athena / Apache Iceberg
okaru
0
230
AIエージェント開発における「攻めの品質改善」と「守りの品質保証」 / 2024.04.09 GPU UNITE 新年会 2025
smiyawaki0820
0
390
OPENLOGI Company Profile
hr01
0
62k
Amebaにおける Platform Engineeringの実践
kumorn5s
6
890
Featured
See All Featured
Reflections from 52 weeks, 52 projects
jeffersonlam
349
20k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
26k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
129
19k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
13
1.4k
Music & Morning Musume
bryan
47
6.5k
Speed Design
sergeychernyshev
29
880
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
227
22k
Fireside Chat
paigeccino
37
3.4k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
104
19k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
60k
GraphQLとの向き合い方2022年版
quramy
46
14k
Facilitating Awesome Meetings
lara
54
6.3k
Transcript
組織的にSREが始まる中で意識したこと 2024/11/29 ゆるSRE勉強会 #8 abnoumaru @ IVRy Inc.
⾃⼰紹介 学⽣アルバイト兼1社⽬ - 株式会社ハートビーツ 2社⽬ - 株式会社スリーシェイク 3社⽬ - 株式会社IVRy(現職)
id: abnoumaru 2 Engineer Circle / Platform Team
対話型⾳声AI SaaS IVRy 3 ⽉額2,980円からカスタム電話をカンタンに作成できるサービス 全ての電話業務を誰でもすぐにAIを使って効率化できます
電話を当たり前に取れない時代 4
業態に合わせた⾃由な応答設定 5 ダイヤルプッシュとAIの対話をハイブリッドで設定し、 受けたい電話と⾃動化したい電話を分類。電話業務を効率化できる
なぜ話そうと思ったか?
経歴 7 1社⽬:MSP事業で24/365のインフラ運⽤‧監視‧移設‧構築 2社⽬:SREの考えをベースに技術‧組織⽀援 会社の内側からSREの考えを活かして サービスや組織にアプローチする働き⽅をしてみたくなり事業会社に転職 ⼊社エントリ 👉 https://note.com/abnoumaru/n/n1d4833b8a2f5
組織的にSREが始まろうとしている 8 10⽉⼊社でQの⽬標としてもらったタスクが組織的なSLO導⼊ これまでの経験は活きているかな?を整理したくなった 新しく⼊った組織でSREを始めるにあたり意識していることや SLO導⼊をどう実施しているか共有したい これにより誰かの助けになったり懇親会で議論の端緒にしたい
背景
IVRyのアーキテクチャ 10 つながって当たり前(電話) + 間違った情報を発話すると取り返しがつかない(LLM) ⾼いサービスレベルとチャレンジングな領域が混ざり合うエキサイティングな環境 詳しいアーキテクチャは弊社町⽥の資料をご覧ください 🙇 https://speakerdeck.com/ymachida/architecture-of-a-large-scale-automated-phone-response-service-supporting-25-million-cumulative-calls
IVRyのSRE 11 2023年末3名→2024年11⽉現在6名(ローテーション組める!) インフラ‧基盤の改善やSREの⽂化づくりに軸を置くメンバーが増えてきている SREをはじめよう 「16章 SRE組織の進化段階」でいうと 消防⼠からゲートキーパーに⾜を踏み⼊れたような段階 ex. 権限管理が本格的に始まる
https://zenn.dev/ivry/articles/9d62808ec3eb61 David N. Blank-Edelman 著; 山口 能迪 訳; “SREをはじめよう ―個人と組織による信頼性獲得への第一歩 ”, O’Reilly Japan, 2024年.
SREに関連しそうなトピック 12 2020/11 2021/05 2021/08 2023/04 2024/11 サービス成⻑や開発速度を ⾒据えてインフラ移管計画 (完全にECSに移動、
Terraform…) エンジニアの⼈数増加 2022年1Q 2名 2024年4Q 34名 個から組織/仕組みへの転換 インフラに軸を置く 正社員が⼊社 (インフラリリースで 奥⻄の⽴ち会いが不要に) コロナのワクチン接種予約 初めてのスパイク 正式リリース CEOの奥⻄はエンジニアのバックグラウンドがある
現状
元々信頼性に関する良い⽂化がたくさんある! 14 インシデントレスポンス 組織全体で不具合をキャッチ/報告する⽂化が強いと感じる(ボールを拾う) PdMがインシデントコマンダーを実施している ポストモーテムもすでに始まっていた ユーザに届けたい/届いている価値は何か?を意識する瞬間が多い 「ユーザからこういう嬉しい声が届きました」が集まるReacjiがある 導⼊事例インタビューに誰でも参加可能 (モチベーションアップ、フィードバックを得やすい)
新メンバーによるあるべき論の議論 15 新メンバーでも⾃分なりの考えやこれまでの経験をベースにツールや⽂化を いい⽅向に持っていくような問題提起をしやすい環境かつ⽂章に残すメンバーが多い印象 新メンバーから議論が残っていて助かるという声が⽴て続けにあり ⾔語化の⼤切さを改めて認識
データ/リリース/O11yの基盤整備が促進 16 メンバーが増え新しい仕組みの導⼊や構成変更が活発になってきた 例えばDatadog APMの導⼊により... リリース後の不審なシステムメトリクスや意図しない挙動を 理解し説明できる尺度が上がってきた👍 課題もある リアクティブに対応が⾏われている部分をなるべく減らしたい O11yが向上により明らかになるメトリクスやエラーに対応する基準を作りたい
SREとして意識していること
リリースや障害対応に積極的に参加 18 SREの探求「20.1.3 アクティブラーニングの実例」を意識 積極的に議論に参加して何もわからない状態から ⾃分で調べて不明点は後で有識者に聞くドキュメントで答え合わせする SREに好奇⼼は重要な要素 (SREをはじめようにも書いてある) わからないことがある前提で動くということは 新しい顧客の知らない環境に⾶び込む経験が活きていそう
David N. Blank-Edelman 編、山口 能迪 監訳、渡邉 了介 訳; “SREの探求 ―様々な企業におけるサイトリライアビリティエンジニアリングの導入と実践 ”, O’Reilly Japan, 2021年.
歴史を学ぶ 19 組織やシステムの歴史を理解することは、信頼を築くひとつの⽅法 過去の課題や選択や感情や価値観(ストーリー)を理解することで 現状も理解できるし改善提案に説得⼒が増し、チームの協⼒を得やすくなる SREをはじめようでも5.5でストーリーテリングの重要性について語られている 他社と働くでいうナラティヴの溝を超える感覚 前職までの経験則としても⼤事だと感じる (⾃分が単純に楽しそうにそういう話をしているのを聞くの好きなだけかも) 宇田川
元一 著; “他者と働く~「わかりあえなさ」から始める組織論~ ”, NewsPicksパブリッシング , 2019年.
⚠ お伺い⽴てすぎない 20 これまでの顧客の環境に変更を加えるスタイルだと 見えない背景も多いので報告してから実施がベターな場合もあった もちろん環境が違えばスタイルも違うので 出せるはずのスピードが最初出せていなかったのは反省 フィードバックやサポートでアンラーンが促進して ありがたかった!
SLO導⼊の例
⻑期的な施策になりがち 22 カルチャーやドメイン知識が必要でハイコンテクスト 技術的には地道に計測/視覚化/通知やレポートの整備が必要 ⼩さく始めてイテレーションを繰り返し改善していく ⾃然と関係者も多くなる 活動として迷⼦、⾃然消滅が発⽣する
ドキュメントやマイルストーンの管理する 23 ⽅向性を⽰すこと、⼩さくても進んでいることが周囲に伝わりやすい努⼒が⼤事 前職まで提案や⽀援の計画を整備していた経験は活きている
嬉しかったこと 24 CUJを把握するMTGにPdMやデザイナーを巻き込めて⼤変いい時間だった 前職までワークショップや説明をする役を多くした経験は活きている
SLOの現状 25 仮置きでも項⽬を増やして週次定例で値の推移を⼀部観察し始めている Datadog APMとSLOの機能を利⽤(以下はレイテンシ) 値の推移が追える👍 「実はここ遅かったのか」という気付き👍 ⾚いところあるけどまだ項⽬ごと適切なターゲットではない ex. リクエスト数が少なく⾚くなりやすい部分は要調整
SLOの課題 26 ELBではなくAPMを優先した理由 /hoge/:id のようなパスを集計がAPMならデフォルトでできる 今後ユーザの近いELBでも取得したいので以下を考える 上記のようなパス集計をどの仕組みでやるか? (DatadogのLog pipeline?自分でLambdaなどでやる?) 4xx台をエラーをどう集計するか?
(WAFの4xx台はGood…?/TwilioとELB間の460はBad)
最後に 27 IVRyの背景や⽂化を紹介しつつ はじめて事業会社に⼊ったメンバーが SREのプラクティス導⼊をするうえで意識していることや これまでの経験で活きていることを紹介した あなたの会社の良い⽂化‧SREのプラクティス導⼊の進め⽅ ぜひ教えて下さい!
None