Slide 1

Slide 1 text

元 萩原さんから SRE について僕が学んだこと 株式会社スタディスト 北野 勝久   〜技術顧問は、他社をどのように変革していくのか〜 

Slide 2

Slide 2 text

自己紹介 インドのIT企業で2年半ほど働いた後、 スタディストで、SRE らへんの仕事をしています。 北野 勝久 katsuhisa91 https://github.com/katsuhisa91 Katsuhisa Kitano https://www.facebook.com/katsuhisa.kitano.33 @katsuhisa__ https://twitter.com/katsuhisa__ #cybozutech

Slide 3

Slide 3 text

会社紹介 スタディストという会社からきました。 マニュアル作成共有がかんたんにできる B2B SaaS『Teachme Biz』をつくっています。 弊社のゆるキャラ『マロン』 #cybozutech

Slide 4

Slide 4 text

萩原さんとは ● 元Cybozu インフラ開発チーム副部長 ○ 2010/04 - 2016/07 の期間在籍 ● 現在は、株式会社levii のCTO ● そして・・・

Slide 5

Slide 5 text

#cybozutech

Slide 6

Slide 6 text

萩原さんとは ● 元Cybozu インフラ開発チーム副部長 ○ 2010/04 - 2016/07 の期間在籍 ● 現在は、株式会社levii のCTO ● 弊社、スタディストの技術顧問!

Slide 7

Slide 7 text

今日話すこと 救世主HAGIHARA と、 弊社のインフラ運用を改善したお話と そこで得た学びのお話 #cybozutech

Slide 8

Slide 8 text

救世主HAGIHARA と僕の144 日戦争 ● 仲良くなる ● 現状の共有 ● 課題の共有 ● 理想像の議論 ● 1st Action の決定と実行 ● これからのお話 #cybozutech

Slide 9

Slide 9 text

救世主HAGIHARA と僕の144 日戦争 ● 仲良くなる ● 現状の共有 ● 課題の共有 ● 理想像の議論 ● 1st Action の決定と実行 ● これからのお話 #cybozutech

Slide 10

Slide 10 text

仲良くなる 何はともあれ、 コミュニケーションの大前提である信頼関係の構築 これまでのお互いの経歴など、ざっくばらんに共有 #cybozutech

Slide 11

Slide 11 text

救世主HAGIHARA のすごいポイント1 座席配置がすごい! #cybozutech

Slide 12

Slide 12 text

救世主HAGIHARA のすごいポイント1 モニター ではなく、 机 #cybozutech

Slide 13

Slide 13 text

救世主HAGIHARA のすごいポイント1 モニター こう座る 机 #cybozutech

Slide 14

Slide 14 text

救世主HAGIHARA のすごいポイント1 仲良くなるには横並びが良いと 頭では分かっていても、ふつう なかなか実践できない。 芸が細かくてすごい! #cybozutech

Slide 15

Slide 15 text

救世主HAGIHARA と僕の144 日戦争 ● 仲良くなる ● 現状の共有 ● 課題の共有 ● 理想像の議論 ● 1st Action の決定と実行 ● これからのお話 #cybozutech

Slide 16

Slide 16 text

現状の共有 ● ふだんやっていること ○ 定常的な運用業務 ● 障害対応の流れ ○ 機能障害(バグ対応 ) ○ 性能障害 ● システム構成 ○ AWS の構成 ○ ミドルウェアの構成 ○ 監視システム #cybozutech

Slide 17

Slide 17 text

救世主HAGIHARA のすごいポイント2 これらの情報をまとめたドキュメントを わずか1日で作成! #cybozutech

Slide 18

Slide 18 text

救世主HAGIHARA のすごいポイント2 しかもシステム構成だけでなく、 あまり細かく伝えた記憶のない 各処理の流れも整理が終わっている 最早わけがわからない #cybozutech

Slide 19

Slide 19 text

救世主HAGIHARA と僕の144 日戦争 ● 仲良くなる ● 現状の共有 ● 課題の共有 ● 理想像の議論 ● 1st Action の決定と実行 ● これからのお話 #cybozutech

Slide 20

Slide 20 text

課題の共有 ● ぼくが思っている問題意識 ○ 定常的な運用作業の頻度が増加傾向 ○ 障害の切り分けに時間がかかる ○ 慢性的に優先度 : 高のタスクが積み上がっており、 改善作業に手が回らない #cybozutech

Slide 21

Slide 21 text

救世主HAGIHARA と僕の144 日戦争 ● 仲良くなる ● 現状の共有 ● 課題の共有 ● 理想像の議論 ● 1st Action の決定と実行 ● これからのお話 #cybozutech

Slide 22

Slide 22 text

理想像の議論 課題感に対して、SRE としてのあるべき姿との重ね合わせ ● 議論した観点 ○ SLI / SLO / SLA ○ Error Badget ○ Toil また、Cybozu 時代の監視システムの知見 を紹介してもらう #cybozutech

Slide 23

Slide 23 text

Cybozu 時代の監視システムの知見 #cybozutech

Slide 24

Slide 24 text

救世主HAGIHARA と僕の144 日戦争 ● 仲良くなる ● 現状の共有 ● 課題の共有 ● 理想像の議論 ● 1st Action の決定と実行 ● これからのお話 #cybozutech

Slide 25

Slide 25 text

1st Action の決定と実行 「では、ここと、ここと、ここからはじめましょう」 #cybozutech

Slide 26

Slide 26 text

1st Action の決定と実行 「では、ここと、ここと、ここからはじめましょう」 ここ① = 新規監視システムの導入 ここ② = 定常タスクの周期を伸ばすための施策 ここ③ = 不要なアラートの抹殺 #cybozutech

Slide 27

Slide 27 text

救世主HAGIHARA のすごいポイント3 1st Action が終わったら 僕のインフラ運用の作業負荷が ビビるくらい削減された! #cybozutech

Slide 28

Slide 28 text

救世主HAGIHARA のすごいポイント3 実行したアクションと、その効果を整理すると・・・ ①新規監視システムの導入 ➔ 障害原因切り分けの高速化 ②定常タスクの周期を伸ばすための施策 ➔ 運用負荷削減 ③不要なアラートの抹殺 ➔ 精神的な疲弊をなくす #cybozutech

Slide 29

Slide 29 text

救世主HAGIHARA のすごいポイント3 障害対応の影響度 / 原因切り分けが ほぼ瞬時にできるように。 「なんとなくヤバそうなヤツだから、  がんばって原因調査。でも原因わからん」 みたいな謎仕事がなくなった。 #cybozutech

Slide 30

Slide 30 text

救世主HAGIHARA からSRE について僕が学んだこと ● 自動化しなくてもToil は減らせる ○ コードで自動化する実装の時間がとれなくとも、 実施頻度削減から着手するだけで大幅に負荷が軽減される ● モニタリングとアラートを正しく活用 ○ 推測するな、計測せよ ○ 不要なアラートや、過剰なアラートは抹殺する ● SLI を策定し、サービス状態を正しく把握せよ ○ なんか◯◯なんだけど大丈夫なん? ➔「大丈夫です。社内のネットワークが遅いだけです」とちゃんと言える。

Slide 31

Slide 31 text

救世主HAGIHARA と僕の144 日戦争 ● 仲良くなる ● 現状の共有 ● 課題の共有 ● 理想像の議論 ● 1st Action の決定と実行 ● これからのお話 #cybozutech

Slide 32

Slide 32 text

これからのお話 日々のインフラ運用の作業負荷が落ち着いたところで、 中長期のロードマップを改めて策定 現在、一つずつ着手中。 #cybozutech

Slide 33

Slide 33 text

救世主HAGIHARA と僕の闘いは続く・・・ #cybozutech

Slide 34

Slide 34 text

HAGIHARA と僕と一緒にStudist で、 B2B SaaS のSRE を極めませんか?  We are hiring!!!

Slide 35

Slide 35 text

ご清聴ありがとうございました! 元Cybouz 出身のイケてる技術顧問がいる 弊社のSRE チームの採用にご興味ある方は、 お気軽にご連絡ください! 北野 勝久 [email protected]