元Cybozu 萩原さんから SRE について僕が学んだこと

C0479b152c326746e911be790617f75b?s=47 katsuhisa_
December 01, 2017

元Cybozu 萩原さんから SRE について僕が学んだこと

Cybozu Tech Conference 2017( https://cybozu.connpass.com/event/70374/ )にて発表した資料です。
また、この記事の内容は、SRE Advent Calender 12/2 にも投稿しております。( https://qiita.com/katsuhisa__/items/f1cd06e0705d2045a730

C0479b152c326746e911be790617f75b?s=128

katsuhisa_

December 01, 2017
Tweet

Transcript

  1. 元 萩原さんから SRE について僕が学んだこと 株式会社スタディスト 北野 勝久   〜技術顧問は、他社をどのように変革していくのか〜 

  2. 自己紹介 インドのIT企業で2年半ほど働いた後、 スタディストで、SRE らへんの仕事をしています。 北野 勝久 katsuhisa91 https://github.com/katsuhisa91 Katsuhisa Kitano

    https://www.facebook.com/katsuhisa.kitano.33 @katsuhisa__ https://twitter.com/katsuhisa__ #cybozutech
  3. 会社紹介 スタディストという会社からきました。 マニュアル作成共有がかんたんにできる B2B SaaS『Teachme Biz』をつくっています。 弊社のゆるキャラ『マロン』 #cybozutech

  4. 萩原さんとは • 元Cybozu インフラ開発チーム副部長 ◦ 2010/04 - 2016/07 の期間在籍 •

    現在は、株式会社levii のCTO • そして・・・
  5. #cybozutech

  6. 萩原さんとは • 元Cybozu インフラ開発チーム副部長 ◦ 2010/04 - 2016/07 の期間在籍 •

    現在は、株式会社levii のCTO • 弊社、スタディストの技術顧問!
  7. 今日話すこと 救世主HAGIHARA と、 弊社のインフラ運用を改善したお話と そこで得た学びのお話 #cybozutech

  8. 救世主HAGIHARA と僕の144 日戦争 • 仲良くなる • 現状の共有 • 課題の共有 •

    理想像の議論 • 1st Action の決定と実行 • これからのお話 #cybozutech
  9. 救世主HAGIHARA と僕の144 日戦争 • 仲良くなる • 現状の共有 • 課題の共有 •

    理想像の議論 • 1st Action の決定と実行 • これからのお話 #cybozutech
  10. 仲良くなる 何はともあれ、 コミュニケーションの大前提である信頼関係の構築 これまでのお互いの経歴など、ざっくばらんに共有 #cybozutech

  11. 救世主HAGIHARA のすごいポイント1 座席配置がすごい! #cybozutech

  12. 救世主HAGIHARA のすごいポイント1 モニター ではなく、 机 #cybozutech

  13. 救世主HAGIHARA のすごいポイント1 モニター こう座る 机 #cybozutech

  14. 救世主HAGIHARA のすごいポイント1 仲良くなるには横並びが良いと 頭では分かっていても、ふつう なかなか実践できない。 芸が細かくてすごい! #cybozutech

  15. 救世主HAGIHARA と僕の144 日戦争 • 仲良くなる • 現状の共有 • 課題の共有 •

    理想像の議論 • 1st Action の決定と実行 • これからのお話 #cybozutech
  16. 現状の共有 • ふだんやっていること ◦ 定常的な運用業務 • 障害対応の流れ ◦ 機能障害(バグ対応 )

    ◦ 性能障害 • システム構成 ◦ AWS の構成 ◦ ミドルウェアの構成 ◦ 監視システム #cybozutech
  17. 救世主HAGIHARA のすごいポイント2 これらの情報をまとめたドキュメントを わずか1日で作成! #cybozutech

  18. 救世主HAGIHARA のすごいポイント2 しかもシステム構成だけでなく、 あまり細かく伝えた記憶のない 各処理の流れも整理が終わっている 最早わけがわからない #cybozutech

  19. 救世主HAGIHARA と僕の144 日戦争 • 仲良くなる • 現状の共有 • 課題の共有 •

    理想像の議論 • 1st Action の決定と実行 • これからのお話 #cybozutech
  20. 課題の共有 • ぼくが思っている問題意識 ◦ 定常的な運用作業の頻度が増加傾向 ◦ 障害の切り分けに時間がかかる ◦ 慢性的に優先度 :

    高のタスクが積み上がっており、 改善作業に手が回らない #cybozutech
  21. 救世主HAGIHARA と僕の144 日戦争 • 仲良くなる • 現状の共有 • 課題の共有 •

    理想像の議論 • 1st Action の決定と実行 • これからのお話 #cybozutech
  22. 理想像の議論 課題感に対して、SRE としてのあるべき姿との重ね合わせ • 議論した観点 ◦ SLI / SLO /

    SLA ◦ Error Badget ◦ Toil また、Cybozu 時代の監視システムの知見 を紹介してもらう #cybozutech
  23. Cybozu 時代の監視システムの知見 #cybozutech

  24. 救世主HAGIHARA と僕の144 日戦争 • 仲良くなる • 現状の共有 • 課題の共有 •

    理想像の議論 • 1st Action の決定と実行 • これからのお話 #cybozutech
  25. 1st Action の決定と実行 「では、ここと、ここと、ここからはじめましょう」 #cybozutech

  26. 1st Action の決定と実行 「では、ここと、ここと、ここからはじめましょう」 ここ① = 新規監視システムの導入 ここ② = 定常タスクの周期を伸ばすための施策

    ここ③ = 不要なアラートの抹殺 #cybozutech
  27. 救世主HAGIHARA のすごいポイント3 1st Action が終わったら 僕のインフラ運用の作業負荷が ビビるくらい削減された! #cybozutech

  28. 救世主HAGIHARA のすごいポイント3 実行したアクションと、その効果を整理すると・・・ ①新規監視システムの導入 ➔ 障害原因切り分けの高速化 ②定常タスクの周期を伸ばすための施策 ➔ 運用負荷削減 ③不要なアラートの抹殺

    ➔ 精神的な疲弊をなくす #cybozutech
  29. 救世主HAGIHARA のすごいポイント3 障害対応の影響度 / 原因切り分けが ほぼ瞬時にできるように。 「なんとなくヤバそうなヤツだから、  がんばって原因調査。でも原因わからん」 みたいな謎仕事がなくなった。 #cybozutech

  30. 救世主HAGIHARA からSRE について僕が学んだこと • 自動化しなくてもToil は減らせる ◦ コードで自動化する実装の時間がとれなくとも、 実施頻度削減から着手するだけで大幅に負荷が軽減される •

    モニタリングとアラートを正しく活用 ◦ 推測するな、計測せよ ◦ 不要なアラートや、過剰なアラートは抹殺する • SLI を策定し、サービス状態を正しく把握せよ ◦ なんか◯◯なんだけど大丈夫なん? ➔「大丈夫です。社内のネットワークが遅いだけです」とちゃんと言える。
  31. 救世主HAGIHARA と僕の144 日戦争 • 仲良くなる • 現状の共有 • 課題の共有 •

    理想像の議論 • 1st Action の決定と実行 • これからのお話 #cybozutech
  32. これからのお話 日々のインフラ運用の作業負荷が落ち着いたところで、 中長期のロードマップを改めて策定 現在、一つずつ着手中。 #cybozutech

  33. 救世主HAGIHARA と僕の闘いは続く・・・ #cybozutech

  34. HAGIHARA と僕と一緒にStudist で、 B2B SaaS のSRE を極めませんか?  We are hiring!!!

  35. ご清聴ありがとうございました! 元Cybouz 出身のイケてる技術顧問がいる 弊社のSRE チームの採用にご興味ある方は、 お気軽にご連絡ください! 北野 勝久 katsuhisa.kitano@studist.jp