Upgrade to Pro — share decks privately, control downloads, hide ads and more …

元Cybozu 萩原さんから SRE について僕が学んだこと

katsuhisa_
December 01, 2017

元Cybozu 萩原さんから SRE について僕が学んだこと

Cybozu Tech Conference 2017( https://cybozu.connpass.com/event/70374/ )にて発表した資料です。
また、この記事の内容は、SRE Advent Calender 12/2 にも投稿しております。( https://qiita.com/katsuhisa__/items/f1cd06e0705d2045a730

katsuhisa_

December 01, 2017
Tweet

More Decks by katsuhisa_

Other Decks in Technology

Transcript

  1. 萩原さんとは • 元Cybozu インフラ開発チーム副部長 ◦ 2010/04 - 2016/07 の期間在籍 •

    現在は、株式会社levii のCTO • 弊社、スタディストの技術顧問!
  2. 救世主HAGIHARA と僕の144 日戦争 • 仲良くなる • 現状の共有 • 課題の共有 •

    理想像の議論 • 1st Action の決定と実行 • これからのお話 #cybozutech
  3. 救世主HAGIHARA と僕の144 日戦争 • 仲良くなる • 現状の共有 • 課題の共有 •

    理想像の議論 • 1st Action の決定と実行 • これからのお話 #cybozutech
  4. 救世主HAGIHARA と僕の144 日戦争 • 仲良くなる • 現状の共有 • 課題の共有 •

    理想像の議論 • 1st Action の決定と実行 • これからのお話 #cybozutech
  5. 現状の共有 • ふだんやっていること ◦ 定常的な運用業務 • 障害対応の流れ ◦ 機能障害(バグ対応 )

    ◦ 性能障害 • システム構成 ◦ AWS の構成 ◦ ミドルウェアの構成 ◦ 監視システム #cybozutech
  6. 救世主HAGIHARA と僕の144 日戦争 • 仲良くなる • 現状の共有 • 課題の共有 •

    理想像の議論 • 1st Action の決定と実行 • これからのお話 #cybozutech
  7. 救世主HAGIHARA と僕の144 日戦争 • 仲良くなる • 現状の共有 • 課題の共有 •

    理想像の議論 • 1st Action の決定と実行 • これからのお話 #cybozutech
  8. 理想像の議論 課題感に対して、SRE としてのあるべき姿との重ね合わせ • 議論した観点 ◦ SLI / SLO /

    SLA ◦ Error Badget ◦ Toil また、Cybozu 時代の監視システムの知見 を紹介してもらう #cybozutech
  9. 救世主HAGIHARA と僕の144 日戦争 • 仲良くなる • 現状の共有 • 課題の共有 •

    理想像の議論 • 1st Action の決定と実行 • これからのお話 #cybozutech
  10. 救世主HAGIHARA からSRE について僕が学んだこと • 自動化しなくてもToil は減らせる ◦ コードで自動化する実装の時間がとれなくとも、 実施頻度削減から着手するだけで大幅に負荷が軽減される •

    モニタリングとアラートを正しく活用 ◦ 推測するな、計測せよ ◦ 不要なアラートや、過剰なアラートは抹殺する • SLI を策定し、サービス状態を正しく把握せよ ◦ なんか◯◯なんだけど大丈夫なん? ➔「大丈夫です。社内のネットワークが遅いだけです」とちゃんと言える。
  11. 救世主HAGIHARA と僕の144 日戦争 • 仲良くなる • 現状の共有 • 課題の共有 •

    理想像の議論 • 1st Action の決定と実行 • これからのお話 #cybozutech