Upgrade to Pro — share decks privately, control downloads, hide ads and more …

障害対応から改善につなげる DevOpsへの取り組み方 / Troubleshooting and Continuous improvement

mackerelio
November 11, 2020

障害対応から改善につなげる DevOpsへの取り組み方 / Troubleshooting and Continuous improvement

「Jira / Confluence × Mackerel で実践! 運用しながら改善していくDevOpsのはじめかた」での発表資料です。

mackerelio

November 11, 2020
Tweet

More Decks by mackerelio

Other Decks in Business

Transcript

  1. 2020.11.11
    株式会社はてな 渡辺 起
    Jira / Confluence × Mackerel で実践! 運用しながら改善していくDevOpsのはじめかた
    障害対応から改善につなげる
    DevOpsへの取り組み方

    View Slide

  2. 自己紹介
    ● 渡辺 起 (わたなべ たつる)
    ○ id:wtatsuru @tatsuru
    ● 略歴
    ○ 2011年入社。インフラエンジニアとして入社
    ○ 基盤開発部門のマネージャー、責任者を経て
    ○ 現在はMackerelプロダクトマネージャー
    ● 得意・好き
    ○ 計算機、ハードウェア
    ○ 仕事ではAWSをよく使ってきた

    View Slide

  3. 内容
    障害対応から改善につなげるDevOpsへの取り組み方
    ● Mackerelの紹介
    ● DevOpsとMackerelの取り組み
    ● 障害対応から改善につなげる例
    ● まとめ

    View Slide

  4. Mackerelの紹介

    View Slide

  5. 会社紹介
    社名 株式会社はてな
    所在地 (本社) 〒604-0835 京都府京都市中京区御池通間之町東入高宮町206 御池ビル9F
        (本店) 〒107-0062 東京都港区南青山6-5-55青山サンライトビル3F
    設立 2001年7月
    売上高 2,542 百万円(2020年7月現在)
    従業員数 161人(2020年7月現在)
    2016年に東証マザーズ市場に上場
    5
    提供サービス(抜粋)

    View Slide

  6. 6

    View Slide

  7. Mackerelの紹介
    ● エンジニアをワクワクさせる直感的サーバー監視サービス
    ● 簡単に始められる
    ● 直感的ユーザー体験
    ● 便利で奥が深い機能

    View Slide

  8. すぐにはじめられる
    ● ガイドにしたがってコマンドを実行するだけ
    ● 数分あれば十分
    ● エージェントが死活監視とメトリック取得を自動で開始
    ● メトリックは自動的にグラフで可視化
    8

    View Slide

  9. 直感的なユーザー体験
    9

    View Slide

  10. アーキテクチャ
    10
    (SaaS)
    URL外形監視
    Mackerelから
    外部サービスの
    外形監視が可能

    View Slide

  11. マルチクラウド対応(クラウドインテグレーション)
    クラウド製品も可視化。サービス/ロール/ホストの
    概念でわかりやすく監視できます。
    AWS、Azure、Google Cloudなどのクラウドサービスか
    ら様々なメトリックやイベントを可視化。
    複雑なサービス環境も全体を俯瞰してシンプルに
    管理できます。
    11

    View Slide

  12. 育てていく監視
    ● 動的な管理モデル。サーバーを自然に役割で管理
    ● 豊富な通知連携
    ● 充実したAPI
    ● 運用の中で育てていく監視

    View Slide

  13. 日本語サポート・国内コミュニティ
    課題解決の手段と場所を整えています
    13
    ▽ 豊富な日本語コンテンツ
    (ブログ・ヘルプ・FAQ)
    ▽ 公式イベントの継続開催
    (Meetup・オンラインセミナー)
    ▽ ユーザーコミュニティ
    (Slackで活動中)
    https://mackerel-ug-slackin.herokuapp.com/

    View Slide

  14. 日本語サポート・国内コミュニティ
    サポートチームへのお問い合わせも可能です
    14
    ご不明点がありましたら
    ぜひ、サポートチームへ
    ご連絡ください!

    View Slide

  15. Mackerelの紹介(再掲)
    ● エンジニアをワクワクさせる直感的サーバー監視サービス
    ● 簡単に始められる
    ● 直感的ユーザー体験
    ● 便利で奥が深い機能

    View Slide

  16. DevOpsとMackerelの取り組み

    View Slide

  17. ビジネス環境の変化
    ● クラウドの登場、ビジネス上の要求
    ○ クラウドによりシステム調達が不要に。インフラ管理の敷居が下がった。
    ○ システムの売り切りモデルから SaaSなどリテンションモデルへ。
    ● 価値を素早く届けるための方法論の登場
    ○ アジャイル
    ○ SRE
    ○ DevOps

    View Slide

  18. DevOps
    ● ビジネス価値の提供に向き合う
    ○ 「開発」と「運用」という観点は対立構造を生む
    ○ ともに同じ価値の提供に向き合う
    ● コラボレーション文化。問題に対してチームで向き合う
    ○ 情報の透明性
    ○ 問題vs私達の観点

    View Slide

  19. 監視という観点から見たDevOps
    ● チームでのスキル獲得の観点
    ○ インフラ運用や監視が専門家のものになってしまうと、チームでの改善に取り組めない
    ○ チームのスキルにしていく必要がある。
    ● 情報の透明性という観点
    ○ 見ている情報が異なると目線が揃わない
    ○ 前提の相違、情報格差による権威勾配。対立が生まれる構造ができる
    ○ 情報の透明性がコラボレーションを助ける
    ● 監視の問題は改善のチャンス
    ○ チームでの問題発見、システムの改善に取り組む

    View Slide

  20. 監視という観点から見たDevOps
    ● 開発・運用という垣根をこえて、チームで運用 = 価値の提供に向き合っていく必要が
    ある
    「監視とは役割ではなくスキルであり、チーム内の全員がある程度のレベルに至っておくべ
    き。」
    『入門 監視』 2019年1月 日本語訳出版(1.2 アンチパターン2:役割としての監視 )より

    View Slide

  21. Mackerelの紹介(再)
    ● エンジニアをワクワクさせる直感的サーバー監視サービス
    ● 簡単に始められる
    ● 直感的ユーザー体験
    ● 便利で奥が深い機能

    View Slide

  22. Mackerelの取り組み
    ● 簡単に始められる
    ○ 敷居を下げて、誰でも取り組むことができる。
    ● 直感的ユーザー体験
    ○ 誰でも同じ目線で向き合える。
    ● 便利で奥が深い機能
    ○ 改善に取り組む、監視を育てていく。

    View Slide

  23. 障害対応から改善につなげる例

    View Slide

  24. 障害対応から改善につなげる例
    はてな社内の事例をもとに、実際の流れを追っていきます
    ● 障害発生
    ● 対応
    ● 振り返り
    ● 改善

    View Slide

  25. ● アラートの通知。チャットツールやメールなどへの通知
    ● グラフやエラー状況を見て状況を把握
    障害発生
    ● slack(などチャット)へのアラート通知

    View Slide

  26. 対応
    ● 対応者が集まり、対応開始
    ● Confluenceなどのドキュメントツールに対応を
    記録
    ● リアルタイムな情報共有、認識の齟齬をなくす
    ○ 電話、ビデオチャットでのコミュニケーション
    ○ 対応ドキュメントをアップデートしていく
    ○ グラフ共有などで同じものを見る

    View Slide

  27. 振り返り、改善
    ● チームでの振り返り実施
    ● 前提を把握する
    ○ 対応ドキュメントの記録
    ○ チャットツールでの時系列情報
    ■ 何時に何をしたか
    ■ どのグラフを見て
    ■ どのような判断を行ったか
    ● チームで問題に向き合い、改善策を考える
    ○ 動き方、役割分担は適切だったか。
    ○ 対応精度向上。
    ■ 対応時間を短縮できるポイントは存在したか、
    ■ 予兆は検知できたのか、できるための改善はなにか
    ○ チーム全体で課題に向き合う

    View Slide

  28. 障害対応から改善につなげる
    ● slack(などチャット)へのアラート連携
    ● アラート通知をきっかけにコミュニケー
    ション。
    ● チームで共同で調査・対応し
    ● 経緯をポストモーテムとしてオンラインド
    キュメントなどに蓄積。
    ● 根本対策に取り組む。
    経緯をポストモー
    テムに残す
    根本対策に継続し
    て取り組む

    View Slide

  29. まとめ
    障害対応から改善につなげるDevOpsへの取り組み方
    ● Mackerelの紹介
    ● DevOpsとMackerelの取り組み
    ● 障害対応から改善につなげる例
    ● まとめ

    View Slide

  30. Mackerelをぜひお試しください
    mackerel.io から 「無料で試してみる」をクリック!

    View Slide