「Jira / Confluence × Mackerel で実践! 運用しながら改善していくDevOpsのはじめかた」での発表資料です。
2020.11.11株式会社はてな 渡辺 起Jira / Confluence × Mackerel で実践! 運用しながら改善していくDevOpsのはじめかた障害対応から改善につなげるDevOpsへの取り組み方
View Slide
自己紹介● 渡辺 起 (わたなべ たつる)○ id:wtatsuru @tatsuru● 略歴○ 2011年入社。インフラエンジニアとして入社○ 基盤開発部門のマネージャー、責任者を経て○ 現在はMackerelプロダクトマネージャー● 得意・好き○ 計算機、ハードウェア○ 仕事ではAWSをよく使ってきた
内容障害対応から改善につなげるDevOpsへの取り組み方● Mackerelの紹介● DevOpsとMackerelの取り組み● 障害対応から改善につなげる例● まとめ
Mackerelの紹介
会社紹介社名 株式会社はてな所在地 (本社) 〒604-0835 京都府京都市中京区御池通間之町東入高宮町206 御池ビル9F (本店) 〒107-0062 東京都港区南青山6-5-55青山サンライトビル3F設立 2001年7月売上高 2,542 百万円(2020年7月現在)従業員数 161人(2020年7月現在)2016年に東証マザーズ市場に上場5提供サービス(抜粋)
6
Mackerelの紹介● エンジニアをワクワクさせる直感的サーバー監視サービス● 簡単に始められる● 直感的ユーザー体験● 便利で奥が深い機能
すぐにはじめられる● ガイドにしたがってコマンドを実行するだけ● 数分あれば十分● エージェントが死活監視とメトリック取得を自動で開始● メトリックは自動的にグラフで可視化8
直感的なユーザー体験9
アーキテクチャ10(SaaS)URL外形監視Mackerelから外部サービスの外形監視が可能
マルチクラウド対応(クラウドインテグレーション)クラウド製品も可視化。サービス/ロール/ホストの概念でわかりやすく監視できます。AWS、Azure、Google Cloudなどのクラウドサービスから様々なメトリックやイベントを可視化。複雑なサービス環境も全体を俯瞰してシンプルに管理できます。11
育てていく監視● 動的な管理モデル。サーバーを自然に役割で管理● 豊富な通知連携● 充実したAPI● 運用の中で育てていく監視
日本語サポート・国内コミュニティ課題解決の手段と場所を整えています13▽ 豊富な日本語コンテンツ(ブログ・ヘルプ・FAQ)▽ 公式イベントの継続開催(Meetup・オンラインセミナー)▽ ユーザーコミュニティ(Slackで活動中)https://mackerel-ug-slackin.herokuapp.com/
日本語サポート・国内コミュニティサポートチームへのお問い合わせも可能です14ご不明点がありましたらぜひ、サポートチームへご連絡ください!
Mackerelの紹介(再掲)● エンジニアをワクワクさせる直感的サーバー監視サービス● 簡単に始められる● 直感的ユーザー体験● 便利で奥が深い機能
DevOpsとMackerelの取り組み
ビジネス環境の変化● クラウドの登場、ビジネス上の要求○ クラウドによりシステム調達が不要に。インフラ管理の敷居が下がった。○ システムの売り切りモデルから SaaSなどリテンションモデルへ。● 価値を素早く届けるための方法論の登場○ アジャイル○ SRE○ DevOps
DevOps● ビジネス価値の提供に向き合う○ 「開発」と「運用」という観点は対立構造を生む○ ともに同じ価値の提供に向き合う● コラボレーション文化。問題に対してチームで向き合う○ 情報の透明性○ 問題vs私達の観点
監視という観点から見たDevOps● チームでのスキル獲得の観点○ インフラ運用や監視が専門家のものになってしまうと、チームでの改善に取り組めない○ チームのスキルにしていく必要がある。● 情報の透明性という観点○ 見ている情報が異なると目線が揃わない○ 前提の相違、情報格差による権威勾配。対立が生まれる構造ができる○ 情報の透明性がコラボレーションを助ける● 監視の問題は改善のチャンス○ チームでの問題発見、システムの改善に取り組む
監視という観点から見たDevOps● 開発・運用という垣根をこえて、チームで運用 = 価値の提供に向き合っていく必要がある「監視とは役割ではなくスキルであり、チーム内の全員がある程度のレベルに至っておくべき。」『入門 監視』 2019年1月 日本語訳出版(1.2 アンチパターン2:役割としての監視 )より
Mackerelの紹介(再)● エンジニアをワクワクさせる直感的サーバー監視サービス● 簡単に始められる● 直感的ユーザー体験● 便利で奥が深い機能
Mackerelの取り組み● 簡単に始められる○ 敷居を下げて、誰でも取り組むことができる。● 直感的ユーザー体験○ 誰でも同じ目線で向き合える。● 便利で奥が深い機能○ 改善に取り組む、監視を育てていく。
障害対応から改善につなげる例
障害対応から改善につなげる例はてな社内の事例をもとに、実際の流れを追っていきます● 障害発生● 対応● 振り返り● 改善
● アラートの通知。チャットツールやメールなどへの通知● グラフやエラー状況を見て状況を把握障害発生● slack(などチャット)へのアラート通知
対応● 対応者が集まり、対応開始● Confluenceなどのドキュメントツールに対応を記録● リアルタイムな情報共有、認識の齟齬をなくす○ 電話、ビデオチャットでのコミュニケーション○ 対応ドキュメントをアップデートしていく○ グラフ共有などで同じものを見る
振り返り、改善● チームでの振り返り実施● 前提を把握する○ 対応ドキュメントの記録○ チャットツールでの時系列情報■ 何時に何をしたか■ どのグラフを見て■ どのような判断を行ったか● チームで問題に向き合い、改善策を考える○ 動き方、役割分担は適切だったか。○ 対応精度向上。■ 対応時間を短縮できるポイントは存在したか、■ 予兆は検知できたのか、できるための改善はなにか○ チーム全体で課題に向き合う
障害対応から改善につなげる● slack(などチャット)へのアラート連携● アラート通知をきっかけにコミュニケーション。● チームで共同で調査・対応し● 経緯をポストモーテムとしてオンラインドキュメントなどに蓄積。● 根本対策に取り組む。経緯をポストモーテムに残す根本対策に継続して取り組む
まとめ障害対応から改善につなげるDevOpsへの取り組み方● Mackerelの紹介● DevOpsとMackerelの取り組み● 障害対応から改善につなげる例● まとめ
Mackerelをぜひお試しくださいmackerel.io から 「無料で試してみる」をクリック!