Slide 1

Slide 1 text

2020.11.11 株式会社はてな 渡辺 起 Jira / Confluence × Mackerel で実践! 運用しながら改善していくDevOpsのはじめかた 障害対応から改善につなげる DevOpsへの取り組み方

Slide 2

Slide 2 text

自己紹介 ● 渡辺 起 (わたなべ たつる) ○ id:wtatsuru @tatsuru ● 略歴 ○ 2011年入社。インフラエンジニアとして入社 ○ 基盤開発部門のマネージャー、責任者を経て ○ 現在はMackerelプロダクトマネージャー ● 得意・好き ○ 計算機、ハードウェア ○ 仕事ではAWSをよく使ってきた

Slide 3

Slide 3 text

内容 障害対応から改善につなげるDevOpsへの取り組み方 ● Mackerelの紹介 ● DevOpsとMackerelの取り組み ● 障害対応から改善につなげる例 ● まとめ

Slide 4

Slide 4 text

Mackerelの紹介

Slide 5

Slide 5 text

会社紹介 社名 株式会社はてな 所在地 (本社) 〒604-0835 京都府京都市中京区御池通間之町東入高宮町206 御池ビル9F     (本店) 〒107-0062 東京都港区南青山6-5-55青山サンライトビル3F 設立 2001年7月 売上高 2,542 百万円(2020年7月現在) 従業員数 161人(2020年7月現在) 2016年に東証マザーズ市場に上場 5 提供サービス(抜粋)

Slide 6

Slide 6 text

6

Slide 7

Slide 7 text

Mackerelの紹介 ● エンジニアをワクワクさせる直感的サーバー監視サービス ● 簡単に始められる ● 直感的ユーザー体験 ● 便利で奥が深い機能

Slide 8

Slide 8 text

すぐにはじめられる ● ガイドにしたがってコマンドを実行するだけ ● 数分あれば十分 ● エージェントが死活監視とメトリック取得を自動で開始 ● メトリックは自動的にグラフで可視化 8

Slide 9

Slide 9 text

直感的なユーザー体験 9

Slide 10

Slide 10 text

アーキテクチャ 10 (SaaS) URL外形監視 Mackerelから 外部サービスの 外形監視が可能

Slide 11

Slide 11 text

マルチクラウド対応(クラウドインテグレーション) クラウド製品も可視化。サービス/ロール/ホストの 概念でわかりやすく監視できます。 AWS、Azure、Google Cloudなどのクラウドサービスか ら様々なメトリックやイベントを可視化。 複雑なサービス環境も全体を俯瞰してシンプルに 管理できます。 11

Slide 12

Slide 12 text

育てていく監視 ● 動的な管理モデル。サーバーを自然に役割で管理 ● 豊富な通知連携 ● 充実したAPI ● 運用の中で育てていく監視

Slide 13

Slide 13 text

日本語サポート・国内コミュニティ 課題解決の手段と場所を整えています 13 ▽ 豊富な日本語コンテンツ (ブログ・ヘルプ・FAQ) ▽ 公式イベントの継続開催 (Meetup・オンラインセミナー) ▽ ユーザーコミュニティ (Slackで活動中) https://mackerel-ug-slackin.herokuapp.com/

Slide 14

Slide 14 text

日本語サポート・国内コミュニティ サポートチームへのお問い合わせも可能です 14 ご不明点がありましたら ぜひ、サポートチームへ ご連絡ください!

Slide 15

Slide 15 text

Mackerelの紹介(再掲) ● エンジニアをワクワクさせる直感的サーバー監視サービス ● 簡単に始められる ● 直感的ユーザー体験 ● 便利で奥が深い機能

Slide 16

Slide 16 text

DevOpsとMackerelの取り組み

Slide 17

Slide 17 text

ビジネス環境の変化 ● クラウドの登場、ビジネス上の要求 ○ クラウドによりシステム調達が不要に。インフラ管理の敷居が下がった。 ○ システムの売り切りモデルから SaaSなどリテンションモデルへ。 ● 価値を素早く届けるための方法論の登場 ○ アジャイル ○ SRE ○ DevOps

Slide 18

Slide 18 text

DevOps ● ビジネス価値の提供に向き合う ○ 「開発」と「運用」という観点は対立構造を生む ○ ともに同じ価値の提供に向き合う ● コラボレーション文化。問題に対してチームで向き合う ○ 情報の透明性 ○ 問題vs私達の観点

Slide 19

Slide 19 text

監視という観点から見たDevOps ● チームでのスキル獲得の観点 ○ インフラ運用や監視が専門家のものになってしまうと、チームでの改善に取り組めない ○ チームのスキルにしていく必要がある。 ● 情報の透明性という観点 ○ 見ている情報が異なると目線が揃わない ○ 前提の相違、情報格差による権威勾配。対立が生まれる構造ができる ○ 情報の透明性がコラボレーションを助ける ● 監視の問題は改善のチャンス ○ チームでの問題発見、システムの改善に取り組む

Slide 20

Slide 20 text

監視という観点から見たDevOps ● 開発・運用という垣根をこえて、チームで運用 = 価値の提供に向き合っていく必要が ある 「監視とは役割ではなくスキルであり、チーム内の全員がある程度のレベルに至っておくべ き。」 『入門 監視』 2019年1月 日本語訳出版(1.2 アンチパターン2:役割としての監視 )より

Slide 21

Slide 21 text

Mackerelの紹介(再) ● エンジニアをワクワクさせる直感的サーバー監視サービス ● 簡単に始められる ● 直感的ユーザー体験 ● 便利で奥が深い機能

Slide 22

Slide 22 text

Mackerelの取り組み ● 簡単に始められる ○ 敷居を下げて、誰でも取り組むことができる。 ● 直感的ユーザー体験 ○ 誰でも同じ目線で向き合える。 ● 便利で奥が深い機能 ○ 改善に取り組む、監視を育てていく。

Slide 23

Slide 23 text

障害対応から改善につなげる例

Slide 24

Slide 24 text

障害対応から改善につなげる例 はてな社内の事例をもとに、実際の流れを追っていきます ● 障害発生 ● 対応 ● 振り返り ● 改善

Slide 25

Slide 25 text

● アラートの通知。チャットツールやメールなどへの通知 ● グラフやエラー状況を見て状況を把握 障害発生 ● slack(などチャット)へのアラート通知

Slide 26

Slide 26 text

対応 ● 対応者が集まり、対応開始 ● Confluenceなどのドキュメントツールに対応を 記録 ● リアルタイムな情報共有、認識の齟齬をなくす ○ 電話、ビデオチャットでのコミュニケーション ○ 対応ドキュメントをアップデートしていく ○ グラフ共有などで同じものを見る

Slide 27

Slide 27 text

振り返り、改善 ● チームでの振り返り実施 ● 前提を把握する ○ 対応ドキュメントの記録 ○ チャットツールでの時系列情報 ■ 何時に何をしたか ■ どのグラフを見て ■ どのような判断を行ったか ● チームで問題に向き合い、改善策を考える ○ 動き方、役割分担は適切だったか。 ○ 対応精度向上。 ■ 対応時間を短縮できるポイントは存在したか、 ■ 予兆は検知できたのか、できるための改善はなにか ○ チーム全体で課題に向き合う

Slide 28

Slide 28 text

障害対応から改善につなげる ● slack(などチャット)へのアラート連携 ● アラート通知をきっかけにコミュニケー ション。 ● チームで共同で調査・対応し ● 経緯をポストモーテムとしてオンラインド キュメントなどに蓄積。 ● 根本対策に取り組む。 経緯をポストモー テムに残す 根本対策に継続し て取り組む

Slide 29

Slide 29 text

まとめ 障害対応から改善につなげるDevOpsへの取り組み方 ● Mackerelの紹介 ● DevOpsとMackerelの取り組み ● 障害対応から改善につなげる例 ● まとめ

Slide 30

Slide 30 text

Mackerelをぜひお試しください mackerel.io から 「無料で試してみる」をクリック!