Slide 1

Slide 1 text

7年間1000件の障害事例からわかった 障害対応の改善ポイント ~協同で変えるシステム障害対応とは?~ 15-D-7 02/15 15:20 ~ 15:50 NTTデータ 野村浩司@nomurakuj X(Twitter) +本日の資料→

Slide 2

Slide 2 text

目次 • アイスブレイク+自己紹介 • 障害対応の改善ポイント • 事例1,2 • 一歩改善を前に進めるために!

Slide 3

Slide 3 text

約4兆9600億円 システム障害の年間国内損失額は?

Slide 4

Slide 4 text

約5件/日 金融庁への1日の障害報告件数は?

Slide 5

Slide 5 text

写真入れる NTTデータにて 13年間,金融サービス担当 ・1日6回、やまない電話! 週2回、夜中に駆け付け! 野村浩司 X (旧Twitter) @nomurakuj 自己紹介 ・きっかけは大規模システム障害 ・社内、社外問わず100社以上と 意見交換・講演・相談を実施!

Slide 6

Slide 6 text

2015年9月5日、大規模システム障害が発生 テレビのニュースに流れる X(旧Twitter)では 「カードが使えない」が多数

Slide 7

Slide 7 text

障害対応の現場も大混乱。 500名以上参集。 多数の件問合せ。

Slide 8

Slide 8 text

7年にわたり 合計約1000 件の障害事例を 分析してわかった、 障害対応の改善ポイント!

Slide 9

Slide 9 text

障害対応の改善ポイント!! ポイント①:システム視点ではなくサービス視点 ポイント②:事象ではなくアクション ポイント③:情報の量ではなく情報の質

Slide 10

Slide 10 text

ポイント①:システム視点ではなくサービス視点 システム視点 サービス視点 システムを直すのも大事だけど、 サービスの継続のほうが大事。 データベー スが落ちた ○○機能が 使えない

Slide 11

Slide 11 text

ポイント②:事象ではなくアクション起点 事象は無限に広がるけど、 アクションの数は収束する。 事象 アクション サーバの再起動、 Webに障害情報を掲載

Slide 12

Slide 12 text

ポイント③:情報の量ではなく情報の質 情報の量 情報の質 緊急時は情報が多いと動けない。 アクション選択の情報が重要 Web掲載の場合 復旧見込みは 正確な分単位ではな く30分以内 or 以上

Slide 13

Slide 13 text

事例1 3つの改善ポイントの抑え方

Slide 14

Slide 14 text

課題:システム更改後の縮小体制への移行 あるログ管理システムにおいて、システム更改を終 えて体制縮小が必要。ベテランがチームを離れる中で 若手で障害対応行う必要がある。 体制変更 5年以上のベテラン 2年未満の若手

Slide 15

Slide 15 text

改善内容:システム障害の定義&関連組織 「大規模なシステム障害」の定義を決定。 それぞれのパターンで関連組織を決定。 Aサービスのオンライン 処理が5分間5件以下 国外からのWebアクセス 10秒以内に1000件以上 チームを離れた ベテランのAさんへ連絡 セキュリティ担当へ 連絡 サービス視点 アクション 質

Slide 16

Slide 16 text

担当者の声:関連組織で安心、判断に自信 自分だけでは不安だった。 支援してくれる関連組織を知って、安心材 料が増えました。 自分自身も曖昧に判断していた大規模障害 の定義が見えてきたのは収穫でした。

Slide 17

Slide 17 text

事例2 改善が進むための工夫

Slide 18

Slide 18 text

(事例)状況:大量のエラーメッセージに悩まされる 大量のエラーメッセージで、運用担当も保守担当も 双方疲弊 ▍STEP1 ▍STEP2 ▍STEP3 ▍STEP4 エラーの 検知 パトランプ 鳴動 メッセージ 確認 エスカレ 電話 月間数万件の エラーメッセージ 大量のエラー 出力で 鳴りっぱなし 確認しても ほぼ意味なし 電話をかけても 「対処不要」 更に…

Slide 19

Slide 19 text

(事例)課題:運用担当・保守担当の壁 不要アラートを止めてほしい運用担当、そこまで手が 回らない保守担当で、担当間の壁有り。

Slide 20

Slide 20 text

(事例)解決策:役割分担の変更 役割分担を変更し、全てを保守担当にまとめて、 自分が楽になるために改善が続く形式へ

Slide 21

Slide 21 text

(事例)効果:役割分担を変えて改善続くように! 運用担当・保守担当の対立構造を解決! 1カ月でアラートが9割減って、その後も改善が継続

Slide 22

Slide 22 text

「協同」で変える システム障害対応とは?

Slide 23

Slide 23 text

「協同」で変える、とは? 開発チーム と ユーザー企業 が 助け合いながらシステム障害対応にあたること。 関係上、難しいこともある… それでも、スタンダードにしたい。 助け合えば、障害対応の改善は、もっと進むはず。 そして、エンドユーザーへの影響を最小化したい。

Slide 24

Slide 24 text

その他の取り組み コミュニティ/ブログ 書籍

Slide 25

Slide 25 text

コミュニティ・ブログ 「システム障害対応改善のコミュニティ」を運営中! システム障害対応に関する情報発信をする「ブログ」 システム障害対応改善 コミュニティ

Slide 26

Slide 26 text

3カ月で改善! システム障害対応 実践ガイド

Slide 27

Slide 27 text

Ask the Speaker & 書籍販売+サイン会 システム障害対応改善 コミュニティ 野村浩司 X (旧Twitter) @nomurakuj