Slide 1

Slide 1 text

システム障害は突然に 障害対応のポイントや 改善方法を学ぼう!! 「協同」で変える システム障害対応とは? BPStudy#193 https://bpstudy.connpass.com/event/295305/

Slide 2

Slide 2 text

目次 ・自己紹介 ・「協同」で変えるシステム障害対応とは? ・「3カ月で改善!システム障害対応 実践ガイド」のポイント ・今後の取り組み ・ミッション・ビジョン

Slide 3

Slide 3 text

システム障害の年間国内損失額は?

Slide 4

Slide 4 text

写真入れる 大手SIerにて 金融系サービスを担当 ・1日6回、やまない電話! 週2回、夜中に駆け付け! ↓ ・なんとかしたい!と、異動希望。 システム障害対応の改善活動へ 野村浩司 X @nomurakuj 自己紹介(野村)

Slide 5

Slide 5 text

大規模なシステム障害対応はどのような規模感か? 障害当日の参集者数百人名 銀行、カード会社等の問い合わせ数百件

Slide 6

Slide 6 text

写真入れる 大手情報系企業で 人材系ITサービスを担当 ・火消し屋プロジェクトマネージャ 障害対応多め。火を出さぬように... ・経営職を目指すITストラテジスト そもそも消す以前の問題では... ・前向きITサービスマネージャ 現実に向き合う。創業へ。 松浦修治 X @shujinext 自己紹介(松浦)

Slide 7

Slide 7 text

おかげ様で売れてます! ・予約段階でAmazonカテゴリ1位(システム管理・監査/開発技法) ・予約段階でコンピュータサイエンスAmazon新着ランク週間 3位 ・予約段階でhonto24時間ランキング2位 ・先行販売で秋葉原_書泉ブックタワー コンピュータ書週間2位 ・先行販売で池袋_ジュンク堂で完売。 ・発売日/翌日で訪問した書店5店舗中2店舗で追加発注。 ・楽天プログラミング関連書籍ランキング 6位

Slide 8

Slide 8 text

3カ月で改善! システム障害対応 実践ガイド ってどんな本?

Slide 9

Slide 9 text

写真入れる 今日≒本書のスコープは 認識(受付)から 収束(暫定対応)まで 障害となる事象を、 担当者が認識(受付)してから、 収束(暫定対応)させるまで 収束とは、障害によるサービス影響 が落ち着くまで、という意味 本日のスコープ

Slide 10

Slide 10 text

写真入れる Part1-3 <考え方:管理者向け> Part1:目的と改善効果・課題特定 Part2:難所や阻害要因・改善の肝 <実践方法:担当者向け> Part3:改善ステップにのっとった 実践方法 書籍の目次

Slide 11

Slide 11 text

どんな課題を解決するか?① ・大事な障害対応に 集中できるように ・障害対応をうまく さばけるように ・大規模障害へ備え るために ・障害対応の改善が 継続するように

Slide 12

Slide 12 text

どんな課題を解決するか?② ・ケース1: 20万件/月のアラート ・ケース2: 大規模障害の統括の 引継ぎ ・ケース3: 運用組織と保守組織 の壁

Slide 13

Slide 13 text

どんな課題を解決するか?ケース1 ・ケース1: 20万件/月のアラート ・ケース2: 大規模障害の統括の 引継ぎ ・ケース3: 運用組織と保守組織 の壁  某メーカーでオンプレ+クラウド  高額な保守・運用委託費  なんと20万件/月のアラート! その実態は・・・

Slide 14

Slide 14 text

どんな課題を解決するか?ケース2 ・ケース1: 20万件/月のアラート ・ケース2: 大規模障害の統括の 引継ぎ ・ケース3: 運用組織と保守組織 の壁  障害対応の統括、トラブルシュー ティングマネジメントの引継ぎ  後輩は1回目で心が折れかけ、、、 3回目でできるように!  事前の準備・訓練で底上げ

Slide 15

Slide 15 text

どんな課題を解決するか?ケース3 ・ケース1: 20万件/月のアラート ・ケース2: 大規模障害の統括の 引継ぎ ・ケース3: 運用組織と保守組織 の壁

Slide 16

Slide 16 text

「協同」で変える システム障害対応とは?

Slide 17

Slide 17 text

「協同」で変える、とは? 開発チーム と ユーザー企業 が 助け合いながらシステム障害対応にあたること。 関係上、難しいこともある… それでも、スタンダードにしたい。 助け合えば、障害対応の改善は、もっと進むはず。 そして、エンドユーザーへの影響を最小化したい。

Slide 18

Slide 18 text

7年にわたり 合計約1000 件の障害事例を 分析してわかった、 障害対応の改善ポイント!

Slide 19

Slide 19 text

「3カ月で改善!システム障害対応 実践ガイド」のポイント ポイント①:システム視点ではなくサービス視点 ポイント②:事象ではなくアクション起点 ポイント③:情報の量ではなく情報の質

Slide 20

Slide 20 text

ポイント①:システム視点ではなくサービス視点 システムを直すのも大事だけど、 サービスの継続のほうが大事。

Slide 21

Slide 21 text

ポイント②:事象ではなくアクション起点 事象は無限に広がるけど、 アクションの数に収束する。

Slide 22

Slide 22 text

ポイント③:情報の量ではなく情報の質 緊急時は情報が多いと動けない。 アクション選択の情報が重要

Slide 23

Slide 23 text

今後の取り組み

Slide 24

Slide 24 text

システム障害対応の 課題へ取り組み予定 改善が 進まない 書籍・コミュニティ 相談会 等 課題と対策 アラートが 大量/複雑 アラートと 対応ノウハウの整理 障害対応が 属人的 暫定対応の整理と 判断方法

Slide 25

Slide 25 text

取り組みの詳細や システム障害対応のノウハウを ブログへ掲載しています! 個別の質問・相談もお気軽に!

Slide 26

Slide 26 text

障害対応の改善ノウハウ、 一緒に発信していきませんか? これも「協同」の第一歩です。 まず発信するところから。

Slide 27

Slide 27 text

・ミッション 緊急時に 助け合える世界へ変える ・ビジョン エンドユーザーが システムインシデントで 困らない世界へ変える

Slide 28

Slide 28 text

大学・大学院時代は地震の研究 大学・大学院で合計4年間(2008年~2011年)、地震防災 に関する研究を実施、在学中は地震が起きるたびに教 授と共に情報収集や調査にあたる

Slide 29

Slide 29 text

卒業直前に東日本大震災が発生

Slide 30

Slide 30 text

何もない所に国内/世界から集まるボランティアに感動

Slide 31

Slide 31 text

金融システムの開発・保守・運用を担当

Slide 32

Slide 32 text

担当システムで大規模障害が発生

Slide 33

Slide 33 text

自分もシステム障害で助け合えていない 東京証券取引所の障害は07:04に発生、世界のエンジニアが協 力すれば9時の開場に間に合っていたのでは? みずほ銀行の全国ATMの前で、国内Sierが協力して対応してい たらここまで大事にならなかったのでは?

Slide 34

Slide 34 text

・ミッション 緊急時に助け合える世界へ変える ・ビジョン エンドユーザーがシステムインシデントで 困らない世界へ変える 「障害を世界のエンジニアが救う」のニュース見出しへ

Slide 35

Slide 35 text

仲間を募集中! 是非、一緒に 助け合える世界を目指しましょう!

Slide 36

Slide 36 text

コミュニティのお知らせ • Facebookで「書籍のQA」や「システム障害対応に関する相談」 ができるグループを運営中です。  書籍DLCのDL画面か、下記のQRコードから参加できます。 • 鋭意、Slackコミュニティの立ち上げ準備中!  立ち上げ段階から参加して頂ける方も募集しています! 書籍のQA システム障害対応の改善に 関するコミュニティ Slack #general #random #イベント #ニュース #書籍もくもく改善会 #お悩み相談 #自己紹介 ・・・etc

Slide 37

Slide 37 text

【告知】対談イベント 11/14火 19:00開始 沢渡あまね氏と語る、 「越境思考」×「協同」で切り開く システム障害対応の未来