Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
チームとしての障害対応時間削減に向けて取り組んだこと/20211222-rakusmeetup...
Search
Rakus_Dev
January 06, 2022
Technology
0
3.6k
チームとしての障害対応時間削減に向けて取り組んだこと/20211222-rakusmeetup-nishie
Rakus_Dev
January 06, 2022
Tweet
Share
More Decks by Rakus_Dev
See All by Rakus_Dev
『楽楽電子保存』開発チームが挑む「AI駆動開発」の全貌 / rakustechcon2025-rakurakudenshihozon
rakus_dev
1
280
数字と感情で語るスクラム導入効果。『楽楽勤怠』開発チームの変革の軌跡 / rakustechcon2025-rakurakukintai
rakus_dev
0
280
分割と統合で学んだサイロ突破術—『楽楽販売』開発組織10年の軌跡と持続的成長の仕組み / rakustechcon2025-rakurakuhanbai
rakus_dev
0
260
『メールディーラー』へのAI機能実装─"20年"の歴史を持つ製品への導入プロセス / rakustechcon2025-maildealer
rakus_dev
0
260
新サービス『楽楽請求』!何を作るかより"なぜ作るか" 顧客価値から逆算する開発現場のリアル / rakustechcon2025-rakurakuseikyu
rakus_dev
0
260
なぜ、成熟市場で"売上120%成長"を続けられるのか?『配配メール』の顧客志向型プロダクト開発戦略 / rakustechcon2025-haihaimail
rakus_dev
0
250
『楽楽精算』15年の進化と未来への挑戦 〜経理の"楽"から、すべての働く人の"楽"へ〜 / rakustechcon2025-rakurakuseisan
rakus_dev
0
270
AI時代にプロダクトマネジメントは必要だけどプロダクトマネージャーは役割として必要なのだろうか? / Product Management in the Age of AI
rakus_dev
0
220
AIは精算業務をどう変える? 自律型エージェントが実現する未来のワークフロー / RAKUS AI Meetup-1
rakus_dev
0
690
Other Decks in Technology
See All in Technology
あなたの知らない OneDrive
murachiakira
0
130
九州の人に知ってもらいたいGISスポット / gis spot in kyushu 2025
sakaik
0
210
Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders
kzykmyzw
0
130
AIと描く、未来のBacklog 〜プロジェクト管理の次の10年を想像し、創造するセッション〜
hrm_o25
0
110
AIが住民向けコンシェルジュに?Amazon Connectと生成AIで実現する自治体AIエージェント!
yuyeah
0
230
LLM時代の検索とコンテキストエンジニアリング
shibuiwilliam
2
880
ABEMAにおける 生成AI活用の現在地 / The Current Status of Generative AI at ABEMA
dekatotoro
0
440
結局QUICで通信は速くなるの?
kota_yata
9
7.5k
いかにして命令の入れ替わりについて心配するのをやめ、メモリモデルを愛するようになったか(改)
nullpo_head
7
2.7k
あとはAIに任せて人間は自由に生きる
kentaro
3
730
形式手法特論:位相空間としての並行プログラミング #kernelvm / Kernel VM Study Tokyo 18th
ytaka23
3
1.5k
AIは変更差分からユニットテスト_結合テスト_システムテストでテストすべきことが出せるのか?
mineo_matsuya
5
2.7k
Featured
See All Featured
Art, The Web, and Tiny UX
lynnandtonic
301
21k
Agile that works and the tools we love
rasmusluckow
329
21k
Building an army of robots
kneath
306
45k
For a Future-Friendly Web
brad_frost
179
9.9k
Practical Orchestrator
shlominoach
190
11k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
8
890
Build your cross-platform service in a week with App Engine
jlugia
231
18k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Java REST API Framework Comparison - PWX 2021
mraible
33
8.8k
Building a Scalable Design System with Sketch
lauravandoore
462
33k
Into the Great Unknown - MozCon
thekraken
40
2k
Transcript
#RAKUSMeetup ©2021 RAKUS Co., Ltd. ©2021 RAKUS Co., Ltd. チームとしての障害対応時間
削減に向けて取り組んだこと 株式会社ラクス インフラ開発部 西江 正義
#RAKUSMeetup ©2021 RAKUS Co., Ltd. 自己紹介 西江 正義(にしえ まさよし) ▪経歴
大手SIer、通信系ベンダにてインフラの構築・運用を 10数年経験後、2013年ラクス入社。 インフラ開発部にて、メールディーラー および チャットディーラー の運用チームリーダを担当。 ▪趣味 旅行(※できるだけ携帯電話がつながらないところ)
#RAKUSMeetup ©2021 RAKUS Co., Ltd. 発表内容について メールディーラーとチャットディーラーで合わせて1,000台近い サーバを運用していますが、それだけサーバがあると、様々な 障害が発生します。 中でも仮想基盤機器やネットワーク機器で障害が発生した場合は、
影響範囲が大きくなりやすいため、主にそういったものに対し、 どうすればチームとして迅速に対応できるようになるか? ということを考え、実践したことについて発表させていただきます。
#RAKUSMeetup ©2021 RAKUS Co., Ltd. 障害対応における問題の分析
#RAKUSMeetup ©2021 RAKUS Co., Ltd. 過去発生した障害について 過去3年以内に発生した以下のような障害について分析した結果、 ある問題が見えてきました。 (※複数サーバに影響があったもの) ・仮想基盤用機器のダウン
・インターネット回線障害 ・DoS/DDoS攻撃 etc…
#RAKUSMeetup ©2021 RAKUS Co., Ltd. 問題とは・・・ 障害発生後、関係者への周知に 時間がかかっている
#RAKUSMeetup ©2021 RAKUS Co., Ltd. 障害概要 影響範囲 原因 発生時間 復旧時間
周知時間 仮想基盤用 機器ダウン 仮想サーバ32台 で再起動が発生 機器故障 19:41 19:47 20:23 インターネット 回線障害 約800台のサー バに外部からア クセス不可 他ユーザによ る回線圧迫 6:21 6:24 7:54 DoS/DDoS攻 撃 不明 (数十台~) 外部からの攻 撃 15:47 16:03 不明 (おそらく 16:30頃) 【障害例】 6分 36分 3分 90分 16分 ※サービスは数分~十数分で復旧しているが、周知に数十分かかっている
#RAKUSMeetup ©2021 RAKUS Co., Ltd. 関係者への周知(情報共有)に 時間がかかると何が問題か?
#RAKUSMeetup ©2021 RAKUS Co., Ltd. ・顧客からの問合せに対し、サポートが 何も回答することができない ・上層部が何かしらの判断を行うにも、 状況がわからないと判断のしようがない ・サービス復旧、事後対応に必要な他部署の
協力を得にくくなる(遅くなる)
#RAKUSMeetup ©2021 RAKUS Co., Ltd. 周知に時間がかかる要因は?
#RAKUSMeetup ©2021 RAKUS Co., Ltd. ・ 各自バラバラに対応して、ムダが生じている ・ 第一報までの目標時間を定めていない ・
周知文に記載する内容を都度考えている ・ 影響範囲特定に必要なアクションが不明瞭 主な要因として、以下のようなものが挙げられる
#RAKUSMeetup ©2021 RAKUS Co., Ltd. すなわち、「障害発生時における対応方針が決まっ ていない」ということが周知に時間がかかっている 原因であるといえる。 そのため今回、障害発生時の対応方針として「時間 を意識してチームとして効率的に動く」という方針を
定めた。
#RAKUSMeetup ©2021 RAKUS Co., Ltd. 前ページで定めた方針に沿って、 それぞれの要因に対する対策を考えました。
#RAKUSMeetup ©2021 RAKUS Co., Ltd. 役割分担表の作成 各自バラバラに対応しており、ムダが生じている 要因 対策 【資料の一部抜粋(イメージ)】
#RAKUSMeetup ©2021 RAKUS Co., Ltd. 第一報、第二報以降の目標時間を定める 周知を行う際の目標時間を定めていない 要因 対策 アラート認知からの経過時間
目標値 備考 第一報までの時間 15分以内 障害発生時刻・復旧時刻(復旧してい る場合)・サービス影響を周知 影響範囲特定までの時間 30分以内 単独サーバ障害は除く サービス復旧までの時間 30分以内
#RAKUSMeetup ©2021 RAKUS Co., Ltd. 周知文のフォーマットを用意する 周知文に記載する内容を都度考えている 要因 対策 【資料の一部抜粋(イメージ)】
#RAKUSMeetup ©2021 RAKUS Co., Ltd. 影響範囲特定方法をまとめる 影響範囲特定に必要なアクションが不明瞭 要因 対策 ・
サービス影響があったサーバを特定するには、原則として 遠隔監視用サーバでアラート検知したものとする → アラート一覧画面からCSVファイルとして出力する
#RAKUSMeetup ©2021 RAKUS Co., Ltd. まだこれで終わりではない
#RAKUSMeetup ©2021 RAKUS Co., Ltd. せっかく対策を考えても、実際に障害が起こったときに、そ の対策に沿って動けなければ意味がない どうするんだっけ? ※こうなってはいけない
#RAKUSMeetup ©2021 RAKUS Co., Ltd. そのためには、普段からの訓練が重要 ⇒ 障害を想定したリハーサルを行う
#RAKUSMeetup ©2021 RAKUS Co., Ltd. 影響範囲 障害箇所 障害内容 (例) 単体サーバ
サーバ本体 サーバがディスクフルになった 複数サーバ スイッチ スイッチが故障した Firewall Firewallが故障した 仮想基盤 仮想基盤用機器がダウンした 以下のような障害が発生したと仮定した障害対応の リハーサルを行いました。 実際に障害を起こすことが難しいものについては、該当機器に障害が発生した場合に 検知すると思われるアラート一覧を事前に用意しておき、「こんなアラートを検知したと したらどう対応するか?」 という形で実施しました。
#RAKUSMeetup ©2021 RAKUS Co., Ltd. 障害対応 スプレッドシート ・影響範囲調査 ・障害発生箇所調査 ・障害原因調査
影響範囲特定手順 ・情報整理 ・関係者への情報共有 周知文フォーマット ・サービス復旧確認 凡例 :処理 :利用資料 ・各メンバに対し、役割分担を行う ・検証環境でアラートを発生させる 役割分担表 正常性確認手順 各機器のステータス ・ログ確認手順 ・復旧方法調査 ・復旧対応実施 情報記入 リハーサルの流れ(参考)
#RAKUSMeetup ©2021 RAKUS Co., Ltd. その後、障害対応における周知ま での時間はどうなったか?
#RAKUSMeetup ©2021 RAKUS Co., Ltd. 【結果】約半分の時間に短縮されました! (42分 → 22分) 2021/11/6(土)
22:12に仮想基盤を構成するノードの1台がダウンするという 障害が発生しました。 (これにより、仮想マシン38台で再起動が発生) このとき、アラート検知から関係者への情報共有にかかった時間は「22 分」でした。 → 障害発生時刻、復旧時刻、対象、サービス影響内容、 この時点で想定される原因、について報告を行った。 ※ 前回、同様の障害が発生した際は「42分」かかっていました。 しかも、今回は、土曜日の夜という ”業務時間外” に 発生した障害。
#RAKUSMeetup ©2021 RAKUS Co., Ltd. 今後の改善予定
#RAKUSMeetup ©2021 RAKUS Co., Ltd. • 各機器への疎通・ステータス確認、サーバの正常性確認の自動化 → jenkinsなどにあらかじめPingの実行先IPアドレスや
HTTPS・SMTPのポート接続先アドレスを登録しておき、 ワンクリックで確認できるようにする。 • アラート検知を契機とした自動復旧の仕組み作り → Zabbixでのアラート検知時に、自動的に処理が実行 されるようにする。 (例)サービス停止検知時、起動コマンドを自動発行する
#RAKUSMeetup ©2021 RAKUS Co., Ltd. ご清聴ありがとうございました。