Slide 1

Slide 1 text

障害対応のあるある   と僕らの選択肢 of  Gotanda.pm  #4   by  佐々木喜徳 @gaiax

Slide 2

Slide 2 text

自己紹介(佐々木喜徳) Perlの会社で    Perlを書かずに、     インフラ基盤やり続けて早7.7年      はい。すみません。プログラマじゃないっす。         最近気になることは、       趣味の写真を格納したHDDがSPOFだから     不安な毎日を過ごしている。      (Google  Nearline  Storage  にバックアップしようかな)   h?ps://www.facebook.com/yoshinori.sasaki ←ポチっとな

Slide 3

Slide 3 text

趣味の写真

Slide 4

Slide 4 text

  障害対応のあるある   ガイアックスでよくある、障害対応の事象。     僕らの選択肢   それをどのように対処してきたのかの軌跡  

Slide 5

Slide 5 text

障害対応のあるある 原因不明のメモリーリーク

Slide 6

Slide 6 text

僕らの選択肢 原因が見つかるまで障害防止   – とりあえず影響出る前に解消させる。   /etc/crontab   – グラフを見て、遠くを眺める。 00  3  *  *  *  root  /bin/bash  /etc/init.d/h?pd  restart

Slide 7

Slide 7 text

障害対応のあるある 原因は Kenel  Panic    !?

Slide 8

Slide 8 text

僕らの選択肢 Kernel  Panic  の原因を調べる手段を模索   – syslogサーバに飛ばして、ログを追う   – kdumpのメモリダンプを追う サービス   サーバ   /var/log/messages   Syslog   サーバ   /var/log/messages   サービス    サーバ   ファースト   カーネル セカンド カーネル ダ   ン   プ kern.*

Slide 9

Slide 9 text

障害対応のあるある そもそもアラートメールに   すぐ気づけないわ

Slide 10

Slide 10 text

僕らの選択肢 通知方法を模索(特に営業時間外)   – 携帯/スマフォにもメールを飛ばす   – メールだけじゃなくて、電話もかける   – 障害だけ判断して連絡する サービス   サーバ   サービス   サーバ   サービス   サーバ  

Slide 11

Slide 11 text

障害対応のあるある 深夜に発生   関係者に連絡がつかない   (連絡先リストが古くて使えない)  

Slide 12

Slide 12 text

障害対応のあるある そのアラートは、      障害継続中?障害再発?

Slide 13

Slide 13 text

障害対応のあるある よし!復旧した!   障害記録・報告書かねば、、、  

Slide 14

Slide 14 text

僕らの選択肢 •  技術的課題   – エンジニアリングで解決できる。してる。   •  運用的課題   – ルールとか、手順とか、で解決しようとしがち   – でも上手くいかない。   障害発生時の対応を支えるツールを作ったった。  

Slide 15

Slide 15 text

僕らのツール 参考:    Yahoo!  Japanの爆速連絡ツール 一斉に電話連絡機能    (機械音声で読み上げ) プロジェクトごとのチャット   トピック機能 インシデント単位で、   連絡内容とチャット内容   サマリ情報、報告書を管理

Slide 16

Slide 16 text

僕らのこれから 障害対応基盤 コミュニケーション基盤 各種監視基盤 API Webhook NEW NEW

Slide 17

Slide 17 text

サービス化の準備してます! 60日間の無料トライアル版を提供可能! 4月下旬 正式版リリース予定

Slide 18

Slide 18 text

宣伝しちゃってすみません。 Perlだから許して!><