障害対応のあるあると僕らの選択肢

 障害対応のあるあると僕らの選択肢

障害対応周りのあるあると、対応策やツールの話。
https://reactio.jp

07d2f262fd910920293599896683c2b2?s=128

Yoshinori Sasaki

March 25, 2015
Tweet

Transcript

  1. 障害対応のあるある   と僕らの選択肢 of  Gotanda.pm  #4   by  佐々木喜徳 @gaiax

  2. 自己紹介(佐々木喜徳) Perlの会社で    Perlを書かずに、     インフラ基盤やり続けて早7.7年      はい。すみません。プログラマじゃないっす。    

        最近気になることは、       趣味の写真を格納したHDDがSPOFだから     不安な毎日を過ごしている。      (Google  Nearline  Storage  にバックアップしようかな)   h?ps://www.facebook.com/yoshinori.sasaki ←ポチっとな
  3. 趣味の写真

  4.   障害対応のあるある   ガイアックスでよくある、障害対応の事象。     僕らの選択肢   それをどのように対処してきたのかの軌跡  

  5. 障害対応のあるある 原因不明のメモリーリーク

  6. 僕らの選択肢 原因が見つかるまで障害防止   – とりあえず影響出る前に解消させる。   /etc/crontab   – グラフを見て、遠くを眺める。 00  3

     *  *  *  root  /bin/bash  /etc/init.d/h?pd  restart
  7. 障害対応のあるある 原因は Kenel  Panic    !?

  8. 僕らの選択肢 Kernel  Panic  の原因を調べる手段を模索   – syslogサーバに飛ばして、ログを追う   – kdumpのメモリダンプを追う サービス  

    サーバ   /var/log/messages   Syslog   サーバ   /var/log/messages   サービス    サーバ   ファースト   カーネル セカンド カーネル ダ   ン   プ kern.*
  9. 障害対応のあるある そもそもアラートメールに   すぐ気づけないわ

  10. 僕らの選択肢 通知方法を模索(特に営業時間外)   – 携帯/スマフォにもメールを飛ばす   – メールだけじゃなくて、電話もかける   – 障害だけ判断して連絡する サービス  

    サーバ   サービス   サーバ   サービス   サーバ  
  11. 障害対応のあるある 深夜に発生   関係者に連絡がつかない   (連絡先リストが古くて使えない)  

  12. 障害対応のあるある そのアラートは、      障害継続中?障害再発?

  13. 障害対応のあるある よし!復旧した!   障害記録・報告書かねば、、、  

  14. 僕らの選択肢 •  技術的課題   – エンジニアリングで解決できる。してる。   •  運用的課題   – ルールとか、手順とか、で解決しようとしがち

      – でも上手くいかない。   障害発生時の対応を支えるツールを作ったった。  
  15. 僕らのツール 参考:    Yahoo!  Japanの爆速連絡ツール 一斉に電話連絡機能    (機械音声で読み上げ) プロジェクトごとのチャット  

    トピック機能 インシデント単位で、   連絡内容とチャット内容   サマリ情報、報告書を管理
  16. 僕らのこれから 障害対応基盤 コミュニケーション基盤 各種監視基盤 API Webhook NEW NEW

  17. サービス化の準備してます! 60日間の無料トライアル版を提供可能! 4月下旬 正式版リリース予定

  18. 宣伝しちゃってすみません。 Perlだから許して!><