Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
障害対応のあるある と僕らの選択肢 of Gotanda.pm #4 by 佐々木喜徳 @gaiax
Slide 2
Slide 2 text
自己紹介(佐々木喜徳) Perlの会社で Perlを書かずに、 インフラ基盤やり続けて早7.7年 はい。すみません。プログラマじゃないっす。 最近気になることは、 趣味の写真を格納したHDDがSPOFだから 不安な毎日を過ごしている。 (Google Nearline Storage にバックアップしようかな) h?ps://www.facebook.com/yoshinori.sasaki ←ポチっとな
Slide 3
Slide 3 text
趣味の写真
Slide 4
Slide 4 text
障害対応のあるある ガイアックスでよくある、障害対応の事象。 僕らの選択肢 それをどのように対処してきたのかの軌跡
Slide 5
Slide 5 text
障害対応のあるある 原因不明のメモリーリーク
Slide 6
Slide 6 text
僕らの選択肢 原因が見つかるまで障害防止 – とりあえず影響出る前に解消させる。 /etc/crontab – グラフを見て、遠くを眺める。 00 3 * * * root /bin/bash /etc/init.d/h?pd restart
Slide 7
Slide 7 text
障害対応のあるある 原因は Kenel Panic !?
Slide 8
Slide 8 text
僕らの選択肢 Kernel Panic の原因を調べる手段を模索 – syslogサーバに飛ばして、ログを追う – kdumpのメモリダンプを追う サービス サーバ /var/log/messages Syslog サーバ /var/log/messages サービス サーバ ファースト カーネル セカンド カーネル ダ ン プ kern.*
Slide 9
Slide 9 text
障害対応のあるある そもそもアラートメールに すぐ気づけないわ
Slide 10
Slide 10 text
僕らの選択肢 通知方法を模索(特に営業時間外) – 携帯/スマフォにもメールを飛ばす – メールだけじゃなくて、電話もかける – 障害だけ判断して連絡する サービス サーバ サービス サーバ サービス サーバ
Slide 11
Slide 11 text
障害対応のあるある 深夜に発生 関係者に連絡がつかない (連絡先リストが古くて使えない)
Slide 12
Slide 12 text
障害対応のあるある そのアラートは、 障害継続中?障害再発?
Slide 13
Slide 13 text
障害対応のあるある よし!復旧した! 障害記録・報告書かねば、、、
Slide 14
Slide 14 text
僕らの選択肢 • 技術的課題 – エンジニアリングで解決できる。してる。 • 運用的課題 – ルールとか、手順とか、で解決しようとしがち – でも上手くいかない。 障害発生時の対応を支えるツールを作ったった。
Slide 15
Slide 15 text
僕らのツール 参考: Yahoo! Japanの爆速連絡ツール 一斉に電話連絡機能 (機械音声で読み上げ) プロジェクトごとのチャット トピック機能 インシデント単位で、 連絡内容とチャット内容 サマリ情報、報告書を管理
Slide 16
Slide 16 text
僕らのこれから 障害対応基盤 コミュニケーション基盤 各種監視基盤 API Webhook NEW NEW
Slide 17
Slide 17 text
サービス化の準備してます! 60日間の無料トライアル版を提供可能! 4月下旬 正式版リリース予定
Slide 18
Slide 18 text
宣伝しちゃってすみません。 Perlだから許して!><