Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
障害対応のあるあると僕らの選択肢
Search
norinux
March 25, 2015
Technology
2
470
障害対応のあるあると僕らの選択肢
障害対応周りのあるあると、対応策やツールの話。
https://reactio.jp
norinux
March 25, 2015
Tweet
Share
More Decks by norinux
See All by norinux
NoCode開発で「オウ、ノーー!
norinux
0
890
インターネット基礎講座
norinux
0
100
スタートアップスタジオ流の開発プロセス
norinux
0
53
会社で書いてるコードも「OSSで公開しちゃえ!」ってしたいからそうした話 in OSS開発してる(したい)エンジニア交流会 /gx-oss-guideline-at-techmeetups
norinux
0
400
My Lightning Talk 「副業している(したい) エンジニア交流会 #2」
norinux
0
130
エンジニア流? こだわりのミーティング手法
norinux
1
120
スタートアップスタジオでの検証フェーズと技術
norinux
0
510
2018年新卒エンジニア研修 プログラミング研修【公開版】
norinux
0
57
2018年新卒エンジニア研修 セキュリティ
norinux
0
73
Other Decks in Technology
See All in Technology
KubeCon NA 2024 Recap / Running WebAssembly (Wasm) Workloads Side-by-Side with Container Workloads
z63d
1
250
Fanstaの1年を大解剖! 一人SREはどこまでできるのか!?
syossan27
2
170
ゼロから創る横断SREチーム 挑戦と進化の軌跡
rvirus0817
2
270
スタートアップで取り組んでいるAzureとMicrosoft 365のセキュリティ対策/How to Improve Azure and Microsoft 365 Security at Startup
yuj1osm
0
230
権威ドキュメントで振り返る2024 #年忘れセキュリティ2024
hirotomotaguchi
2
750
統計データで2024年の クラウド・インフラ動向を眺める
ysknsid25
2
850
事業貢献を考えるための技術改善の目標設計と改善実績 / Targeted design of technical improvements to consider business contribution and improvement performance
oomatomo
0
100
継続的にアウトカムを生み出し ビジネスにつなげる、 戦略と運営に対するタイミーのQUEST(探求)
zigorou
0
590
C++26 エラー性動作
faithandbrave
2
760
Amazon VPC Lattice 最新アップデート紹介 - PrivateLink も似たようなアップデートあったけど違いとは
bigmuramura
0
200
KnowledgeBaseDocuments APIでベクトルインデックス管理を自動化する
iidaxs
1
270
多領域インシデントマネジメントへの挑戦:ハードウェアとソフトウェアの融合が生む課題/Challenge to multidisciplinary incident management: Issues created by the fusion of hardware and software
bitkey
PRO
2
110
Featured
See All Featured
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
191
16k
Typedesign – Prime Four
hannesfritz
40
2.4k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
2
170
A designer walks into a library…
pauljervisheath
204
24k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
132
33k
Navigating Team Friction
lara
183
15k
Building Adaptive Systems
keathley
38
2.3k
Speed Design
sergeychernyshev
25
670
Automating Front-end Workflow
addyosmani
1366
200k
Reflections from 52 weeks, 52 projects
jeffersonlam
347
20k
How to Ace a Technical Interview
jacobian
276
23k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
17
2.3k
Transcript
障害対応のあるある と僕らの選択肢 of Gotanda.pm #4 by 佐々木喜徳 @gaiax
自己紹介(佐々木喜徳) Perlの会社で Perlを書かずに、 インフラ基盤やり続けて早7.7年 はい。すみません。プログラマじゃないっす。
最近気になることは、 趣味の写真を格納したHDDがSPOFだから 不安な毎日を過ごしている。 (Google Nearline Storage にバックアップしようかな) h?ps://www.facebook.com/yoshinori.sasaki ←ポチっとな
趣味の写真
障害対応のあるある ガイアックスでよくある、障害対応の事象。 僕らの選択肢 それをどのように対処してきたのかの軌跡
障害対応のあるある 原因不明のメモリーリーク
僕らの選択肢 原因が見つかるまで障害防止 – とりあえず影響出る前に解消させる。 /etc/crontab – グラフを見て、遠くを眺める。 00 3
* * * root /bin/bash /etc/init.d/h?pd restart
障害対応のあるある 原因は Kenel Panic !?
僕らの選択肢 Kernel Panic の原因を調べる手段を模索 – syslogサーバに飛ばして、ログを追う – kdumpのメモリダンプを追う サービス
サーバ /var/log/messages Syslog サーバ /var/log/messages サービス サーバ ファースト カーネル セカンド カーネル ダ ン プ kern.*
障害対応のあるある そもそもアラートメールに すぐ気づけないわ
僕らの選択肢 通知方法を模索(特に営業時間外) – 携帯/スマフォにもメールを飛ばす – メールだけじゃなくて、電話もかける – 障害だけ判断して連絡する サービス
サーバ サービス サーバ サービス サーバ
障害対応のあるある 深夜に発生 関係者に連絡がつかない (連絡先リストが古くて使えない)
障害対応のあるある そのアラートは、 障害継続中?障害再発?
障害対応のあるある よし!復旧した! 障害記録・報告書かねば、、、
僕らの選択肢 • 技術的課題 – エンジニアリングで解決できる。してる。 • 運用的課題 – ルールとか、手順とか、で解決しようとしがち
– でも上手くいかない。 障害発生時の対応を支えるツールを作ったった。
僕らのツール 参考: Yahoo! Japanの爆速連絡ツール 一斉に電話連絡機能 (機械音声で読み上げ) プロジェクトごとのチャット
トピック機能 インシデント単位で、 連絡内容とチャット内容 サマリ情報、報告書を管理
僕らのこれから 障害対応基盤 コミュニケーション基盤 各種監視基盤 API Webhook NEW NEW
サービス化の準備してます! 60日間の無料トライアル版を提供可能! 4月下旬 正式版リリース予定
宣伝しちゃってすみません。 Perlだから許して!><