レンタルサーバでたびたび起こる障害について、対応と対策をお話させてもらおうとおもいます。
#RAKUSMeetup©2019 RAKUS Co., Ltd.©2019 RAKUS Co., Ltd.障害対応と対策
View Slide
#RAKUSMeetup©2019 RAKUS Co., Ltd.自己紹介• 名前:下西 章王 (しもにし あきおう)• 出身:大阪府• 趣味:ゴルフ、野球、モンハン、麻雀、etc…• 入社:2015年 4月 (5年目)• 業務内容:レンタルサーバの運用・保守コーポレートサイト・サービスサイトの運用・保守BlastMailの運用・保守
#RAKUSMeetup©2019 RAKUS Co., Ltd.レンタルサーバとは• いわゆるPaaS• ネットワーク・OS・MWを提供。• 主にウェブ・メールをお客様が利用しています。• 今回は複数顧客が同居する共用レンタルサーバのお話
#RAKUSMeetup©2019 RAKUS Co., Ltd.本日のテーマ 肝を冷やした話インフラを運用していてヒヤリハットって何があるだろう…ハットしたときには事故ってる…
#RAKUSMeetup©2019 RAKUS Co., Ltd.ヒヤリハット体験インフラあるあるかもしれないですが、この辺がよくあるヒヤリ(アウト)なのかなーと。・stagingとproduct環境を間違えてリブートしちゃった。・rm –rf /* をたたきそうになった。・障害対応今回は障害対応についてお話させていただこうと思います。
#RAKUSMeetup©2019 RAKUS Co., Ltd.障害対応のお話レンタルサーバで起こる障害対応• スパム配送の踏み台にされてメール遅延• アクセス集中でサービスダウン• サーバの物理故障がよく見かける障害です。このあたりについて対応と対策についてお話しできればと。
#RAKUSMeetup©2019 RAKUS Co., Ltd.障害の分析
#RAKUSMeetup©2019 RAKUS Co., Ltd.にはちの法則(パレートの法則)にはちの法則とは、マーケティング用語で、「売り上げの80%を生み出しているのは、上位20%の顧客」という法則。(専門じゃないので知りたい方は調べてみてください。)これを障害対応に置き換えれば、「障害の80%を生み出しているのは、上位20%の原因」つまり「上位20%の原因を潰せば、80%の障害が減る」
#RAKUSMeetup©2019 RAKUS Co., Ltd.本当に?
#RAKUSMeetup©2019 RAKUS Co., Ltd.にはちの法則(パレートの法則)020406080100120140160180200スパム配送 アクセス集中 その他 物理故障2015年 障害発生件数スパム配送が9割原因を1つ潰せば約90%の障害を潰すことができる!ということでスパム配送についてみていきましょう。約9割
#RAKUSMeetup©2019 RAKUS Co., Ltd.共用サーバの対応方針
#RAKUSMeetup©2019 RAKUS Co., Ltd.共用サーバの障害対応方針1顧客が悪さをした場合、顧客全体に影響があるため、即時対応が必要。「1を捨て、全を守る。」という精神のもと、心を鬼にして悪さをした顧客に対して対応。例)A顧客 ←影響を受けるB顧客 ←悪さをした顧客C顧客 ←影響を受ける・・Z顧客 ←影響を受ける
#RAKUSMeetup©2019 RAKUS Co., Ltd.ではスパム配送がなぜ起こるのか見ていきましょう
#RAKUSMeetup©2019 RAKUS Co., Ltd.スパム配送の原因スパムが配送される原因としてあるあるなものが、・顧客のメールアカウントがクラックされる。・スパム配送プログラムが顧客環境に設置される。上記がよくあるスパムの踏み台にされる原因です。
#RAKUSMeetup©2019 RAKUS Co., Ltd.顧客のメールアカウントがクラック〇原因・顧客が設定しているパスワード強度が弱い。そのためブルートフォースや辞書攻撃などでパスワードが破られる〇対応・クラックされているメールアカウントを特定してパスワード変更[email protected]メールアカウントをクラック
#RAKUSMeetup©2019 RAKUS Co., Ltd.顧客のメールアカウントがクラック〇対策・パスワードポリシーの設定・ロックアウト値の設定・1時間あたりの送信数上限を設定[email protected]メールアカウントをクラック
#RAKUSMeetup©2019 RAKUS Co., Ltd.スパム配送プログラム〇原因・95%はWordpressを利用している顧客。・90%は特定の場所にプログラムを設置〇対応・プログラムを探して排除。・POSTリクエストが送られていることが多いため、POSTリクエストに対してBasic認証を設定。wp-content/uploads/spam.phpWordpressをクラック設置POSTリクエスト1234444 44
#RAKUSMeetup©2019 RAKUS Co., Ltd.スパム配送プログラム〇対策・Wordpressの場合、スパム配送プログラムが「wp-content/uploads/」に設置されているため、.htaccessでphpが動かないように対策。wp-content/uploads/spam.phpWordpressをクラック設置POSTリクエト123ここをブロック!
#RAKUSMeetup©2019 RAKUS Co., Ltd.アクセス集中対策「にはちの法則」のスライドで「スパム対策すれば9割の障害が減らせる」と記載しましたが、「そうは言っても他の対策も進めていきます。」
#RAKUSMeetup©2019 RAKUS Co., Ltd.ではアクセス集中がなぜ起こるのか見ていきましょう
#RAKUSMeetup©2019 RAKUS Co., Ltd.アクセス集中の話アクセス集中が発生して、ウェブサーバが落ちる原因としてあるあるなのが・顧客がテレビなどで放送されて、一時的にアクセスが増加した・DDoS攻撃・etcウェブサーバはApacheを利用しているため、Apacheのモジュールを利用した対策のお話をさせてもらいます。
#RAKUSMeetup©2019 RAKUS Co., Ltd.アクセス集中の話・mod_bwApacheのモジュールで帯域制限や接続数上限を変えられるもの。このモジュールをバーチャルホストごとに接続数上限を設定することで、アクセス集中が発生したときに1ドメインだけ制限がかけられるようになる。Apacheの接続数上限 > バーチャルホストごとの接続数このように設定することで別顧客のサイトは落とされないようになる。
#RAKUSMeetup©2019 RAKUS Co., Ltd.対策の効果にはちの法則で対策するべき障害ジャンルがわかったため実際に対策してきた効果を確認していきましょう。
#RAKUSMeetup©2019 RAKUS Co., Ltd.にはちの法則の効果192144 11262 4 0050100150200250スパム配送 アクセス集中 その他 物理故障障害発生内容2015年障害件数2018年障害件数スパム配送 … 約3.5割アクセス集中 … 約8.5割削減に成功!
#RAKUSMeetup©2019 RAKUS Co., Ltd.実際にあった怖い話障害の対応・対策の話はここまでです。ここからは実際にあった物理故障で涙目になったお話。
#RAKUSMeetup©2019 RAKUS Co., Ltd.物理故障の恐怖
#RAKUSMeetup©2019 RAKUS Co., Ltd.物理故障の話物理的にサーバが故障してしまった時のお話です。壊れて一番困るものが「ハードディスク」です。このハードディスクはお客様のデータが入っている重要なもの。そのためデータが消失しないようにRAIDという技術を使ってデータが消失しないようにしています。
#RAKUSMeetup©2019 RAKUS Co., Ltd.物理故障の話共用サーバのハードディスクはRAID10を使っています。RAID0 … 2つ以上のハードディスクを1つのハードディスクと扱い、容量を大きくする技術1つでもハードディスクが壊れれば復旧不可能RAID1 … 2つのハードディスクを使って2本に同じデータを書き込む技術1つのハードディスクが壊れても復旧が可能。2本壊れると復旧不可RAID10 … RAID0とRAID1を組み合わせた技術。RAID0 RAID1 RAID10
#RAKUSMeetup©2019 RAKUS Co., Ltd.物理故障の話昔はRAID1を利用していて、RAID1のハードディスクの片方が故障したのを検知しました。サーバを購入したベンダーの保守に入っているため、ハードディスク交換をしてもらうことに…データセンターへ入局し、保守のエンジニアの方との会話を進めていると…
#RAKUSMeetup©2019 RAKUS Co., Ltd.物理故障の話下西 :では、ディスク交換の作業お願いします!担当者:ではまずログを見させてもらいますね。ログ確認中…担当者:これ両方のディスクでエラーが出力されてますね。リビルドはできないかもしれないです。できたとしてもエラーも一緒にリビルドされる可能性があります。下西 :ん?それってエラー出力されっぱなしということでしょうか?
#RAKUSMeetup©2019 RAKUS Co., Ltd.物理故障の話担当者:そうですね。正常にリビルドが完了しないかもしれないです。リビルドできないとなると環境の再構築になります。その場合、データはすべて消えます。
#RAKUSMeetup©2019 RAKUS Co., Ltd.物理故障の話やるしかない状況でだったのでディスク交換を実施。ディスク交換作業が完了し、リビルドが完了したときには特にエラーはなく、環境の再構築はなくなりました。ディスク故障マジ怖かったです。リビルド中は割は涙目になりながら見守っていました。
#RAKUSMeetup©2019 RAKUS Co., Ltd.あとがき
#RAKUSMeetup©2019 RAKUS Co., Ltd.あとがきどれだけ対策しても障害は発生してしまいます。早期発見・早期対応が重要。監視、対応フローを整備して、お客様にできるだけ迷惑をかけず、我々エンジニアの障害対応時間も削減することを目指すことが大事。トラブル対応は精神も削られ、焦って2次災害を起こすこともあるため予行練習もやっておきましょう。
#RAKUSMeetup©2019 RAKUS Co., Ltd.あとがきそもそも障害の対策しようという話になったのも、マンパワーで障害対応をしている時間がもったいないからです。エンジニアは技術を使って世の中をよくすることがお仕事なので障害や定常的な作業を削減して、エンジニアリングの時間を増やす。という目的のもと、これからも頑張ります!
#RAKUSMeetup©2019 RAKUS Co., Ltd.ご清聴ありがとうございました