Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AWS障害で考えさせられた、 アプリケーションインフラ構成の注意ポイント

SWXMarketing
February 14, 2020

AWS障害で考えさせられた、 アプリケーションインフラ構成の注意ポイント

Developers Summit 2020 【14-E-1】の登壇スライドとなります。
#devsumiE #devsumi #devsumi2020
https://event.shoeisha.jp/devsumi/20200213/session/2415/

SWXMarketing

February 14, 2020
Tweet

More Decks by SWXMarketing

Other Decks in Business

Transcript

  1. サーバーワークスのビジネス概要 2008年より、AWSに特化したインテグレーション事業を開始。 世界で20,000社を超えるAWSパートナーから上位0.3%のみが受ける最上 位資格 ”APN プレミアコンサルティングパートナー” に認定 4 AWS導⼊⽀援 AWS⾃動化ツール

    AWS運⽤サービス 導⼊コンサルティング AWS構築サービス 24時間365⽇の運⽤代⾏ 有⼈監視・障害対応 課⾦代⾏サービス Cloud Automator (運⽤業務⾃動化) ⽇本4拠点(+⼦会社1拠点) US1拠点
  2. 翌⽇へ持ち越し Service Health Dashboardの復旧報はあったものの、取り残される ⼀部はEBSの障害としてPersonal Health Dashboardに記載 On August 22

    we experienced a cooling failure in a single Availability Zone in the Tokyo (AP- NORTHEAST-1) Region, which has caused one or more of your volumes listed in the 'Affected Resources' tab, to be inaccessible. The cooling failure resulted in hardware failure on one or more storage servers that store your volume(s). We are working to resolve the hardware failures; however, if you have the ability to restore your volume(s) from a recent スナップショット, we recommend that you do so. Given the nature of the hardware failures, we anticipate that recovery will be prolonged as we work to replace the failed components in the affected servers. 訳)8⽉22⽇、東京(AP-NORTHEAST-1)リージョンの単⼀のアベイラビリティーゾーンで冷却障害が発⽣ し、「影響を受けるリソース」タブにリストされている1つ以上のボリュームにアクセスできなくなりました。 冷却障害により、ボリュームを保存する1つ以上のストレージサーバーでハードウェア障害が発⽣しました。 ハードウェア障害の解決に取り組んでいます。 ただし、最新のスナップショットからボリュームを復元できる 場合は、復元することをお勧めします。 ハードウェア障害の性質を考えると、影響を受けるサーバーの障害の あるコンポーネントを交換するために作業するため、復旧が⻑くなることが予想されます。 25 ※Personal Health Dashboardは特定のリソースの状態についてお知らせしてくれるダッシュボードです
  3. 既存システムの評価 AWS Well-Architected Frameworkを元にAWSアーキテクチャのレ ビューを実施 ⽅法としては以下 AWS Well-Architected Framework Toolの利⽤

    2019/9に⽇本語対応 AWS Well-Architected パートナー、AWS SAへ相談 単発での実施ではなく、継続的な改善を⾏っていくことが重要 33
  4. EBS Snapshot作成(AMI作成)のお勧め 具体的な実現⽅法 AWS Backup AWS提供のバックアップサービス 2019/7/2に東京リージョンにも対応 3rd Party Tool

    Cloud Automator(https://cloudautomator.com/ ) サーバーワークスが提供するAWSの運⽤を⾃動化するサービス EBS Snapshot作成(AMI作成)の定期実⾏するジョブがGUIで可能です 39