Upgrade to Pro — share decks privately, control downloads, hide ads and more …

大阪リージョンへのDR初設計

Yuki
February 16, 2024
190

 大阪リージョンへのDR初設計

Yuki

February 16, 2024
Tweet

Transcript

  1. 普段はITアーキテクトとしてチームリード、設計、実装を行っております。 • 名前: 松本 祐樹 • ロール: ITアーキテクト(主にAWS) • AWS歴:

    6年 • クラウド系認定資格:  AWS: 12認定(全冠)  Google Cloud: 11認定(全冠)  Azure: Solutions Architect Expert, Administrator Associate • IPA系:  DB, AP, FE • Japan AWS All Certifications Engineer • IPA 情報処理技術者試験委員  自己紹介
  2. 本LTでは、DRの初設計に挑んだ際に苦労した部分を話したいと思います。  Topics • 検討対象のAWSアーキテクチャ図 • DR戦略の概要 • DR設計に入る前に確認しておくこと 

    DR戦略の採用  ステークホルダーのDRのイメージ  外部システムのDR方針 • AWSリソース別DR設計 • API Gateway • Lambda • … 本日、お話しする範囲
  3. 「止められない」ということは明確なので、さらに踏み込んで目的を深堀していく必要が あります。つまり、ビジネスの目的を押さえた戦略を採用しましょう。  ビジネスの目的(例) • 全国の工場の操業を管理するシステムだから、30分止まっただけで も1億円の損失が出る。 => active/activeを採用し、コストをかけてでも停止時間を短くする •

    BCPが策定され、今後構築するシステムはBCPに準ずる必要がある から、大規模災害(首都圏直下型地震等)発生時に6時間以内に復 旧しなければならない。 => ウォームスタンバイで十分対応できる。ただし、東京リージョンが 長期間復旧しない可能性が高いので、DR発動後は大阪リージョンを メインにする
  4. DRという単語はあいまいな単語で、ステークホルダーによってイメージしているDRの内容 が異なる。DR設計の前にDRに対するイメージを合わせる必要があります。  ステークホルダーのDRのイメージ • ステークホルダーとDRの発動条件や内容を共有できているか?  開発者 Aさん: 使用しているAWSサービスが1つでも落ちたらDR発動だと思っていた。

     IT部門 Bさん: すべて自動で切り替えができると思っていた。  ビジネス部門 担当 Dさん: DRが発動すると、大阪リージョンで全機能がすぐに使えるようになると 思っていた。 • DRの発動条件はステークホルダーの合意を取っているか?  大規模災害時(≒適切な権限を持った人がDR発動を宣言する)?  外形監視失敗時? • 本当にすべてを自動化する必要があるのか?  全部を自動化すると相当大変 + 誤発動を許容できるのか?  手作業を挟むと作業ミスのリスクがあるので、できる限りの自動化は必要です。 • 全機能でRTO/RPOを守り切らないといけないのか?  エンドユーザー影響がすぐに出ない機能(バッチなど)は、DR対応と切り離せないか?  全てのデータをリストアするとRTOが守れないかもしれない。 大阪リージョンにバックアップを取らないという選択肢を捨てない
  5. 自システムがDRに対応できたとしても、依存関係がある外部システムがDRに対応して いるとは限らない。外部システムのDR方針を確認しておく必要があります。  外部システムのDR方針 • 外部システムのDR方針によって自システムのDR設計が大きく異なる。  外部システムがDRしないなら、自システムのどの機能が使えなくなるのか? その機能だけをユーザーが実行しないようにできるのか? 

    外部システムがDRしたとしても、RTOが自システムと違う場合が多い。 RTOの差をどうやって埋めるのか?  RPOを決めていたとしても、自システムと外部システムで、データの整合性を完全 に合わせ切った状態で切り替えることは、かなり難しいです。 手動でデータの整合性を合わせる方法はどうするのか? • サーキットブレイカーだけでは、うまくいかないケースもある Amazon API Gateway Amazon SQS with DLQ Amazon DynamoDB AWS Lambda with circuit breaker Corporate data center Internet User SQSの保持期間は最大14日であり、 外部システムの復旧にそれ以上かかると DLQのキューが失われる
  6. 本日のLTでお話できなかったAWSリソース別DR設計が気になる方もいらっしゃると思い ます。  Topics • 検討対象のAWSアーキテクチャ図 • DR戦略の概要 • DR設計に入る前に確認しておくこと

     ビジネスの目的  ステークホルダー間のDRの定義  外部システムのDR方針 • AWSリソース別DR設計 • API Gateway • Lambda • … 本日、お話できなかった範囲
  7. EOF