Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2021年9月2日に6時間に渡って発生したAWS東京リージョンにおける専用線 AWS Dir...

SWXMarketing
September 03, 2021

2021年9月2日に6時間に渡って発生したAWS東京リージョンにおける専用線 AWS Direct Connect 障害に関してのご報告 第3報

2021年9月2日に6時間に渡って発生したAWS東京リージョンにおける専用線 AWS Direct Connect 障害に関してのご報告です。

本書は、AWSの提供する Personal Health Dashboard (PHD)のアナウンス及びPHDに対する当社見解を記したものです。
尚、本障害においては、今後も情報開示の可能性があります。このため本書の当社見解は暫定的なものであり、更新をさせて頂く可能性がある事、予めご了承ください。

SWXMarketing

September 03, 2021
Tweet

More Decks by SWXMarketing

Other Decks in Business

Transcript

  1. 本書について 2 拝啓 時下ますますご清祥のこととお慶び申し上げます。 平素は、格別のお引き⽴てを賜り厚くお礼申し上げます。この度はAWS東京リージョンの 専⽤線サービス「AWS Direct Connect」の障害につきまして、ご迷惑をおかけしました事 を深くお詫び申し上げます。 本書は、AWSの提供する

    Personal Health Dashboard (PHD)のアナウンス及びPHDに対 する当社⾒解を記したものです。 尚、本障害においては、今後も情報開⽰の可能性があります。このため本書の当社⾒解は 暫定的なものであり、更新をさせて頂く可能性がある事、予めご了承ください。
  2. 本件障害の概要 3 ▸発⽣⽇時︓2021年9⽉2⽇(⽊) 7:30頃より 同⽇ 13:42頃まで ▸※上記発⽣⽇時は、AWS基盤の障害時刻を⽰すものです。AWS Direct Connect の障害に伴

    い、お客様のアプリケーションやその他システムに何らかの影響が継続している可能性があり ます。 ▸影響範囲 1. 東京リージョンにおけるAWS Direct Connectを提供するネットワークデバイスの障害と、そ れに伴うネットワークの接続性の問題と、パケットロスの増加が発⽣ 2. AWS Direct Connectを通じたAWSリソースへの接続不可、もしくは接続の不安定 ▸原因 1. AWS Direct Connect のネットワークトラフィックを東京リージョン内の全てのアベイラビ リティーゾーン(AZ)に接続するのに使⽤される複数のコアネットワークデバイスに問題が 発⽣したため 2. 特定のAZでの発⽣ではなく、東京リージョンにおける全AZに影響 ▸今回の影響範囲外の通信について ▸インターネットからの通信の経路を取る Amazon WorkSpaces への接続や、 AWS Client VPN を利⽤した接続等には障害の影響はなく通常通りご利⽤頂けておりました。
  3. 5 PHDの履歴A 1/3 [4:00 PM PDT] 現在、⼀部の AWS Direct Connect

    接続と AP-NORTHEAST-1 リージョン間で発⽣したネッ トワーク接続性の問題に関して調査を⾏なっております。| We are investigating network connectivity issues between some AWS Direct Connect connections and the AP-NORTHEAST-1 Region. [4:45 PM PDT] ⽇本時間 2021/09/02 07:30 から⼀部の AWS Direct Connect 接続と AP-NORTHEAST-1 リー ジョン間にネットワーク接続性の問題が発⽣していることを確認しております。この問題について調 査を⾏っております。| Starting at 3:30 PM PDT, we began to experience network connectivity issues, impacting AWS Direct Connect connectivity between some AWS Direct Connections and the AP-NORTHEAST-1 Region. We are actively investigating the issue. PHD に記載のある タイムゾーン「PDT」は JST との時差が 16 時間となっていますため、 記載されている「4:00 PM」は「8:00 AM(JST)」となります。 2021年9⽉2⽇ 7:59 JST に通知
  4. 6 PHDの履歴A 2/3 [6:49 PM PDT] ⼀部の AWS Direct Connect

    接続と AP-NORTHEAST-1 リージョン間にネットワーク接続性 の問題について追加の情報をご案内いたします。⽇本時間 2021/09/02 07:30 からコアネットワークデ バイスに複数の問題が発⽣していることを確認しております。現在、問題が発⽣したデバイスについ て復旧を進めており、デバイスがオンラインの状態に戻ることで接続性の問題が解消することが期待 されます。現状では復旧の⽬途に関する情報はございません。進展がございましたら、随時更新致し ます。| We wanted to provide some more information for the event affecting some Direct Connect network connectivity in the AP-NORTHEAST-1 Region. Starting at 3:30 PM PDT, we began to experience network connectivity issues due to some failures in core networking devices. We are currently working on restoring these devices and we expect some restoration of connectivity as these devices come back online. We currently do not have an ETA on full recovery and will update further as information comes to hand. [6:49 PM PDT] 現在引き続き故障したデバイスの復旧を試みており、完全な復旧の⽬途に関する情報は ございません。今回の問題によりサイト間 VPN の接続性への影響はなく、VPN へのフェイルオーバー のオプションがあるお客様に関しては、VPN にフェイルオーバーいただくことをお勧めいたします。 | We are still trying to recover the failed devices and do not have an ETA on full recovery. VPN connectivity is not impacted by this failure, and those customers that have that option available for failover are recommended to do so to achieve recovery.
  5. 7 PHDの履歴A 3/3 [9:56 PM PDT] ⽇本時間 2021/09/02 07:30 から

    13:42 の間、Direct Connect 接続を利⽤した AP- NORTHEAST-1 リージョン内の AWS サービスへの通信においてパケットロスの増加が発⽣しました。 今回の事象は、 Direct Connect を利⽤したネットワークトラフィックを AP-NORTHEAST-1 リージョン内 の全てのアベイラビリティーゾーンに接続するのに使⽤される複数のコアネットワークデバイスの問 題に起因しておりました。現在問題は解消し、サービスは正常に稼働しています。| Between 3:30 PM and 9:42 PM PDT we experienced elevated packet loss for customers connecting to AWS services within AP- NORTHEAST-1 Region through their Direct Connect connections. This was caused by the loss of several core networking devices that are used to connect Direct Connect network traffic to all Availability Zones in the AP- NORTHEAST-1 Region. The issue has been resolved and the service is operating normally.
  6. 8 PHDの履歴B 1/4 [05:39 PM PDT] ⽇本時間 2021/09/02 07:30 から⼀部の

    AWS Direct Connect 接続と AP-NORTHEAST-1 リー ジョン間にネットワーク接続性の問題が発⽣していることを確認しております。この問題について調 査を⾏っております。| Starting at 3:30 PM PDT, we began to experience network connectivity issues, impacting AWS Direct Connect connectivity between some AWS Direct Connections and the AP-NORTHEAST-1 Region. We are actively investigating the issue. [06:02 PM PDT] ⼀部の AWS Direct Connect 接続と AP-NORTHEAST-1 リージョン間にネットワーク接続性 の問題について追加の情報をご案内いたします。⽇本時間 2021/09/02 07:30 からコアネットワークデ バイスに複数の問題が発⽣していることを確認しております。現在、問題が発⽣したデバイスについ て復旧を進めており、デバイスがオンラインの状態に戻ることで接続性の問題が解消することが期待 されます。現状では復旧の⽬途に関する情報はございません。進展がございましたら、随時更新致し ます。| We wanted to provide some more information for the event affecting some Direct Connect network connectivity in the AP-NORTHEAST-1 Region. Starting at 3:30 PM PDT, we began to experience network connectivity issues due to some failures in core networking devices. We are currently working on restoring these devices and we expect some restoration of connectivity as these devices come back online. We currently do not have an ETA on full recovery and will update further as information comes to hand. 2021年9⽉2⽇ 9:39 JST に通知
  7. PHDの履歴B 2/4 9 [06:43 PM PDT] 現在引き続き故障したデバイスの復旧を試みており、完全な復旧の⽬途に関する情報 はございません。今回の問題によりサイト間 VPN の接続性への影響はなく、VPN

    へのフェイルオー バーのオプションがあるお客様に関しては、VPN にフェイルオーバーいただくことをお勧めいたしま す。| We are still trying to recover the failed devices and do not have an ETA on full recovery. VPN connectivity is not impacted by this failure, and those customers that have that option available for failover are recommended to do so to achieve recovery. [07:33 PM PDT] 現在 AP-NORTHEAST-1 リージョン内の故障したデバイスの復旧に取り組んでおります が、現時点において完全な復旧の⽬途に関する情報はございません。今回の問題によりサイト間 VPN の接続性への影響はなく、VPN へのフェイルオーバーのオプションがあるお客様に関しては、VPN に フェイルオーバーいただくことをお勧めいたします。| We are continuing to work on recovering a number of failed devices within the AP-NORTHEAST-1 Region, but do not have an ETA on full recovery. VPN connectivity is not impacted by this failure, and those customers that have that option available for failover to VPN are recommended to do so to achieve recovery.
  8. PHDの履歴B 3/4 10 [08:20 PM PDT] 現在 AP-NORTHEAST-1 リージョン内の故障したデバイスの復旧に取り組んでおります が、現時点において完全な復旧の⽬途に関する情報はございません。今回の問題によりサイト間

    VPN の接続性への影響はなく、VPN へのフェイルオーバーのオプションがあるお客様に関しては、VPN に フェイルオーバーいただくことをお勧めいたします。Direct Connect Gateway と Transit Gateway をご利 ⽤のお客様に関しては、AWS Site-to-Site VPN をご作成いただき Transit Gateway にアタッチしてご利⽤ いただくことをお勧めいたします。こちらの VPN へのフェイルオーバーの設定⼿順に関しては次の記 事をご参照ください: https://aws.amazon.com/premiumsupport/knowledge-center/dx-configure-dx-and- vpn-failover-tgw/ | We are continuing to work on recovering a number of failed devices within the AP- NORTHEAST-1 Region, but do not have an ETA on full recovery. VPN connectivity is not impacted by this failure, and those customers that have that option available for failover to VPN are recommended to do so to achieve recovery. For customers using Direct Connect gateway and Transit Gateway, we recommend creating an AWS Site-to-Site VPN and attach it to your Transit Gateway. Instructions for how to do this failover can be found here: https://aws.amazon.com/premiumsupport/knowledge-center/dx-configure-dx-and-vpn-failover-tgw/
  9. PHDの履歴B 4/4 11 [09:06 PM PDT] 復旧の兆しが確認できておりますが、引き続き事象の完全な解消に取り組んでおりま す。VPN を使⽤するワークアラウンドを実施いただいているお客様につきましては、完全な復旧のご 連絡まではワークアラウンドを継続してご利⽤いただくことをお勧めいたします。|

    We are beginning to see signs of recovery, and continue to work toward full resolution. We suggest that customers that may have implemented the suggested workaround via VPN continue to use this workaround until we advise of full recovery. [09:51 PM PDT] ⽇本時間 2021/09/02 07:30 から 13:42 の間、Direct Connect 接続を利⽤した AP- NORTHEAST-1 リージョン内の AWS サービスへの通信においてパケットロスの増加が発⽣しました。 今回の事象は、 Direct Connect を利⽤したネットワークトラフィックを AP-NORTHEAST-1 リージョン内 の全てのアベイラビリティーゾーンに接続するのに使⽤される複数のコアネットワークデバイスの問 題に起因しておりました。現在問題は解消し、サービスは正常に稼働しています。| Between 3:30 PM and 9:42 PM PDT we experienced elevated packet loss for customers connecting to AWS services within AP- NORTHEAST-1 Region through their Direct Connect connections. This was caused by the loss of serveral core networking devices that are used to connect Direct Connect network traffic to all Availability Zones in the AP- NORTHEAST-1 Region. The issue has been resolved and the service is operating normally.
  10. 本障害の状況整理と対応⼿段 1/2 14 ▸既に本障害は復旧済となりますが、今後同様の事態が発⽣した場合に備え、有効と考え られる対応⼿段について以下の通り記載を⾏います。 ▸発⽣していた状況の整理 ▸本障害は東京リージョンにおいて AWS Direct Connect

    全域(全ての Availability Zone)に おいて発⽣しておりました。 ▸障害はパケットロスの頻度増加となっていますため、専⽤線の主系がダウンしていない場合も 想定される状況でした。 ▸重要な点 1. AWS Direct Connect を複数敷設し冗⻑化している場合でも、本障害が回避できないと想定 されること 2. 主系のダウンが完全なものではないため、主系から副系へと⾃動的に切り替え(フェイル オーバー)が起きない状況に陥っていた可能性があること
  11. 本障害の状況整理と対応⼿段 2/2 15 ▸本件の回避策として有効な⽅法 ▸AWS Direct Connect から AWS Site-to-Site

    VPN へのフェイルオーバーを⾏う対策が有効で した。 ▸本回避策は発⽣当⽇、複数のお客様に実施して頂いた実績があり、本障害からの回避と AWS Site-to-Site VPN 経由での通信の回復を確認しております。 ▸注意点 ▸ただし本フェイルオーバーの実⾏には「AWS Direct Connect を⼿動でフェイルオーバーさせ る」必要がありました。これは先に記載しました「主系のダウンが完全なものではない」こと が理由となります。AWS Direct Connect を AWS Site-to-Site VPN へ⼿動フェイル オーバーさせる⽅法についてはこの後詳しく記載させていただきます。 ▸本障害を回避できない専⽤線冗⻑化構成 ▸残念ながら「AWS Direct Connect と AWS Direct Connect」で冗⻑化構成を組んでいる場合 には、その接続ポイントが冗⻑化されていた(例えば cc1 と os1 の組み合わせ等)としても、 対応策がございませんでした。よって AWS の復旧作業の完了をお待ちいただく必要がござい ました。AWS Direct Connect は安定した通信速度を提供するため、その副系にも AWS Site-to-Site VPN ではなく AWS Direct Connect を採⽤されている⼤⼿企業様も多い状 況と認識しております。
  12. AWS Direct Connect を AWS Site-to-Site VPN へ ⼿動フェイルオーバーさせる⽅法 1/3

    16 1. CGW で NIC をシャットダウンする ▸ AWS における CGW とは、カスタマーゲートウェイの省略です。これは AWS Direct Connect を結線し ているお客様管理(またはベンダー様管理)の物理機器のことを指します。この⽅法を採⽤するには、機 器にリモート操作ができる権限を保持している必要があります。 ▸ 本作業によりフェイルオーバーを⾏った場合、フェイルバックする場合は、再度⼿動でシャットダウンさ せた NIC をアップさせる必要があります。 AWS Direct Connect と AWS Site-to-Site VPN を VPC に接続し冗⻑化した構成の簡易環境構成図
  13. AWS Direct Connect を AWS Site-to-Site VPN へ ⼿動フェイルオーバーさせる⽅法 2/3

    17 2. 物理線を CGW から抜く ▸ 本⽅法を採⽤する場合、CGW 設置場所に⾏く必要が出るため、機器に物理的にリーチできる必要がありま す。つまり物理的な距離の制約と、機器が配置されている部屋の侵⼊権という制約をクリアする必要があ ります。 ▸ 本⽅法では、フェイルバック時に機器側に設定変更の必要がない点がメリットです。 ▸ 設定にもよりますが、物理線を抜いた後、約30秒から1分程度で経路の切り替えが完了します。フェイル バック時には、抜いた物理線を再び差し込むだけで元に戻すことが可能です。 3. AWS Direct Connect フェイルオーバーテストの活⽤ ▸ 2020年6⽉3⽇のアップデートで、マネジメントコンソールから AWS Direct Connect の BGP ピアをダウ ンさせることが可能となっています。本機能を活⽤することで、BGP ピアダウンを任意に発⽣させ、それ によりフェイルオーバーをトリガーすることとなります。 ▸ メリットとしては設定変更なくフェイルオーバーができる点と、フェイルバックも任意のタイミングで実 施できる点となります。 ▸ ただし本操作の継続可能時間は「最⼤3時間(180分)」となっており、設定した時間が来ると⾃動的に フェイルバックしてしまう点に注意してください。3時間以内に AWS Direct Connect 障害が回復してい ない場合は、再度フェイルオーバーを実施することになる想定です。 ▸ 補⾜となりますが、BGP ピアダウンをトリガーにフェイルオーバーが正常に⾏われるかは CGW の機器設 計によります。BGP ピアダウンだけでは、AWSがマネージドする機器の ping はダウンしませんため、 BGP ピアダウンでフェイルオーバーが⾏われるかは事前に正確な検証作業を⾏ってください。
  14. AWS Direct Connect を AWS Site-to-Site VPN へ ⼿動フェイルオーバーさせる⽅法 3/3

    18 4. BGP 設定にて対応を⾏う ▸ 本⽅法を採⽤する場合、AWS Site-to-Site VPN の CGW から操作を⾏う必要があります。広報経路を更 新することで「AWS Direct Connect より詳細なオンプレミス経路(ロンゲストマッチとなる経路) をAWS に広報する」ことを実施します。この対応に加え、オンプレミスから AWS 宛のゲートウェイを VPN 側の CGW に向ける 必要があります。利⽤が想定される設定は VRRP, OSPF, IBGP 等となります。 ▸ 設定変更を⾏った場合、経路を元に戻すために以前の設定へと巻き戻す必要がある点に注意してください。 ▸ なお、AWS Direct Connect を主系とし、AWS Site-to-Site VPN を副系としている構成で本⽅法を⾏う 場合は、経路制御に AS Path を使えない点に注意してください。この仕様については以下の FAQ を参考 ください。 ▸ Q.AWS Direct Connect と VPN 接続を同時に同じ VPC で使⽤することはできますか︖ はい。ただし、フェイルオーバーシナリオのみで可能です。AWS Direct Connect パスが確⽴されると、 AS パスに前置される情報に関係なく、常に AWS Direct Connect パスが優先されます。 ご使⽤の VPN 接続が、AWS Direct Connect からのフェイルオーバートラフィックを正確に処理できるようにしてくだ さい。 https://aws.amazon.com/jp/directconnect/faqs/
  15. 推奨されない⽅法 19 ▸VIF を削除することでフェイルオーバーを発⽣させる ▸ AWS Direct Connect の設定時には VIF

    (Virtual Interface) と VPC にアタッチされている VGW (Virtual Private Gateway) の紐付けを⾏います。これらの紐づけは、⼀時的にデタッチするという作業が できない仕様となっています。 ▸ そのため対応として VIF を削除することで経路を切断し、ダウンさせることが可能ですが、フェイルバッ ク時の観点では影響範囲が⼤きく、本⽅法は推奨されません。
  16. 本障害の有効的な対策について 21 ▸対策に関する注意事項 ▸ 現時点では AWS からの公式発表待ちとなります。そのため、本対策案については現時点での弊社⾒解と なります。本内容は AWS からの公式な発表等により、今後修正が⾏われる可能性がございます。

    ▸対策を検討して頂くにあたって ▸ 検討事項として、1つ⽬に「AWS Direct Connect の障害時はサービスの復旧を待つ」ことが選択肢とな ります。2つ⽬に、ビジネス影響を緩和する対策として「AWS Site-to-Site VPN 併設によるフェイルオー バー」が挙げられます。 ▸ この後ご説明します 各対策案においては、難易度等を加味した上ご検討ください。 ▸各対策案共通の説明事項 ▸ ネットワークの構成変更後は、フェイルオーバーテスト及び疎通確認を確実に⾏ってください。 ▸ ⾃動的なフェイルオーバーの設定は運⽤上有効です。ただし、今回の障害では⼿動フェイルオーバーの実 施を⾏うと判断されたお客様が多い状況でした。同様の事象に備え、⼿動フェイルオーバーを運⽤⼿順と してご準備ください。運⽤時には、定期的なフェイルオーバーテストを⾏うことも効果的です。 ▸ AWS Site-to-Site VPN は帯域がベストエフォートで動作する点に注意ください。帯域幅が不⾜する場合、 VPN への切り替え後に通信が回復するものの、期待された速度での通信が⾏えない可能性があります。 ▸お問い合わせ ▸ 現在ご利⽤されている AWS アカウントのネットワーク構成についてのご質問等がございましたら、担当 営業またはサーバーワークスのお問い合わせ窓⼝までご連絡ください ▸ https://www.serverworks.co.jp/contact/ 2021年9⽉6⽇ 第2報として追記
  17. 1. AWS Direct Connect × AWS Site-to-Site VPN 22 ▸主回線である

    AWS Direct Connect の副回線に AWS Site-to-Site VPN を追加構成します。 追加構成 2021年9⽉6⽇ 第2報として追記
  18. 2. AWS Direct Connect Gateway × AWS Site-to-Site VPN 23

    ▸主回線である AWS Direct Connect に AWS Direct Connect Gateway が構成されている状況で、 副回線に AWS Site-to-Site VPN を追加構成します。基本的には「1」と同様の構成です。 追加構成 2021年9⽉6⽇ 第2報として追記
  19. 3. AWS Transit Gateway × AWS Site-to-Site VPN 1 24

    ▸「2」の構成に AWS Transit Gateway (TGW) を加えた構成です。TGW を追加する場合 VGW で はなく TGW へ AWS Site-to-Site VPN を接続し、Route Table で経路制御が可能となります。 追加構成 2021年9⽉6⽇ 第2報として追記
  20. 3ʼ. AWS Transit Gateway × AWS Site-to-Site VPN 1 25

    ▸既に AWS Transit Gateway (TGW) を導⼊済のお客様の場合、TGW に新たに接続する形で AWS Site-to-Site VPN を追加構成ください。 追加構成 2021年9⽉6⽇ 第2報として追記
  21. 4. AWS Transit Gateway × AWS Site-to-Site VPN 2 26

    ▸AWS Direct Connect を既に冗⻑構成としている場合に、AWS Transit Gateway とそれにアタッ チした AWS Site-to-Site VPN を追加実装した構成です。 追加構成 2021年9⽉6⽇ 第2報として追記
  22. 4ʼ. AWS Transit Gateway × AWS Site-to-Site VPN 2 27

    ▸「3」と同様、「4」においても既に AWS Transit Gateway (TGW) を導⼊済のお客様では、TGW に新たに接続する形で AWS Site-to-Site VPN を追加構成ください。 追加構成 2021年9⽉6⽇ 第2報として追記
  23. AWS 公式メッセージ 29 ▸2021年9⽉7⽇、AWS は公式メッセージを公開しました。以下にその URL を掲載します ▸ 東京リージョン(AP-NORTHEAST-1)で発⽣したAWS Direct

    Connectの事象についてのサマリー ▸ https://aws.amazon.com/jp/message/17908/ ▸要約 ▸ 9⽉2⽇ 午前7時30分以後、東京リージョンへのトラフィックにて断続的な接続の問題とパケットロスの増 加を観測。原因は、Direct Connect ロケーションから、東京リージョンを利⽤する顧客の各 Virtual Private Cloud(VPC)へのネットワークパス内において、ネットワークデバイスの⼀部に障害が発⽣した ため。Availability Zone 間のトラフィック、インターネット接続、AWS Virtual Private Network (VPN) 接続など、他のすべてのネットワーク接続は影響を受けておらず、他の AWS リージョンへの Direct Connect トラフィックも影響を受けていなかった。 ▸ 障害の発⽣したネットワークデバイスはトラフィックを正しく転送できていなかったが、該当デバイスを 監視および削除する⾃動化プロセスにて除外されなかったため、障害を検知したエンジニアが該当デバイ スを除外した。その後の原因調査中、その他のデバイスでも同障害が発⽣し、ネットワークに輻輳、接続 の問題、パケットロスの増加を発⽣せることとなった。該当の障害は、2021年1⽉から順次導⼊されてき た新しいプロトコルに関連している可能性があると考えられ、本プロトコルを無効化する対応を実施。9⽉ 2⽇ 午後12時30分頃から復旧を確認しはじめ、午後1時42分に通常の動作に回復された。 ▸ 事象は、ネットワークデバイスの新しいバージョンのオペレーティングシステムとプロトコル内の潜在的 な問題によって引き起こされたことを確認。本バージョンの実環境への適⽤は、段階的な展開により8カ⽉ 間にわたってリリースされており、これまで潜在的な問題を⽰すことはなかった。調査の結果、⾮常に特 殊なパケットとコンテンツの組み合わせにより⽋陥を引き起こすことが確認されたため、該当のプロトコ ルを東京リージョンで無効化した。この問題を検出して修復するための拡張⽅法も開発済である。 2021年9⽉7⽇ 第3報として追記 本要約は、サーバーワークスが本資料のために作成した独⾃の要約⽂となります
  24. 改定履歴 30 ▸2021年9⽉3⽇ 第1報 ▸2021年9⽉6⽇ 第2報 ▸「本障害の有効的な対策」を追記 ▸2021年9⽉7⽇ 第3報 ▸「AWS

    公式メッセージ」を追記 ▸今後、新たな情報などが開⽰されましたら後報いたします。