Slide 1

Slide 1 text

障害や災害に負けない! 回復性を高めるクラウド設計 Interop Tokyo 2022 ShowNet NOC チームメンバー クラウド担当 宇田 周平

Slide 2

Slide 2 text

• 障害や災害に負けない!回復性を高めるクラウド設計 • クラウド時代の新常識、あらゆる障害を想定した冗長設計 • カオスエンジニアリングを意識した障害試験と実運用 • ShowNet の運用管理を支える多彩なアプライアンスとクラウドサービス • 進化したハイブリッドクラウド統合管理 ShowNet 2022 クラウド テーマ

Slide 3

Slide 3 text

No content

Slide 4

Slide 4 text

昨年を振り返って.. • マルチ クラウド環境の 相互接続・統合管理 • Infrastructure as Code によるデプロイの自動化 ただ、単一障害点 (SPOF) が 多数存在しており、課題も…

Slide 5

Slide 5 text

• 2 リージョンでの冗長構成 • 単一リージョン内でのゾーン冗長構成 • VM のレプリケーションによる DR 対策 • Interconnect の東西冗長、キャリア冗長 今年は冗長構成や災害対策を視野に設計

Slide 6

Slide 6 text

• 多くの VM を Japan East / West US で冗長化 2 リージョンでの冗長構成

Slide 7

Slide 7 text

Japan East Availability Zone 1 Availability Zone 2 Availability Zone 3 データセンター単位の障害への備え • ゾーン (AZ) 冗長 電源や空調等が独立しているため、 仮想マシンを異なるゾーンに分散 配置することで、データセンター 単位の障害への耐性が向上 同一リージョン内なので、遅延も 比較的小さく済む (数 ms 程度)

Slide 8

Slide 8 text

Zabbix 6.0 の HA 機能で障害試験 1 号機から 2 号機へ 正常にフェールオーバー Azure 上で稼働する Zabbix Appliance のアクティブ側をダウンさせ、 HA 構成が期待通りに機能することを確認

Slide 9

Slide 9 text

• 3 回線の Interconnect で東西冗長・キャリア冗長の構成 • NTTコミュニケーションズ様 Smart Data Platform (東京/大阪) • ブロードバンドタワー様 dc.connect NeX (東京) • ThousandEyes を用いた経路監視 Interconnect の障害に対する備え

Slide 10

Slide 10 text

• System Answer G3 を構成する VM 4 台を Japan East から West US へ複製し、DR 対策を想定したフェールオーバー、 フェールバック試験を実施 別リージョンへのレプリケーション

Slide 11

Slide 11 text

別リージョンへフェールオーバーする際の留意点 • DB サーバー等、依存関係のあるサーバーを IP アドレス で参照している場合、移行後に書き換えが必要 • 移行先のリージョンでクォーターやキャパシティを十分に 確保しておくことが重要

Slide 12

Slide 12 text

• ShowNet の Azure Stack HCI 基盤上で稼働している VM をパブ リック クラウドの Azure 上へ複製 オンプレミスからクラウドへのレプリケーション

Slide 13

Slide 13 text

• クラウドのポータルからオンプレミスの仮想マシンも一元管理 • ShowNet の仮想化基盤 (Azure Stack HCI 環境) • 日本ヒューレット・パッカード様 検証センター (VMware 環境) ハイブリッド クラウドの統合管理 幕張メッセ dl380-1,2 dl380@hpe-lab HPE 検証センター EdgeConnect Enterprise XS Azure mx204.kote ne8000-x4 EdgeConnect Enterprise Virtual

Slide 14

Slide 14 text

• クラウドのポータルからオンプレミスの仮想マシンも一元管理 • ShowNet の仮想化基盤 (Azure Stack HCI 環境) • 日本ヒューレット・パッカード様 検証センター (VMware 環境) ハイブリッド クラウドの統合管理

Slide 15

Slide 15 text

• クラウド上のリソース構成を一括チェック • ログ取得設定の抜け漏れ • SSH / RDP 通信の不用意な許可 • ストレージやデータベースの意図せぬ外部公開 CSPM による設定不備の検出

Slide 16

Slide 16 text

ご協力いただいたコントリビューター様

Slide 17

Slide 17 text

No content