Upgrade to Pro — share decks privately, control downloads, hide ads and more …

400G時代のIPネットワーク屋も知っとくと役立つストレージネットワーキング

taji
July 25, 2019

 400G時代のIPネットワーク屋も知っとくと役立つストレージネットワーキング

taji

July 25, 2019
Tweet

More Decks by taji

Other Decks in Technology

Transcript

  1. 6 of Y ボトルネックはどこだ? →ちょっと前までディスクだった 0 5 10 15 1000x

    FRONT-END CONNECT BACK-END CONNECT STORAGE CONTROLLER 7200 RPM PHYSICAL STORAGE CLIENTS / HOSTS Response Time (ms) 回転ディスク
  2. 7 of Y Response Time (ms) FRONT-END CONNECT BACK-END CONNECT

    STORAGE CONTROLLER CLIENTS / HOSTS PHYSICAL STORAGE 0 0.1 0.2 0.3 0.4 0.5 ボトルネックはどこだ? →クライアント側になった Flash
  3. 8 of Y より広帯域が求められる時代に Throughput (MB/s) FRONT-END CONNECT BACK-END CONNECT

    STORAGE CONTROLLER CLIENTS / HOSTS PHYSICAL STORAGE 0 2,000 4,000 6,000 8,000 FC: 16Gb/S PCIE: 985MB/S SAS: 600MB/S SSD: 1420MB/S APP: 5,600 MB/S 4 6 10 4 +1 MANY QUEUES MANY QUEUES OVER FABRIC
  4. 9 of Y より広帯域が求められる時代に Throughput (MB/s) FRONT-END CONNECT BACK-END CONNECT

    STORAGE CONTROLLER CLIENTS / HOSTS PHYSICAL STORAGE 0 2,000 4,000 6,000 8,000 FC: 16Gb/S PCIE: 985MB/S SAS: 600MB/S SSD: 1420MB/S APP: 5,600 MB/S 4 6 10 4 +1 MANY QUEUES MANY QUEUES OVER FABRIC NVMe Over Fabrics NVMe
  5. 10 of Y NVMe over Fabrics • NVMe over Fabrics

    – NVMeブロックストレージ・プロトコルを、ストレー ジネットワーク・ファブリックに拡張する – 2016年6月に仕様 1.0 が公開 – NVMeデバイスを大量に扱う、(データセンター内 で)離れた場所のNVMeデバイスにアクセスす る、、、等 • 2019年1月に、あらたにNVMe over TCP(NVMe/TCP) が批 准された – NVMe-oF 1.1 の仕様ドキュメントに統合予定 › Later 2019 ? http://www.nvmexpress.org/wp-content/uploads/NVMe_Over_Fabrics.pdf NVMe™ Host Software Host Side Transport Abstraction Controller Side Transport Abstraction Fibre Channel InfiniBand* RoCE iWARP Next Gen Fabrics TCP 2019/1- https://nvmexpress.org/answering-your-questions-nvme-tcp-what-you-need-to-know-about-the-specification-webcast-qa/
  6. 11 of Y 「ファブリック(Fabrics)」ってなに? • Firbre Channel – 昔も今も広く使われてる。 •

    InfiniBand (RDMA) – 広帯域、低遅延をいかして、組み込み用途、特にHPC – ストレージ内部だけでなくサーバとの接続にも • IP/Ethernet RDMA: RoCEv2 , iWARP – RoCEv2: 発音ロッキー、UDP/IPベース、ロスレスConverged Ethernet推奨 › V1はL2、v2と互換性なし – iWARP: TCP/IPベース、実質的にHW実装が必要、普及してない – NICインプリが推奨 • IP/Ethernet non-RDMA: TCP/IP – ソフトウェアベース、NICのTCPオフロードで高速化 New!
  7. 13 of Y そう単純にはいかない • The NVMe Transport shall provide

    reliable delivery of capsules between a host and NVM subsystem (and allocated controller) over each connection. The NVMe Transport may deliver command capsules in any order on each queue except for I/O commands that are part of fused operations (refer to section 4.10 of the NVMe Base specification). http://nvmexpress.org/wp-content/uploads/NVMe_over_Fabrics_1_0_Gold_20160605.pdf 7.1 Transport Requirements
  8. 14 of Y そう単純にはいかない • The NVMe Transport shall provide

    reliable delivery of capsules between a host and NVM subsystem (and allocated controller) over each connection. The NVMe Transport may deliver command capsules in any order on each queue except for I/O commands that are part of fused operations (refer to section 4.10 of the NVMe Base specification). http://nvmexpress.org/wp-content/uploads/NVMe_over_Fabrics_1_0_Gold_20160605.pdf 7.1 Transport Requirements 「トランスポートは十分信頼性があるものにしろよ」
  9. 16 of Y NVMe over Ethernet RoCE – ベストなオペレーションには、ロスレスネットワーク(特別なハードウェア)の用意が必要。 (Mellanox

    and Emulexがサポート) iWARP – 複雑なハード/ソフトのスタックでよりCPUリソースの消費と、現時点では10Gbのみ。 ( Chelsio and Intelがサポート:サポートOSが少ない) TCP – 標準のスイッチとシンプルなTCPスタックを利用。プロポーザルが内部で批准されたばかり。 NVMe oFの V1.1 に盛り込まれる予定
  10. 17 of Y NVMe over TCP • NVMe-oFコマンドを 標準のTCP/IPで運ぶ •

    各キューペアをTCP コネクションにマップ • TCPがNVMeキュー モデルのトランスポー トレイヤの信頼性を担 保する
  11. 18 of Y NVMe-oF プロトコル的な観点 RoCE TCP 速度 相互接続性 汎用的なNICサポート

    (TCPオフロード) 固有のNICサポート (RoCEv2) Ethernetの管理の難しさの課題も!
  12. 21 of Y 結論的なこと • トランスポートはより広帯域化してくる • パイプが太けりゃいいってもんじゃない • End-Endでボトルネック解消を考える:NVMe

    • 比較検討のポイント • トランスポートメディア:FibreChannel、Ethernet • プロトコル:FC、RoCE、TCP • 既存設備と今後の標準仕様を見据えたTCO