$30 off During Our Annual Pro Sale. View Details »

Amazon FSx for NetApp ONTAPのパフォーマンスチューニング要素をま...

Amazon FSx for NetApp ONTAPのパフォーマンスチューニング要素をまとめてみた #cm_odyssey #devio2024

DevelopersIO 2024の登壇資料です。
https://event.classmethod.jp/odyssey-offline

のんピ

July 20, 2024
Tweet

More Decks by のんピ

Other Decks in Technology

Transcript

  1. ⾃⼰紹介 { "本名": "⼭本 涼太 (覚えなくていいです)", "部署": "AWS事業本部 コンサルティング部", "前職":

    "インフラエンジニア in データセンター", "興味のあること": "⾯⽩そうなブログネタ探し", "好きなAWSサービス": [ "Amazon FSx for NetApp ONTAP (FSxN)", "AWS Transit Gateway", "AWS Step Functions", "AWS CDK" ], "称号" : [ "2024 Japan AWS Ambassador", "NetApp FY 24 Advanced Solution Leading Award" ] } 3
  2. ⽬次 • なぜパフォーマンスチューニングは重要か • パフォーマンスチューニングのステップ • Amazon FSx for NetApp

    ONTAP(FSxN)とは • シチュエーションで考えるFSxNの パフォーマンスチューニング 10
  3. 計測⽅法 26 SNMP / NetFlow / sFlow ネットワーク機器 パフォーマンスモニター Wireshark

    / tcpdump traceroute / tracert iperf クライアント CloudWatch AWS ONTAP CLI / ONTAP REST API NetApp BlueXP FSxN
  4. FSxNとは NetApp ONTAP をベースにした、AWSが提供するフルマネージド型ユニファイド ストレージサービス フルマネージド型ファイルストレージサービス「Amazon FSx」のラインナップ の⼀つ 30 汎用ファイルストレージ

    (NFS) HPC向けファイルストレージ (Lustre) 汎用ファイルストレージ (SMB) 汎用ファイルストレージ (SMB, NFS) ブロックストレージ (iSCSI) 高速・低コスト ファイルストレージ (NFS) Amazon Elastic File System (Amazon EFS) Amazon FSxfor Lustre Amazon FSx for Windows File Server Amazon FSx for NetApp ONTAP Amazon FSx for OpenZFS ご参考 : Amazon FSx ファイルシステムの選択のサポート | Amazon Web Services (https://aws.amazon.com/jp/fsx/when-to-choose-fsx/)
  5. FSxNの特徴的な機能 • マルチプロトコル対応 ◦ NFS / SMB / iSCSI •

    データ保護 ◦ データレプリケーション(SnapMirror / SnapVault) ◦ スナップショット(Snapshot) • ストレージ利⽤効率の最適化 ◦ 重複排除 / データ圧縮 / データコンパクション / シンプロビジョニング • セキュリティ ◦ 保管時と転送時の暗号化 ◦ アンチマルウェアソフトやNetApp製品との統合 ◦ Active DirectoryによるIDベース認証 • ストレージ容量:事実上無制限 ◦ プライマリストレージ(ホットデータ⽤) : 最⼤192TB (Single-AZ 1HAペアの場合) ◦ キャパシティプールストレージ(コールドデータ⽤) : 容量上限なし 31
  6. ポイント (メトリクスから判断) 39 No 説明 対応 備考 1 CPUに余裕があるか -

    スループットキャパシティの増強 - Storage Efficiency/Snapshot/SnapMirrorの 実⾏タイミングの⾒直し - QoS - ダイレクトにコストに影響する - 変更時はフェイルオーバーが発⽣する - 何にCPUパワーを割いているかはONTAP CLIから確認可能 - CPU負荷が⾼いとStorage EfficiencyやTieringがかかりにくくなる 2 - ネットワークのスループットとIOPSに余裕があるか - スループットのバーストクレジットを使い切っているか - スループットキャパシティの増強 - QoS - クライアントのアクセス先をSnapMirror転送先に変更 - スループットキャパシティ変更はダイレクトにコストに影響する - スループットキャパシティ変更時はフェイルオーバーが発⽣する - アクセス先をSnapMirror先に向けうるのはReadのみ 3 - SSDのスループットとIOPSに余裕があるか - IOPSとスループットのバーストクレジットを使い切っているか - スループットキャパシティの増強 - SSD IOPSの増強 - Storage Efficiencyの実⾏タイミングの⾒直し - QoS - クライアントのアクセス先をSnapMirror転送先に変更 - スループットキャパシティとSSD IOPSの変更はダイレクトにコス トに影響する - スループットキャパシティ変更時はフェイルオーバーが発⽣する - アクセス先をSnapMirror先に向けうるのはReadのみ 4 特定ボリュームにアクセスが偏っていないか - 複数ボリュームへの分散 - FlexGroupの利⽤ - 単純なボリューム分散をする場合、クライアントにてアクセス先の パス変更が必要 - FlexGroupの制約事項に注意 5 キャパシティプールストレージへのアクセス頻度は妥当か Tiering Policyの⾒直し SSDの使⽤量が増加する 6 キャッシュヒット率は妥当か - スループットキャパシティの増強 - Multi-AZへの変更 - ダイレクトにコストに影響する - スループットキャパシティ変更時はフェイルオーバーが発⽣する - Single-AZ <-> Multi-AZの直接の変更は不可 7 Transit GatewayやSite-to-Site VPNの使⽤帯域に余裕はあるか - ネットワーク経路を他ワークロードと分離 - Site-to-Site VPN ECMPの利⽤ - FlexCacheの利⽤ - ネットワーク切り替えコストは⾼いことを念頭に⼊れる - 各サービスの帯域上限は以下 - Transit Gateway : 100Gbps - Site-to-Site VPN : 1.25Gbps/トンネル
  7. ポイント (FSxNの設定) 40 No 説明 対応 備考 8 SMB/NFSの暗号化を使⽤しているか 暗号化の無効化

    - ポリシー的に認められるのかは要確認 - ONTAPではデフォルト無効化 - SMBにおいては暗号化によるパフォーマンス影響度合いはSMBバー ジョンおよびONTAPバージョンによって異なる - Nitroベースの暗号化はパフォーマンスに影響を与えない 9 SMB Large MTUが使われているか SMB Large MTUの有効化 - SMB ブロックを最⼤1MB まで転送できるようにする機能 - クライアント側でも有効化する必要がある - macOSの場合はパフォーマンスが低下することもある - macOSの場合はOSによってはMax Credits to Grant (SMBの未処理 同時操作最⼤数)も調整する必要がある 10 NFSの TCP 最⼤転送サイズが適切か NFSのTCP最⼤転送サイズの調整 - クライアント側でも設定が必要 - 1MBが⽬安 11 LIFのMTUが⼩さくなっていないか LIFのMTUをクライアントとのパスのMTUに調整 クライアントや途中のネットワーク機器のMTUが⼩さい場合は効果 を発揮できない 例) Site-to-Site VPN は 1,446固定 12 Storage Efficiencyは有効化されているか Storage Efficiencyを有効化する - 多くのワークロードでノードとストレージとの転送量が減るためパ フォーマンスが改善される - 逆にパフォーマンスが悪くなることも考えられるため要検証 13 圧縮タイミングとアルゴリズムは適切か - Inactive data compressionを無効化する - Inactive data compressionの閾値を調整する - lzopro から zstd に変更する - Tieringのcooling daysとInactive data compressionの閾値が近い のであれば無理に実⾏する必要はない - Inactive data compressionを⾏わないことによってSSD使⽤量増加 が予想される - 既存の圧縮済みブロックを再圧縮するには⼀度解凍する必要がある
  8. ポイント (ネットワーク) 41 No 説明 対応 備考 14 レイテンシーは⼗分に低いか -

    Accelerated Site-to-Site VPNの利⽤ - Direct Connectの利⽤ - FlexCacheの利⽤ - 別リージョンに⽴てる - いずれも変更にはランニング/イニシャルコストに影響がある - 同⼀VPCでもAZが異なる場合はAZを揃えることを検討 15 回線帯域は⼗分か 回線の増強 - 回線切り替え時にダウンタイムがある可能性がある 16 ネットワーク機器がサポートしているトラフィック上限には余裕がある か - ネットワーク機器の増強 - LAGの設定 - 機器切り替え時にダウンタイムがある可能性がある
  9. ポイント (クライアント) 42 No 説明 対応 備考 17 クライアントのスペックに余裕はあるか -

    クライアントマシンの増強 - クライアント上で他に動作している⾼負荷なアプリケー ションの⾒直し 18 NFS/SMBのTCPマルチコネクション機能を活⽤しているか - NFS nConnectを使⽤する - SMBマルチチャネルを使⽤する - 複数のTCPコネクションを使うことでパフォーマンス改善が⾒込ま れる - NFSv4.1のnConnect はFSxN側ではデフォルト有効化されている - SMB 3.0ではデフォルト無効化されている - NFS/SMBどちらもクライアント側で設定が必要 19 iSCSIのマルチパスIOを使⽤しているか マルチパスIO(MPIO)を使⽤して接続する - MPIOを使⽤することで異なるiSCSIパスで負荷分散できる - ALUAはデフォルトで有効化されている 20 ⼀部のクライアントからのアクセスが⽀配的か - QoSをかける - 処理時間帯をズラすことができるのであればズラす - ファイルに対してもQoSをかけることも可能 21 iSCSIを使⽤しているか 第⼆世代ファイルシステムに切り替えNVMe-over-TCPを使 ⽤する - iSCSIよりも低レイテンシーで接続可能 - クライアント側でもNVMe-over-TCPをサポートする必要がある 22 ⼤量のファイルやディレクトリの操作をしているか - ファイルやディレクトリを圧縮した上で操作する - FlexCacheを使⽤する - クライアントをAWS上に⽤意する - ファイルやディレクトリを⼤量に転送する場合は、メタデータや ファイルロックのオーバーヘッドやレイテンシーの影響を受けやす い 23 SMB署名が有効化されているか SMB署名を無効化する - ポリシー的に認められるのかは要確認 - 暗号化によるパフォーマンス影響度合いはSMBバージョンおよび ONTAPバージョンによって異なる
  10. その前に 「頻度」と「意図した使い⽅なのか」をチェックしよう • ⼀時的なのか ◦ 初期移⾏で⼤量のトラフィックを流している ◦ Storage Efficiency /

    Inactive data compressionでフルスキャンをかけて いる • 周期的なイベントなのか ◦ 毎⽇夜間に分析バッチ処理が⾛る ◦ 週次でアンチマルウェアソフトのスキャンをかけている • 恒常的なのか ◦ オンラインバッチが常時動作している 47
  11. どの⽤途によるCPU負荷かは 58 qos statistics workload resource cpu show -node <ノード名>で確認可能

    ボリュームへのアクセスはもちろん WAFLのスキャンなどのバックグラ ウンドワークロードも表⽰される
  12. NetApp ONTAPのストレージ階層化機能 FabricPoolとは 67 プライマリストレージ • SSD • 性能に最適化 •

    容量は 1〜192TB (Single-AZ 1HAペア) キャパシティプールストレージ • オブジェクトストレージで比較的低速 • プライマリストレージと比較して安価 • 実質容量制限なし(PBクラス)
  13. Tiering Policyの種類 Tiering Policyによって階層化 68 ポリシー名 挙動 Auto アクセス頻度の低いデータブロックを階層化 2〜183日で設定

    Snapshot-only Snapshotのデータブロックを階層化 2〜183日で設定 All メタデータを除く全てのデータブロックを階層化 None 階層化をしない アクセス頻度と求める性能に応じて適切なものを
  14. 79