Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データ分析基盤のためにS3を深堀りする~アーキテクチャ設計の考え方のヒントに~

NRI Netcom
October 14, 2024

 データ分析基盤のためにS3を深堀りする~アーキテクチャ設計の考え方のヒントに~

NRI Netcom

October 14, 2024
Tweet

More Decks by NRI Netcom

Other Decks in Technology

Transcript

  1. データ分析基盤のためにS3を深堀りする ~ アーキテクチャ設計の考え方のヒントに ~ JAWS FESTA 2024 広島 2024年10月12日 NRIネットコム株式会社

    執行役員 デジタルソリューション事業本部長 クラウドテクニカルセンター センター長 佐々木拓郎
  2. 1 Copyright(C) NRI Netcom, Ltd. All rights reserved. 自己紹介 ◼

    2000年 4月 NRIネットコム株式会社入社 ◼ 現在 執行役員 デジタルソリューション事業本部 本部長 クラウドテクニカルセンター センター長 ◼執筆 佐々木拓郎
  3. 2 Copyright(C) NRI Netcom, Ltd. All rights reserved. NRIネットコムのAWSへの取り組み APNアドバンスド

    コンサルティングパートナー 複数のAWS Award受賞者と 多数のAWS認定者資格 書籍&ブログ執筆
  4. 5 Copyright(C) NRI Netcom, Ltd. All rights reserved. データ分析処理の一例 目的に合わせて加工したデータをデータウェアハウスに格納して分析する

    リアルの世界での 活動履歴 オフラインデータ 用途に応じて データを編集 ETL 構造化した データを 保存する場所 データ ウェアハウス Web等のオンライン上 の活動履歴 オンラインデータ 生データ クエリー 分析・可視化 機械学習 加工済 データ 構造化の過程で、不要な情 報が切り捨てられる POINT 生データを構造化する段階で、不要な情報が切り捨てられる 別の切り口で分析する際には、元データの再連携が必要 そのためには、データレイクが必要 データレイク できるだけ元のままの データを格納 本日の主テーマ
  5. 6 Copyright(C) NRI Netcom, Ltd. All rights reserved. AWSのサービスに当てはめてアーキテクチャを考えていく それぞれの構成要素に対応した、複数のサービスがある。

    オフラインデータ オンラインデータ データレイク データ ウェアハウス データマート 分析・可視化 機械学習 ETL データ分析基盤 リアルの世界 での活動履歴 Web等の オンライン上の 活動履歴 Amazon S3 Amazon EMR AWS Glue Amazon Athena Amazon Redshift Amazon Aurora Amazon Kinesis Amazon SageMaker Amazon QuickSight POINT データレイクとしてはS3を利用する。 それ以外は、規模・用途に応じて使い分ける 蓄積系 収集系 処理・分析系 データを そのまま保存 構造化した データを保存 用途に適した データを抽出 用途に応じて データを編集 整形された データで分析 転送 取得 AWS Lambda
  6. 7 Copyright(C) NRI Netcom, Ltd. All rights reserved. アーキテクチャ選定の基準、もっていますか? 用途に応じて使い分けるって、

    その基準は? えーっと!? (知らんがな) なんとなくを脱却して 自信をもって答えられるようになろう
  7. 9 Copyright(C) NRI Netcom, Ltd. All rights reserved. こんな発表があった時、どう捉えますか? S3

    Express One Zone S3のアクセスをより高速に、より低コストに
  8. 10 Copyright(C) NRI Netcom, Ltd. All rights reserved. アーキテクチャの検討の出発点 機能要件・非機能要件を元に考える

    必要な機能を 持っているか? 要件に対して 十分な性能を 発揮できるか? コストは ビジネス上の 制約内に収まるか? その他の非機能要件を 満たしているか? (セキュリティetc.) こういった観点から考えてみます
  9. 11 Copyright(C) NRI Netcom, Ltd. All rights reserved. S3 Express

    One Zoneのスペック S3 標準ストレージとカタログスペックを比較してみる S3 標準ストレージ S3 Express One Zone 主な用途 アクセス頻度の高いデータ向けの汎 用ストレージ 最もアクセス頻度が高いデータ向け の高性能ストレージ SLA 99.9% 99.9% 可用性 99.99% 99.95% 料金体系 (東京リー ジョン) PUT、COPY、POST、LIST リクエス ト (1,000 リクエストあたり) USD 0.0047 USD 0.0024 GET、SELECT、他のすべてのリクエ スト (1,000 リクエストあたり) USD 0.00037 USD 0.00019 データ保存料 最初の 50 TB/月 USD 0.025/GB USD 0.18/GB 標準ストレージに比べ半値 Express One Zoneに比べて1桁安い 可用性は、標準ストレージの方が高い
  10. 12 Copyright(C) NRI Netcom, Ltd. All rights reserved. データレイク データレイクに求められる要件

    ⚫ スケーラビリティ ⚫ コスト効率 ⚫ データの多量性 ⚫ データセキュリティとガバナンス ⚫ 耐障害性と高可用性 ⚫ メタデータ管理 大量のデータを保存する場合は、 S3 Express OneZoneはコスト効率が悪い
  11. 14 Copyright(C) NRI Netcom, Ltd. All rights reserved. データレイクを階層化して利用するとすると? RAWデータレイク・中間データレイク・構造化データレイク

    RAWデータレイク DBデータなど 構造化データ アクセスログなど 半構造化データ データレイク SNS投稿テキストなど 非構造化データ ETL(整形処理) データの形式を統一 フォーマット処理 重複や欠損値の除去 クレンジング処理 個人情報などの除去 マスク処理 DBデータなど 構造化データ アクセスログなど 半構造化データ 構造化されたテキスト 半構造化データ ETL(ビジネス加工) データ置換など ビジネスロジック処理 不要なカラムの除去など フィルタ処理 データソースの属性結合 エンリッチメント処理 構造化データレイク 顧客ごとのSNS反応履歴 構造化データ Eコマースの購買履歴 構造化データ 実店舗の購買履歴 構造化データ ETL(用途別加工) アプリ向けのデータ集約 アプリ用処理 古い情報のアーカイブ アーカイブ用処理 集計などの加工 分析用処理 DWH データの フォーマット はバラバラで OK! データの意味そのものを 変えるような加工はし ない 目的に応じて意味の改変も含めて加工したデータ
  12. 16 Copyright(C) NRI Netcom, Ltd. All rights reserved. Express One

    Zoneの活用 RAWデータレイク・中間データレイク・構造化データレイク RAWデータレイク DBデータなど 構造化データ アクセスログなど 半構造化データ データレイク SNS投稿テキストなど 非構造化データ ETL(整形処理) データの形式を統一 フォーマット処理 重複や欠損値の除去 クレンジング処理 個人情報などの除去 マスク処理 中間データレイク DBデータなど 構造化データ アクセスログなど 半構造化データ 構造化されたテキスト 半構造化データ ETL(ビジネス加工) データ置換など ビジネスロジック処理 不要なカラムの除去など フィルタ処理 データソースの属性結合 エンリッチメント処理 構造化データレイク 顧客ごとのSNS反応履歴 構造化データ Eコマースの購買履歴 構造化データ 実店舗の購買履歴 構造化データ ETL(用途別加工) アプリ向けのデータ集約 アプリ用処理 古い情報のアーカイブ アーカイブ用処理 集計などの加工 分析用処理 DWH データの フォーマット はバラバラで OK! データの意味そのものを 変えるような加工はし ない 目的に応じて意味の改変も含めて加工したデータ 大量のデータを保存する場合は、 標準ストレージが適している 中間処理で一時保存のみであれば、 Express One Zoneが適している 運用設計次第。少量かつ高頻度の利用で あれば、Express One Zoneが適している
  13. 17 Copyright(C) NRI Netcom, Ltd. All rights reserved. 一方で性能の把握も必要 カタログスペックだけでなく、実際の性能を把握しておくことも重要

    高速って言われても、どんなものなの? データ量が同じなら、同じ速度なの? えーっと!? (知らんがな) 定量的に説明できると説得力が増す 計測してみないとわからない
  14. 19 Copyright(C) NRI Netcom, Ltd. All rights reserved. 性能測定① 小サイズの大量データでの測定結果

    ⚫ EC2からデータアップロードとダウンロードの速さ ⚫ Athenaからクエリー実行した際のレスポンス時間 ⚫ APIリクエストのコスト比較(机上評価) ⚫ データは、10KBのファイルを70万個 標準ストレージ Express One Zone 標準との比較 アップロード時間 849.47秒 197.89秒 429% ダウンロード時間 1411.23秒 382.24秒 369% クエリー時間 75.91秒 52.30秒 145% API料金 $13.79 $2.74 500%
  15. 20 Copyright(C) NRI Netcom, Ltd. All rights reserved. S3 Express

    OneZoneが圧倒的と思った方はご注意を カタログスペックだけでなく、実際の性能を把握しておくことも重要 小さなサイズの大量のデータを扱っているのが悪いのでは? 例えば、ファイルを適度なサイズにまとめて比較すると どうなるの?
  16. 21 Copyright(C) NRI Netcom, Ltd. All rights reserved. 性能測定② 通常サイズのデータでの測定結果

    ⚫ EC2からデータアップロードとダウンロードの速さ ⚫ Athenaからクエリー実行した際のレスポンス時間 ⚫ APIリクエストのコスト比較(机上評価) ⚫ データは、100MBのファイルを100個 標準ストレージ Express One Zone 標準との比較 アップロード時間 84.88秒 67.89秒 125% ダウンロード時間 79.77秒 79.81秒 100% クエリー時間 2.59秒 2.24秒 116% API料金 $0.001 $0.0002 500%
  17. 22 Copyright(C) NRI Netcom, Ltd. All rights reserved. 考察 ストレージクラスの性能差より、まずはS3の特性を知ることが大事

    ⚫S3は、オンラインストレージという特性上、オブジェクト1つの取得ごとに通信が発生する ⚫小さなサイズの大量のデータがある場合は、通信のオーバーヘッドに占める割合が高い ⚫小さなサイズのデータは、ファイルをまとめて圧縮すると格段に効率がよくなる ⚫設計の優先度としては、扱うデータの特性 > ストレージクラス カタログスペックを理解した上で、 実際の性能を測定すると理解が深まる
  18. 23 Copyright(C) NRI Netcom, Ltd. All rights reserved. 性能測定の観点(おまけ) 性能測定をする上では、次のような観点が重要

    測定の目的 測定環境の 平準化 実際の環境に 近づける 複数回の 測定 メトリクスの 取得 外部影響を 最小限に 変更との 比較 分析する
  19. 24 Copyright(C) NRI Netcom, Ltd. All rights reserved. 性能測定の参照データ(おまけ) S3の性能測定の詳細については、こちらを参照

    NRIネットコムのクラウドソリューション: 検証レポート.:Athenaにおけるファイルサイズ https://cloud.nri-net.com/reports/aws-athena-performance-analysis-2310/
  20. 25 Copyright(C) NRI Netcom, Ltd. All rights reserved. まとめ アーキテクチャを検討する上でのポイント

    ⚫AWSのサービスを、しっかりと把握する ⚫新サービスが出てきた時は、どのようなユースケースに適するのかを検討する ⚫実際に評価してみることも大事