Upgrade to Pro — share decks privately, control downloads, hide ads and more …

オンプレミスRDBのデータをAWSクラウド上の分析基盤に取り込む手法の整理

 オンプレミスRDBのデータをAWSクラウド上の分析基盤に取り込む手法の整理

2023年12月7日 db tech showcase 2023 での講演「オンプレミスRDBのデータをAWSクラウド上の分析基盤に取り込む手法の整理 - データの抽出、保存形態、必要となる前処理 -」の資料です。以下はセッション紹介文章より:
企業の中にある各種システムからクラウド上の分析基盤(データレイク)にデータを取り込み、クラウドのパフォーマンスを活かして分析する手法は一般的になりつつあります。企業はオンプレミス上でRDBを多数活用しており、そのデータをクラウド上に効率よく取り込み、活用しやすい形で保存することが、データ活用促進の鍵です。本セッションでは、主にRDB上のデータを取得する際の手法と、取得したデータをどのような形にしてデータレイク上に保存するかという「データ取り込み」部分にフォーカスした説明を行います。環境はAWSを前提にしていますが、他クラウドのオブジェクトストレージへのデータ取り込み方法の一般論としても応用可能です。

Akira Shimosako

December 09, 2023
Tweet

More Decks by Akira Shimosako

Other Decks in Technology

Transcript

  1. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    オンプレミスRDBのデータを
    AWSクラウド上の分析基盤に取り込む
    手法の整理
    - データの抽出、保存形態、必要となる前処理 -
    下佐粉 昭(しもさこ あきら)
    H1 2
    シニアアナリティクススペシャリストソリューションアーキテクト
    Amazon Web Services Japan

    View full-size slide

  2. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    本セッションの内容
    クラウド上に分析基盤を作り、活用していくうえで、初期の段階で
    課題になるのが「データレイク」への「データ取り込み」です。
    本セッションでは以下を説明します。
    • なぜデータレイクを作るのか?
    • データが無いと活用が進まないが、どのようにすればデータソー
    ス(RDBMS等)からデータを取り出せるか?
    • RDBMSから取り出したデータはデータレイク上でどのように配置、
    更新するべきか?どのようにして性能を担保するか?
    2

    View full-size slide

  3. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    自己紹介
    下佐粉 昭(しもさこ あきら)
    アマゾン ウェブ サービス ジャパン
    シニア アナリティクススペシャリスト ソリューションアーキテクト
    専門:データレイク、データウェアハウス
    書籍:「AWSではじめるデータレイク」
    「即戦力のDB2管理術」等
    週刊AWS:
    毎週のAWSアップデートをサマリして発信
    @simosako

    View full-size slide

  4. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    データレイク構築の
    狙いと構成

    View full-size slide

  5. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    狙い:蓄積と処理系を分離することで、
    迅速に変更できるITインフラを実現する
    ライフスパンの異なる
    「データ」と「処理系」を分離する
    • データを一か所に蓄積
    • 「正」のデータが明確に/データを捨てない
    → 新たな要件に対応できる環境
    処理系が容易に切り替え可能
    • システム間の調整が不要に
    → 新技術に対応可能な環境
    蓄積
    分析
    技術
    シス
    テム
    シス
    テム
    シス
    テム
    分析
    技術
    分析
    技術
    処理系
    5

    View full-size slide

  6. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    データレイクを中心とした分析環境
    • 生データをデータレイクに集め、将来的なニーズに対応
    • 分析や可視化といった活用部分は取り替え可能な構成
    • DWHを使う場合、下図「分析」のところに入る
    収集 データレイク
    (蓄積)
    分析 応用・
    可視化
    データを収集し、
    データレイクへ
    格納
    生データ
    全期間 分析
    API
    応用・
    可視化
    6
    DWH、
    全文検索エンジン etc.
    DWH、
    全文検索エンジン etc.

    View full-size slide

  7. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    データレイクに必要な機能
    狭義のデータレイクはデータの保存場所
    …しかし、それだけでは不足する機能が
    1)そのままでは利用に向かない生データの整形(前処理)
    最低限必要な整形とパフォーマンス面の最適化
    2)どのようなデータが置いてあるのかの管理(カタログ)
    多数のデータの情報を一元管理する仕組み
    7

    View full-size slide

  8. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    データレイクを中心とした分析環境 on クラウド
    8
    データレイクにカタログと前処理を持ち、活用を促進する
    収集
    データレイク
    処理系 応用・
    可視化
    データを収集し、
    データレイクへ
    格納 処理系 応用・
    可視化
    カタログ
    前処理
    (ETL)
    蓄積
    生データ
    整形
    最適化済
    マート
    本セッションの
    カバー範囲

    View full-size slide

  9. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    Amazon S3
    データ分析 コンテンツ配信
    Amazon S3 を中心としたAWSのサービス構成
    機械学習
    ストリームデータ
    BI
    Amazon Personalize
    Amazon Rekognition Amazon SageMaker
    AWS Glue Amazon
    Redshift
    Amazon
    Athena
    Amazon QuickSight
    AWS Glue
    Databrew
    Amazon
    EMR
    Amazon
    Kinesis
    AWS IoT
    Analytics
    AWS IoT
    Core
    Amazon
    CloudFront
    AWS Elemental
    MediaLive
    Amazon Managed
    Service
    for Apache Flink
    Amazon
    Glacier
    ETL
    データレイク管理
    AWS Lake Formation
    データ転送
    AWS
    Backup
    AWS
    Transfer Family
    バックアップ
    &アーカイブ
    AWS Snowball
    Edge
    Amazon
    MSK
    Amazon Bedrock

    View full-size slide

  10. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    AWSのアナリティクスサービス
    データレイク上の大規模データに、SQLで高速処理を実現
    Amazon
    Redshift Serverless
    Amazon
    EMR Serverless
    AWS Glue
    概要 サーバーレス
    DWH
    サーバーレス
    Hive/Spark環境
    サーバーレス
    ETL/カタログ
    標準・デファクトス
    タンダード技術
    SQL標準 Hive/Spark
    (デファクト)
    Spark
    (デファクト)
    分散処理 〇 〇 〇
    データレイク(S3)
    連携
    S3上のデータを外部
    表として認識し、
    SQLで処理
    S3上のデータに透過
    的にアクセスし、
    Spark SQLやHiveで
    アクセス
    S3上のデータに透過
    的にアクセスし、
    Spark SQLやPython
    でロジックを記載

    View full-size slide

  11. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    データ取り込み部分の
    考え方

    View full-size slide

  12. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    データ取り込み部分の重要性と考え方
    稼働序盤の課題:データの量・バリエーションが少ない
    • データが少ないデータレイクは活用されづらい
    • 少ないと使われない → データが増えないの負の連鎖
    • 「効率よく」データレイク上のデータを増やすためには、だれにとっての「効率」
    なのかを明確にする
    データの出し手&データレイクチーム
    双方にとって効率が良い環境の実現がポイント

    View full-size slide

  13. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    データ取り込みを充実させる際の考え方
    • データオーナー(出し手)側の課題
    • 既存システムに追加の負担をかけることはできない
    • 通常業務で忙しく、作業工数が確保できない
    • データレイクチーム側の課題
    • データソース毎に個別に連携インフラを構築していたら、
    時間・コストがかかるし、運用も大変
    この実情は
    変えるのが困難
    (徐々に対応する)
    こちらは技術で
    対応可能
    方針)
    • データソースに追加の負担をかけないよう、あるがままでデータを取得
    • ソースのバリエーションが増えても運用負荷が高くならない仕組みづくり

    View full-size slide

  14. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    「あるがままで」データを受け取る
    [原則] データの出し手にフォーマット変換や整形を要求しない
    • 既存インフラ・仕組をできるだけ活かした形でデータを受領する仕組みを検討する
    • 整形は受け取った側で – クラウドを活用して安く・速く
    例)
    • デイリーバックアップのファイルがあるなら、それをそのままもらう
    • 既存の連携基盤があるなら、そこから取得
    • データベース側に連携機能があるなら、それを活用

    View full-size slide

  15. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    データレイクチームの負担をどう減らすか?
    • AWSサービスを活用して運用・構築負担を減らす
    • AWS Transfer for FTP/SFTP : FTP/SFTPアクセスでS3に連携
    • AWS DataSync : オンプレミスNFS等のデータをAWSに同期
    • Amazon AppFlow : SaaSとのデータ連携をノーコードで実現
    • AWS Database Migration Service (DMS) : RDBのマイグレーション
    • 3rd パーティーツールや、SaaS、OSSの活用
    • AWSは多くのISVと協力しており、多様なツールが導入可能

    View full-size slide

  16. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    Amazon RDS, Amazon Aurora は S3 への出力をサポート
    16
    Export Snapshot Export Cluster Export
    SQLの結果を S3 に出力 Snapshot(バックアップ)から S3
    に出力
    ストレージ内の表をS3に出力
    最新データをSELECTで加工して
    出力
    Snapshot時点の表全体を出力 最新の表全体を出力
    RDS / Aurora のCPUやIOを消費
    (Read Replicaを利用可能)
    RDS / Aurora に追加負荷がかか
    らない
    Aurora に追加負荷がかからない
    CSV, Textフォーマット等 Apache Parquet フォーマット Apache Parquet フォーマット
    サポート:
    • RDS for MySQL, MariaDB,
    PostgreSQL
    • Aurora MySQL, PostgreSQL
    サポート:
    • RDS for MySQL, MariaDB,
    PostgreSQL
    • Aurora MySQL, PostgreSQL
    サポート:
    • Aurora MySQL, PostgreSQL
    補足1: RDS for Oracle ではディレクトリオブジェクトに保存されたCSV等のデータをrdsadmin_s3_tasks.upload_to_s3で S3 に出力可能です
    補足2: RDS for SQL Server では、RDS内に設定されたD:¥S3¥ディレクトリ内のデータをrds_upload_to_s3で S3 に出力可能です

    View full-size slide

  17. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    補足:
    Zero-ETL Integration with Amazon Redshift を利用したデータ連携
    17
    データソースからETL不要でRedshiftに連携
    ニアリアルタイムの分析を簡単で安全な方法で提供
    Amazon Aurora 等 Amazon Redshift
    Transactional
    Applications Analytics Analyst
    Zero-ETL
    integration
    ※この場合、データレイクを通さずにDWHに連携されるので、データレイクへの保存はRedshift の S3 連携機能で別途実施
    する必要がある
    • Amazon Aurora MySQL zero-ETL integration with Amazon Redshift (一般提供開始)
    • Amazon Aurora PostgreSQL zero-ETL integration with Amazon Redshift (Preview)
    • Amazon RDS for MySQL zero-ETL integration with Amazon Redshift (Preview)
    • Amazon DynamoDB zero-ETL integration with Amazon Redshift (Preview)

    View full-size slide

  18. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    RDBのデータを取り込む
    ための手法

    View full-size slide

  19. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    データソースの更新をどう反映させるか
    ソースの更新をどのようにデータレイクへ反映するかは検討しておくべきポイント
    基本的には、分析するためのデータは「履歴」であるべき(過去も今も記録する)
    手法を検討する際のポイント
    • データサイズ
    • 差分の抽出方法
    • 更新の反映方法
    • 保存フォーマット
    19

    View full-size slide

  20. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    データサイズ
    ソースのデータサイズはもっとも重要なファクター
    • 全体サイズと、日々の更新サイズ
    • データソースとAWS間のネットワーク帯域も確認
    全体サイズが小さい場合、手法の選択肢が多くなる
    • 全部毎回コピーしても良い
    データサイズが巨大な場合、どう差分を抽出するか?の検討が必要に
    20

    View full-size slide

  21. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    差分抽出の方法 1/2
    • 更新時刻を判断できる列がある場合は、そこを条件に
    SELECTする
    もしくはその列をつけるよう改修(とても難しい)
    • 判断列が無い場合は規約(XXか月前までは更新される可能
    性)の有無を確認し、差分抽出範囲を抑えられないか
    を検討
    • それも不明な場合はCDC(更新ログ転送)で検討
    (CDCのパフォーマンスボトルネックやトラブル時の対応について、考慮
    が必要)
    => AWS DMS や、各種商用ソフトウェア
    21
    Tran
    ID
    Price Last update
    0011 100 2023-11-22 11:22
    0012 200 2023-11-22 11:23
    :
    0030 105 2023-11-24 21:40

    View full-size slide

  22. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    差分抽出の方法 2/2
    どのタイミングで更新差分を取得するか?
    データの更新頻度にあわせた取得頻度の検討
    マスターのように更新頻度が少ないものを毎日取得する必要はない
    とはいえ、データソース側で更新頻度を確定できない場合も多い
    ビジネス的な意味で整合性が取れたデータを取得する
    ビジネス的な整合性がとれていない/未完了のデータは分析に利用しづらい
    例:船での運搬記録表- 到着日時は船が到着後にしか分からないが、到着前のデータは分析にはあまり
    意味がない(場合が多い)
    22

    View full-size slide

  23. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    更新差分をCDCで抽出する
    AWS DMS を利用した差分抽出の場合
    AWS Database Migration Service (DMS) はデータソース(RDB)のトランザクションログ
    から差分を抽出し、 S3 に差分を出力することが可能
    以下のような更新差分ファイルが S3 にPUTされるので、これ適切にS3内にマージする後処理
    が必要
    I,101,Smith,Bob,4-Jun-14,New York
    U,101,Smith,Bob,8-Oct-15,Los Angeles
    U,101,Smith,Bob,13-Mar-17,Dallas
    D,101,Smith,Bob,13-Mar-17,Dallas
    I=Insert, U=Update, D=Delete
    を表すフラグ列
    参照:
    https://docs.aws.amazon.com/ja_jp/dms/latest/userguide/CHAP_Target.S3.html
    23

    View full-size slide

  24. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    更新の反映 – マスター
    マスターは変更頻度が低く、サイズも小さい事が多い
    (差分で取らなくても良い)
    版管理のイメージでデータレイク上に保持する
    例:2023年度製造番号マスター
    データレイク上の表現方法は、
    ①別データ(別表)として分ける
    ②1表に入れ、バージョン番号を列に持つ
    24
    2021年度
    製造番号
    ファイル.csv
    2022年度
    製造番号
    ファイル.csv
    2023年度
    製造番号
    ファイル.csv
    ①別表として保存
    ②バージョン番号を列に持つ、1表に
    保存
    Parts ID Price Version
    x110 100 2020
    x120 200 2020
    :
    x110 105 2021

    View full-size slide

  25. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    更新の反映 – トランザクションデータ (1/2)
    トランザクションタイプのデータの場合は、一般的にデータサイズが大きく、更新も多い
    データソース側がInsert (追記)だけか、Update/Deleteもあるかを確認
    データソース側の更新がInsert (追記)のみの場合:
    データレイク側でも新ファイルをバケットに追加するだけで良い
    25
    Amazon S3 (Bucket)
    file-2023-12-01.csv
    file-2023-12-02.csv
    file-2023-12-03.csv

    View full-size slide

  26. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    更新の反映 – トランザクションデータ (2/2)
    Update/Deleteがある場合、データレイク上の表現として追記のみで表現できないか?を検討
    例)更新日時列をつけた形で追記する。
    最新断面は Athena 等で必要なデータだけ抽出するVIEWで対応
    データレイク上に差分を反映させる(Update/Delete)場合、洗い替えが必要になる
    • 全体を読んで、部分更新して、全体出力
    • 実装自体は難しくない(例:AWS Glue + Spark ならSpark SQLで書ける)が、性能とコストが要
    件を満たせるかが検討ポイント
    • パーティショニングで処理対象のファイルを限定することで性能が維持しやすくなる
    26

    View full-size slide

  27. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    トランザクション可能なデータレイクとOTF
    データレイクに対する、より高度なニーズの増加
    部分更新・削除は、既存のファイルから該当行を探して処理する必要があり、効率的に行うに
    は工夫が必要
    タイムトラベルクエリや、スキーマエボリューション等も「S3に存在するオブジェクトをそのまま読む」
    だけでは実現が難しい
    ストレージ(S3)と処理系(Amazon EMR, AWS Glue 等)との間に差分データ、メタデータを管
    理するレイヤーを置くことで高度な操作を可能にする技術
    => Open Table Format (OTF)
    27

    View full-size slide

  28. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    OTFレイヤーを挟むことで高度なニーズに対応する
    28
    Amazon S3
    その他
    オブジェクト
    ストレージ 等
    Open Table
    Format
    レイヤー
    Open Table Format でのデータ読み書き
    メタデータの管理、効率的なデータ操作 等
    分散処理エンジン
    レイヤー
    データレイヤー

    View full-size slide

  29. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    Open Table Format:検討事項
    • 適したユースケース
    • データセットが大きく、部分的な更新が発生する (小さい場合は全体書き換えでも問題ない)
    • タイムトラベルクエリ、スキーマエボリューション等、OTF無しでは実現困難な要件への対応
    • OTFの読み書きをサポートするサービスを利用可能なケース
    • Apache IcebergをサポートするAWSサービスの一例:Amazon Athena , Amazon EMR , AWS Glue, Amazon Redshift
    • 注意点
    • OTFによる追加のオーバーヘッド
    • (更新が高速な場合があるとはいえ)汎用RDBのような更新速度が出るものではありません
    • 更新が繰り返された後のパフォーマンス調整
    • Apache Icebergの場合:AthenaからOPTIMIZE/VACUUMの実施、AWS Glue Catalog の 自動compaction等
    29

    View full-size slide

  30. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    データ整備の基本戦略と
    性能の最適化
    取り込んだデータを活用可能にする

    View full-size slide

  31. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    基本戦略
    戦略1:オリジナルデータ(≒生データ)は残す
    後から変えたくなった際にやり直せる
    戦略2:活用を促進できるように前処理する
    検討ポイント:前処理はどこまでやるべきか?
    データレイクは、「みんなが使うものを共有する」
    一部の人しか使わないものはデータレイク外部で検討する
    31

    View full-size slide

  32. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    基本戦略(続き)
    戦略1:オリジナルデータは残す
    戦略2:活用を促進できるように前処理する
    例)3段階ぐらいのバケット構成を初期案とし、検討を進める
    オリジナルデータ
    (生データ)
    必須の前処理と
    クエリ最適化
    特定分析用データ
    (データマート等)
    32

    View full-size slide

  33. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    2つ目のバケットでは、どのフォーマットで保存するか
    フォーマットはオープンであることを重視する
    多様なアプリケーション・サービスからアクセス可能であること
    デファクトスタンダードを重視(絶対ではない)
    33
    構造 特徴 注意点
    CSV/TSV 構造化テキスト 広く普及、シンプル 大規模時の処理速度
    圧縮やパーティショニングで対応
    JSON/XML 準構造化テキスト 広く普及、構造が柔軟 CSVより性能が出づらい
    SQLで処理しづらい
    Parquet 構造化バイナリ Hadoopとともに普及
    列単位の読み取りが高速
    レガシーツールでは未対応
    オープンなファイルフォーマットの例: *非構造化データ以外

    View full-size slide

  34. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    2つ目のバケットで行う必須の前処理
    ビジネス的な前処理(最低限必要な前処理)=>ジョイン可能にする
    • 文字コードの変換:UTF-8等に統合を検討
    • IDの統一:システムで異なるIDを発行している場合等の対応
    • 日付、表現の統一:日付の表現方式、タイムゾーン、大文字小文字 等
    パフォーマンス面の最適化(必要に応じて)=>クエリ性能の向上
    • (次スライド)
    34

    View full-size slide

  35. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    性能向上のための前処理
    パラメータチューニングやインデックス作成ではなく、
    ファイルの配置方法を工夫することで処理性能を向上させる
    1. 読む量を減らす
    • 圧縮 / パーティショニング / カラムナフォーマットの採用
    2. 並列で読む
    • ファイルの分割
    • Splittable (分割可能) な保存形式の採用
    参考資料:「Top 10 Performance Tuning Tips for Amazon Athena」
    https://aws.amazon.com/jp/blogs/big-data/top-10-performance-tuning-tips-for-amazon-athena/
    35

    View full-size slide

  36. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    圧縮とファイル分割
    • 圧縮により(一般的には)性能向上と利用コストの削減を実現
    圧縮データを展開するための時間より、データを読み込むまでの時間の方がはるかに長い
    • 適切なファイル分割はアクセスの並列性を高めるために重要
    100MB~200MB程度(一般にオブジェクトストレージでは小さいファイルが大量にあると
    逆に遅くなる)
    • ファイルサイズが大きくなる場合、Splittableなフォーマットの利用も検討
    36

    View full-size slide

  37. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    Splittableなフォーマット
    分割可能=分散処理で性能を発揮しやすい
    Splittableな圧縮フォーマット:bzip2、LZO、無圧縮
    Splittableなカラムナフォーマット:
    • 例:Parquetの場合はRow groupの単位でSplit可能
    • (各種OTFは、保存フォーマットにParquetを選択することが可能)
    利用するサービスがサポートしている組み合わせかは要確認
    37

    View full-size slide

  38. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    パーティショニング
    列の値によって、データの保存先を変える事で読む
    範囲を限定する
    一般的にはHiveパーティショニング形式(右)が
    推奨
    パーティショニング列は、要件次第だが一般的には
    日時の列が効果的
    例) SELECT * FROM t1 WHERE year = 1989
    なら /year=1989/ prefix以下のみを読めば良い
    ※カタログ側でパーティショニングを認識することで、
    ユーザにはyearが列のように見えます(後述)
    38

    View full-size slide

  39. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    補足:データカタログへの記録
    テーブル情報
    (名前、URL、登録日時等)
    テーブルプロパティ
    (オブジェクトのフォーマットに合わせた入出力形式
    やバージョン等)
    テーブルスキーマ(表定義)
    テーブルパーティション
    パーティションが認識されている
    「sample-
    data/location=US/year=2023/month=08/day=06・
    ・・」
    AWS Glue のデータカタログには以下のように登録され、各種
    AWSサービスから参照可能になります
    一種の表のようにアクセスが可能です
    39

    View full-size slide

  40. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    まとめ - 作って終わりにせず、継続的な改善を繰り返す
    • データの分析・活用の速度をあげるためのデータレイク
    • データ取り込みは「あるがまま」受け取る
    • AWSサービスの機能を活用して作りこみを少なく
    • 基本戦略
    • 戦略1:オリジナルデータ(≒生データ)は残す
    • 戦略2:活用を促進できるように前処理する
    • 更新反映をどうするかはデータソースごとに検討(サイズが重要)
    40

    View full-size slide

  41. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    おしらせ
    AWS re:Invent Recap - ソリューション編 2024年2月開催
    世界中の AWS ユーザーが集まり、
    ベストプラクティスや最新情報を学ぶための年次カンファレンス
    『AWS re:Invent』
    AWS re:Invent Recap ソリューション編では、AWS re:Invent
    2023 で発表された多くのアップデートを
    各ソリューションごとに内容を厳選し、
    日本のお客様向けに AWS のエキスパートがご紹介します。
    業務で必要となる分野の最新情報キャッチアップに
    是非お役立てください
    41
    https://pages.awscloud.com/japan-reinvent-recap-solution-reg.html

    View full-size slide

  42. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    アンケート&お問い合わせ先
    受講後アンケートのご記入よろしくお願いいたします!
    42
    アンケート お問い合わせ先
    Amazon RDSのスペシャリストは、お客様のご質問に
    お答えすることができます。
    また、お客様の組織をどのようにサポートできるかについて
    ご相談いただくことも可能です。

    View full-size slide

  43. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    内容についての注意点
    • 本資料では2023年12月7日時点のサービス内容および価格についてご説明しています。最新の情報は
    AWS公式ウェブサイト(http://aws.amazon.com)にてご確認ください。
    • 資料作成には十分注意しておりますが、資料内の価格とAWS公式ウェブサイト記載の価格に相違が
    あった場合、AWS公式ウェブサイトの価格を優先とさせていただきます。
    • 価格は税抜表記となっています。日本居住者のお客様には別途消費税をご請求させていただきます。
    • AWS does not offer binding price quotes. AWS pricing is publicly available and is subject to change
    in accordance with the AWS Customer Agreement available at http://aws.amazon.com/agreement/.
    Any pricing information included in this document is provided only as an estimate of usage charges
    for AWS services based on certain information that you have provided. Monthly charges will be
    based on your actual use of AWS services, and may vary from the estimates provided.

    View full-size slide

  44. DB TECH SHOWCASE 2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    #dbts2023
    © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    Thank you!

    View full-size slide