Upgrade to Pro — share decks privately, control downloads, hide ads and more …

オンプレミスRDBのデータをAWSクラウド上の分析基盤に取り込む手法の整理

 オンプレミスRDBのデータをAWSクラウド上の分析基盤に取り込む手法の整理

2023年12月7日 db tech showcase 2023 での講演「オンプレミスRDBのデータをAWSクラウド上の分析基盤に取り込む手法の整理 - データの抽出、保存形態、必要となる前処理 -」の資料です。以下はセッション紹介文章より:
企業の中にある各種システムからクラウド上の分析基盤(データレイク)にデータを取り込み、クラウドのパフォーマンスを活かして分析する手法は一般的になりつつあります。企業はオンプレミス上でRDBを多数活用しており、そのデータをクラウド上に効率よく取り込み、活用しやすい形で保存することが、データ活用促進の鍵です。本セッションでは、主にRDB上のデータを取得する際の手法と、取得したデータをどのような形にしてデータレイク上に保存するかという「データ取り込み」部分にフォーカスした説明を行います。環境はAWSを前提にしていますが、他クラウドのオブジェクトストレージへのデータ取り込み方法の一般論としても応用可能です。

Akira Shimosako

December 09, 2023
Tweet

More Decks by Akira Shimosako

Other Decks in Technology

Transcript

  1. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark. オンプレミスRDBのデータを AWSクラウド上の分析基盤に取り込む 手法の整理 - データの抽出、保存形態、必要となる前処理 - 下佐粉 昭(しもさこ あきら) H1 2 シニアアナリティクススペシャリストソリューションアーキテクト Amazon Web Services Japan
  2. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 本セッションの内容 クラウド上に分析基盤を作り、活用していくうえで、初期の段階で 課題になるのが「データレイク」への「データ取り込み」です。 本セッションでは以下を説明します。 • なぜデータレイクを作るのか? • データが無いと活用が進まないが、どのようにすればデータソー ス(RDBMS等)からデータを取り出せるか? • RDBMSから取り出したデータはデータレイク上でどのように配置、 更新するべきか?どのようにして性能を担保するか? 2
  3. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 自己紹介 下佐粉 昭(しもさこ あきら) アマゾン ウェブ サービス ジャパン シニア アナリティクススペシャリスト ソリューションアーキテクト 専門:データレイク、データウェアハウス 書籍:「AWSではじめるデータレイク」 「即戦力のDB2管理術」等 週刊AWS: 毎週のAWSアップデートをサマリして発信 @simosako
  4. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark. データレイク構築の 狙いと構成
  5. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 狙い:蓄積と処理系を分離することで、 迅速に変更できるITインフラを実現する ライフスパンの異なる 「データ」と「処理系」を分離する • データを一か所に蓄積 • 「正」のデータが明確に/データを捨てない → 新たな要件に対応できる環境 処理系が容易に切り替え可能 • システム間の調整が不要に → 新技術に対応可能な環境 蓄積 分析 技術 シス テム シス テム シス テム 分析 技術 分析 技術 処理系 5
  6. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 データレイクを中心とした分析環境 • 生データをデータレイクに集め、将来的なニーズに対応 • 分析や可視化といった活用部分は取り替え可能な構成 • DWHを使う場合、下図「分析」のところに入る 収集 データレイク (蓄積) 分析 応用・ 可視化 データを収集し、 データレイクへ 格納 生データ 全期間 分析 API 応用・ 可視化 6 DWH、 全文検索エンジン etc. DWH、 全文検索エンジン etc.
  7. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 データレイクに必要な機能 狭義のデータレイクはデータの保存場所 …しかし、それだけでは不足する機能が 1)そのままでは利用に向かない生データの整形(前処理) 最低限必要な整形とパフォーマンス面の最適化 2)どのようなデータが置いてあるのかの管理(カタログ) 多数のデータの情報を一元管理する仕組み 7
  8. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 データレイクを中心とした分析環境 on クラウド 8 データレイクにカタログと前処理を持ち、活用を促進する 収集 データレイク 処理系 応用・ 可視化 データを収集し、 データレイクへ 格納 処理系 応用・ 可視化 カタログ 前処理 (ETL) 蓄積 生データ 整形 最適化済 マート 本セッションの カバー範囲
  9. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 Amazon S3 データ分析 コンテンツ配信 Amazon S3 を中心としたAWSのサービス構成 機械学習 ストリームデータ BI Amazon Personalize Amazon Rekognition Amazon SageMaker AWS Glue Amazon Redshift Amazon Athena Amazon QuickSight AWS Glue Databrew Amazon EMR Amazon Kinesis AWS IoT Analytics AWS IoT Core Amazon CloudFront AWS Elemental MediaLive Amazon Managed Service for Apache Flink Amazon Glacier ETL データレイク管理 AWS Lake Formation データ転送 AWS Backup AWS Transfer Family バックアップ &アーカイブ AWS Snowball Edge Amazon MSK Amazon Bedrock
  10. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 AWSのアナリティクスサービス データレイク上の大規模データに、SQLで高速処理を実現 Amazon Redshift Serverless Amazon EMR Serverless AWS Glue 概要 サーバーレス DWH サーバーレス Hive/Spark環境 サーバーレス ETL/カタログ 標準・デファクトス タンダード技術 SQL標準 Hive/Spark (デファクト) Spark (デファクト) 分散処理 〇 〇 〇 データレイク(S3) 連携 S3上のデータを外部 表として認識し、 SQLで処理 S3上のデータに透過 的にアクセスし、 Spark SQLやHiveで アクセス S3上のデータに透過 的にアクセスし、 Spark SQLやPython でロジックを記載
  11. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark. データ取り込み部分の 考え方
  12. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 データ取り込み部分の重要性と考え方 稼働序盤の課題:データの量・バリエーションが少ない • データが少ないデータレイクは活用されづらい • 少ないと使われない → データが増えないの負の連鎖 • 「効率よく」データレイク上のデータを増やすためには、だれにとっての「効率」 なのかを明確にする データの出し手&データレイクチーム 双方にとって効率が良い環境の実現がポイント
  13. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 データ取り込みを充実させる際の考え方 • データオーナー(出し手)側の課題 • 既存システムに追加の負担をかけることはできない • 通常業務で忙しく、作業工数が確保できない • データレイクチーム側の課題 • データソース毎に個別に連携インフラを構築していたら、 時間・コストがかかるし、運用も大変 この実情は 変えるのが困難 (徐々に対応する) こちらは技術で 対応可能 方針) • データソースに追加の負担をかけないよう、あるがままでデータを取得 • ソースのバリエーションが増えても運用負荷が高くならない仕組みづくり
  14. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 「あるがままで」データを受け取る [原則] データの出し手にフォーマット変換や整形を要求しない • 既存インフラ・仕組をできるだけ活かした形でデータを受領する仕組みを検討する • 整形は受け取った側で – クラウドを活用して安く・速く 例) • デイリーバックアップのファイルがあるなら、それをそのままもらう • 既存の連携基盤があるなら、そこから取得 • データベース側に連携機能があるなら、それを活用
  15. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 データレイクチームの負担をどう減らすか? • AWSサービスを活用して運用・構築負担を減らす • AWS Transfer for FTP/SFTP : FTP/SFTPアクセスでS3に連携 • AWS DataSync : オンプレミスNFS等のデータをAWSに同期 • Amazon AppFlow : SaaSとのデータ連携をノーコードで実現 • AWS Database Migration Service (DMS) : RDBのマイグレーション • 3rd パーティーツールや、SaaS、OSSの活用 • AWSは多くのISVと協力しており、多様なツールが導入可能
  16. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 Amazon RDS, Amazon Aurora は S3 への出力をサポート 16 Export Snapshot Export Cluster Export SQLの結果を S3 に出力 Snapshot(バックアップ)から S3 に出力 ストレージ内の表をS3に出力 最新データをSELECTで加工して 出力 Snapshot時点の表全体を出力 最新の表全体を出力 RDS / Aurora のCPUやIOを消費 (Read Replicaを利用可能) RDS / Aurora に追加負荷がかか らない Aurora に追加負荷がかからない CSV, Textフォーマット等 Apache Parquet フォーマット Apache Parquet フォーマット サポート: • RDS for MySQL, MariaDB, PostgreSQL • Aurora MySQL, PostgreSQL サポート: • RDS for MySQL, MariaDB, PostgreSQL • Aurora MySQL, PostgreSQL サポート: • Aurora MySQL, PostgreSQL 補足1: RDS for Oracle ではディレクトリオブジェクトに保存されたCSV等のデータをrdsadmin_s3_tasks.upload_to_s3で S3 に出力可能です 補足2: RDS for SQL Server では、RDS内に設定されたD:¥S3¥ディレクトリ内のデータをrds_upload_to_s3で S3 に出力可能です
  17. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 補足: Zero-ETL Integration with Amazon Redshift を利用したデータ連携 17 データソースからETL不要でRedshiftに連携 ニアリアルタイムの分析を簡単で安全な方法で提供 Amazon Aurora 等 Amazon Redshift Transactional Applications Analytics Analyst Zero-ETL integration ※この場合、データレイクを通さずにDWHに連携されるので、データレイクへの保存はRedshift の S3 連携機能で別途実施 する必要がある • Amazon Aurora MySQL zero-ETL integration with Amazon Redshift (一般提供開始) • Amazon Aurora PostgreSQL zero-ETL integration with Amazon Redshift (Preview) • Amazon RDS for MySQL zero-ETL integration with Amazon Redshift (Preview) • Amazon DynamoDB zero-ETL integration with Amazon Redshift (Preview)
  18. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark. RDBのデータを取り込む ための手法
  19. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 データソースの更新をどう反映させるか ソースの更新をどのようにデータレイクへ反映するかは検討しておくべきポイント 基本的には、分析するためのデータは「履歴」であるべき(過去も今も記録する) 手法を検討する際のポイント • データサイズ • 差分の抽出方法 • 更新の反映方法 • 保存フォーマット 19
  20. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 データサイズ ソースのデータサイズはもっとも重要なファクター • 全体サイズと、日々の更新サイズ • データソースとAWS間のネットワーク帯域も確認 全体サイズが小さい場合、手法の選択肢が多くなる • 全部毎回コピーしても良い データサイズが巨大な場合、どう差分を抽出するか?の検討が必要に 20
  21. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 差分抽出の方法 1/2 • 更新時刻を判断できる列がある場合は、そこを条件に SELECTする もしくはその列をつけるよう改修(とても難しい) • 判断列が無い場合は規約(XXか月前までは更新される可能 性)の有無を確認し、差分抽出範囲を抑えられないか を検討 • それも不明な場合はCDC(更新ログ転送)で検討 (CDCのパフォーマンスボトルネックやトラブル時の対応について、考慮 が必要) => AWS DMS や、各種商用ソフトウェア 21 Tran ID Price Last update 0011 100 2023-11-22 11:22 0012 200 2023-11-22 11:23 : 0030 105 2023-11-24 21:40
  22. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 差分抽出の方法 2/2 どのタイミングで更新差分を取得するか? データの更新頻度にあわせた取得頻度の検討 マスターのように更新頻度が少ないものを毎日取得する必要はない とはいえ、データソース側で更新頻度を確定できない場合も多い ビジネス的な意味で整合性が取れたデータを取得する ビジネス的な整合性がとれていない/未完了のデータは分析に利用しづらい 例:船での運搬記録表- 到着日時は船が到着後にしか分からないが、到着前のデータは分析にはあまり 意味がない(場合が多い) 22
  23. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 更新差分をCDCで抽出する AWS DMS を利用した差分抽出の場合 AWS Database Migration Service (DMS) はデータソース(RDB)のトランザクションログ から差分を抽出し、 S3 に差分を出力することが可能 以下のような更新差分ファイルが S3 にPUTされるので、これ適切にS3内にマージする後処理 が必要 I,101,Smith,Bob,4-Jun-14,New York U,101,Smith,Bob,8-Oct-15,Los Angeles U,101,Smith,Bob,13-Mar-17,Dallas D,101,Smith,Bob,13-Mar-17,Dallas I=Insert, U=Update, D=Delete を表すフラグ列 参照: https://docs.aws.amazon.com/ja_jp/dms/latest/userguide/CHAP_Target.S3.html 23
  24. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 更新の反映 – マスター マスターは変更頻度が低く、サイズも小さい事が多い (差分で取らなくても良い) 版管理のイメージでデータレイク上に保持する 例:2023年度製造番号マスター データレイク上の表現方法は、 ①別データ(別表)として分ける ②1表に入れ、バージョン番号を列に持つ 24 2021年度 製造番号 ファイル.csv 2022年度 製造番号 ファイル.csv 2023年度 製造番号 ファイル.csv ①別表として保存 ②バージョン番号を列に持つ、1表に 保存 Parts ID Price Version x110 100 2020 x120 200 2020 : x110 105 2021
  25. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 更新の反映 – トランザクションデータ (1/2) トランザクションタイプのデータの場合は、一般的にデータサイズが大きく、更新も多い データソース側がInsert (追記)だけか、Update/Deleteもあるかを確認 データソース側の更新がInsert (追記)のみの場合: データレイク側でも新ファイルをバケットに追加するだけで良い 25 Amazon S3 (Bucket) file-2023-12-01.csv file-2023-12-02.csv file-2023-12-03.csv
  26. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 更新の反映 – トランザクションデータ (2/2) Update/Deleteがある場合、データレイク上の表現として追記のみで表現できないか?を検討 例)更新日時列をつけた形で追記する。 最新断面は Athena 等で必要なデータだけ抽出するVIEWで対応 データレイク上に差分を反映させる(Update/Delete)場合、洗い替えが必要になる • 全体を読んで、部分更新して、全体出力 • 実装自体は難しくない(例:AWS Glue + Spark ならSpark SQLで書ける)が、性能とコストが要 件を満たせるかが検討ポイント • パーティショニングで処理対象のファイルを限定することで性能が維持しやすくなる 26
  27. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 トランザクション可能なデータレイクとOTF データレイクに対する、より高度なニーズの増加 部分更新・削除は、既存のファイルから該当行を探して処理する必要があり、効率的に行うに は工夫が必要 タイムトラベルクエリや、スキーマエボリューション等も「S3に存在するオブジェクトをそのまま読む」 だけでは実現が難しい ストレージ(S3)と処理系(Amazon EMR, AWS Glue 等)との間に差分データ、メタデータを管 理するレイヤーを置くことで高度な操作を可能にする技術 => Open Table Format (OTF) 27
  28. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 OTFレイヤーを挟むことで高度なニーズに対応する 28 Amazon S3 その他 オブジェクト ストレージ 等 Open Table Format レイヤー Open Table Format でのデータ読み書き メタデータの管理、効率的なデータ操作 等 分散処理エンジン レイヤー データレイヤー
  29. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 Open Table Format:検討事項 • 適したユースケース • データセットが大きく、部分的な更新が発生する (小さい場合は全体書き換えでも問題ない) • タイムトラベルクエリ、スキーマエボリューション等、OTF無しでは実現困難な要件への対応 • OTFの読み書きをサポートするサービスを利用可能なケース • Apache IcebergをサポートするAWSサービスの一例:Amazon Athena , Amazon EMR , AWS Glue, Amazon Redshift • 注意点 • OTFによる追加のオーバーヘッド • (更新が高速な場合があるとはいえ)汎用RDBのような更新速度が出るものではありません • 更新が繰り返された後のパフォーマンス調整 • Apache Icebergの場合:AthenaからOPTIMIZE/VACUUMの実施、AWS Glue Catalog の 自動compaction等 29
  30. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark. データ整備の基本戦略と 性能の最適化 取り込んだデータを活用可能にする
  31. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 基本戦略 戦略1:オリジナルデータ(≒生データ)は残す 後から変えたくなった際にやり直せる 戦略2:活用を促進できるように前処理する 検討ポイント:前処理はどこまでやるべきか? データレイクは、「みんなが使うものを共有する」 一部の人しか使わないものはデータレイク外部で検討する 31
  32. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 基本戦略(続き) 戦略1:オリジナルデータは残す 戦略2:活用を促進できるように前処理する 例)3段階ぐらいのバケット構成を初期案とし、検討を進める オリジナルデータ (生データ) 必須の前処理と クエリ最適化 特定分析用データ (データマート等) 32
  33. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 2つ目のバケットでは、どのフォーマットで保存するか フォーマットはオープンであることを重視する 多様なアプリケーション・サービスからアクセス可能であること デファクトスタンダードを重視(絶対ではない) 33 構造 特徴 注意点 CSV/TSV 構造化テキスト 広く普及、シンプル 大規模時の処理速度 圧縮やパーティショニングで対応 JSON/XML 準構造化テキスト 広く普及、構造が柔軟 CSVより性能が出づらい SQLで処理しづらい Parquet 構造化バイナリ Hadoopとともに普及 列単位の読み取りが高速 レガシーツールでは未対応 オープンなファイルフォーマットの例: *非構造化データ以外
  34. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 2つ目のバケットで行う必須の前処理 ビジネス的な前処理(最低限必要な前処理)=>ジョイン可能にする • 文字コードの変換:UTF-8等に統合を検討 • IDの統一:システムで異なるIDを発行している場合等の対応 • 日付、表現の統一:日付の表現方式、タイムゾーン、大文字小文字 等 パフォーマンス面の最適化(必要に応じて)=>クエリ性能の向上 • (次スライド) 34
  35. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 性能向上のための前処理 パラメータチューニングやインデックス作成ではなく、 ファイルの配置方法を工夫することで処理性能を向上させる 1. 読む量を減らす • 圧縮 / パーティショニング / カラムナフォーマットの採用 2. 並列で読む • ファイルの分割 • Splittable (分割可能) な保存形式の採用 参考資料:「Top 10 Performance Tuning Tips for Amazon Athena」 https://aws.amazon.com/jp/blogs/big-data/top-10-performance-tuning-tips-for-amazon-athena/ 35
  36. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 圧縮とファイル分割 • 圧縮により(一般的には)性能向上と利用コストの削減を実現 圧縮データを展開するための時間より、データを読み込むまでの時間の方がはるかに長い • 適切なファイル分割はアクセスの並列性を高めるために重要 100MB~200MB程度(一般にオブジェクトストレージでは小さいファイルが大量にあると 逆に遅くなる) • ファイルサイズが大きくなる場合、Splittableなフォーマットの利用も検討 36
  37. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 Splittableなフォーマット 分割可能=分散処理で性能を発揮しやすい Splittableな圧縮フォーマット:bzip2、LZO、無圧縮 Splittableなカラムナフォーマット: • 例:Parquetの場合はRow groupの単位でSplit可能 • (各種OTFは、保存フォーマットにParquetを選択することが可能) 利用するサービスがサポートしている組み合わせかは要確認 37
  38. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 パーティショニング 列の値によって、データの保存先を変える事で読む 範囲を限定する 一般的にはHiveパーティショニング形式(右)が 推奨 パーティショニング列は、要件次第だが一般的には 日時の列が効果的 例) SELECT * FROM t1 WHERE year = 1989 なら /year=1989/ prefix以下のみを読めば良い ※カタログ側でパーティショニングを認識することで、 ユーザにはyearが列のように見えます(後述) 38
  39. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 補足:データカタログへの記録 テーブル情報 (名前、URL、登録日時等) テーブルプロパティ (オブジェクトのフォーマットに合わせた入出力形式 やバージョン等) テーブルスキーマ(表定義) テーブルパーティション パーティションが認識されている 「sample- data/location=US/year=2023/month=08/day=06・ ・・」 AWS Glue のデータカタログには以下のように登録され、各種 AWSサービスから参照可能になります 一種の表のようにアクセスが可能です 39
  40. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 まとめ - 作って終わりにせず、継続的な改善を繰り返す • データの分析・活用の速度をあげるためのデータレイク • データ取り込みは「あるがまま」受け取る • AWSサービスの機能を活用して作りこみを少なく • 基本戦略 • 戦略1:オリジナルデータ(≒生データ)は残す • 戦略2:活用を促進できるように前処理する • 更新反映をどうするかはデータソースごとに検討(サイズが重要) 40
  41. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 おしらせ AWS re:Invent Recap - ソリューション編 2024年2月開催 世界中の AWS ユーザーが集まり、 ベストプラクティスや最新情報を学ぶための年次カンファレンス 『AWS re:Invent』 AWS re:Invent Recap ソリューション編では、AWS re:Invent 2023 で発表された多くのアップデートを 各ソリューションごとに内容を厳選し、 日本のお客様向けに AWS のエキスパートがご紹介します。 業務で必要となる分野の最新情報キャッチアップに 是非お役立てください 41 https://pages.awscloud.com/japan-reinvent-recap-solution-reg.html
  42. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 アンケート&お問い合わせ先 受講後アンケートのご記入よろしくお願いいたします! 42 アンケート お問い合わせ先 Amazon RDSのスペシャリストは、お客様のご質問に お答えすることができます。 また、お客様の組織をどのようにサポートできるかについて ご相談いただくことも可能です。
  43. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 内容についての注意点 • 本資料では2023年12月7日時点のサービス内容および価格についてご説明しています。最新の情報は AWS公式ウェブサイト(http://aws.amazon.com)にてご確認ください。 • 資料作成には十分注意しておりますが、資料内の価格とAWS公式ウェブサイト記載の価格に相違が あった場合、AWS公式ウェブサイトの価格を優先とさせていただきます。 • 価格は税抜表記となっています。日本居住者のお客様には別途消費税をご請求させていただきます。 • AWS does not offer binding price quotes. AWS pricing is publicly available and is subject to change in accordance with the AWS Customer Agreement available at http://aws.amazon.com/agreement/. Any pricing information included in this document is provided only as an estimate of usage charges for AWS services based on certain information that you have provided. Monthly charges will be based on your actual use of AWS services, and may vary from the estimates provided.
  44. DB TECH SHOWCASE 2023 © 2024, Amazon Web Services, Inc.

    or its affiliates. All rights reserved. Amazon Confidential and Trademark. #dbts2023 © 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark. Thank you!