Upgrade to Pro — share decks privately, control downloads, hide ads and more …

クロスクラウドデータ管理の未来: BigLakeで実現するAWS S3とBigQueryのデー...

mikami
July 12, 2024

クロスクラウドデータ管理の未来: BigLakeで実現するAWS S3とBigQueryのデータ統合戦略/cross-cloud-biglake-s3-strategy-20240712

DevelopersIO 2024 OKINAWA #devio2024

mikami

July 12, 2024
Tweet

Other Decks in Technology

Transcript

  1. ⾃⼰紹介 3 クラスメソッド株式会社 データ事業本部 インテグレーション部 イニシアティブチーム 三上 裕貴(みかみ ゆき) u

    職歴 • 組み込みエンジニア • Webエンジニア u 業務内容 • データ分析基盤構築 • プロジェクト/チーム管理 • プリセールス • 採用活動
  2. おしながき • はじめに • BigQuery Omni と BigLake • BigQuery

    から S3 データにアクセスする準備 • ユースケース • 注意点 • おわりに 7
  3. BigQuery Omni と BigLake BigLake とは • Google Cloud Next

    ʻ22 で発表された、ストレージエ ンジンだよ。 • 異なるストレージシステムのデータをシームレスに クエリできるよ。 • どこのデータにも BigQuery からアクセスできるよ。 13
  4. BigQuery Omni と BigLake ※抜粋: https://cloud.google.com/biglake?hl=ja https://cloud.google.com/blog/ja/products/data-analytics/unifying-data- lakes-and-data-warehouses-across-clouds-with-biglake 14 BigLake

    は、分析エンジンと AI エンジンでマルチフォーマット、マルチクラウド、マルチモーダルのデ ータを安全かつ管理されたパフォーマンスの⾼い⽅法でクエリするための統合インターフェースを提供 するストレージ エンジンです。 BigLake は基盤となるストレージ形式やシステムを意識 することなくデータを分析できるようにするもので、デ ータの複製や移動が不要になり、コスト削減と効率化を 図ることができます。
  5. BigQuery Omni と BigLake BigQuery Omni とは • BigQuery から

    AWS や Azure にクエリできるよ。 • コンピューティングリソースを Google Cloud か ら AWS/Azure にオフロードしたよ。 • クエリの実⾏は AWS/Azure 側でやって、データ は VPN 接続で転送するよ。 15
  6. BigQuery Omni と BigLake ※抜粋:https://cloud.google.com/bigquery/docs/omni-introduction?hl=ja 16 BigQuery Omni を使⽤すると、BigLake テーブルを使⽤して、Amazon

    Simple Storage Service (Amazon S3)または Azure Blob Storage に保存されたデータに対して BigQuery 分析を実⾏できます。 BigQuery Omni は、クロスクラウドの分析ソリューションで、データが存在する場所で分析する機能と、 必要に応じてデータを複製する柔軟性を備えています。
  7. BigQuery Omni と BigLake BigLake テーブルとは • BigQuery の外部テーブルみたいなものだよ。 •

    AWS/Azure のファイルストレージをソースとし た外部テーブルも作成できるよ。 • データ移動なしでファイルデータにクエリできる よ。 17
  8. BigQuery から S3 データにアクセスする準備 1. [AWS] IAMポリシー&ロール作成 2. [Google Cloud]

    BigQuery Connection 作成 3. [AWS] IAMロール更新 4. [Google Cloud] BigLakeテーブル作成 21
  9. 2. [Google Cloud] BigQuery Connection 作成 23 $ bq mk

    --connection --connection_type='AWS' ¥ --iam_role_id=arn:aws:iam::10XXXXXXXX08:role/temp_biglake_mikami ¥ --location=aws-us-east-1 ¥ temp_biglake Connection 79XXXXXXXX23.aws-us-east-1.temp_biglake successfully created Please add the following identity to your AWS IAM Role 'arn:aws:iam::10XXXXXXXX08:role/temp_biglake_mikami' Identity: '1066XXXXXXXXXXXXX3637' ※⼀部、伏字に変更しています。
  10. 4. [Google Cloud] BigLakeテーブル作成 25 $ bq --location=aws-us-east-1 mk --dataset

    ds_biglake_aws_us Dataset 'cm-da-mikami-yuki-XXXXXX:ds_biglake_aws_us' successfully created. $ bq mkdef ¥ --autodetect ¥ --source_format=CSV ¥ --connection_id=aws-us-east-1.temp_biglake ¥ --metadata_cache_mode=AUTOMATIC ¥ s3://cm-mikami-biglake/temp/sample_data.csv > schema/table_def $ bq mk --max_staleness="0-0 0 4:0:0" --external_table_definition=schema/table_def ds_biglake_aws_us.table_sample Table 'cm-da-mikami-yuki-XXXXXX:ds_biglake_aws_us.table_sample' successfully created.
  11. 注意点 • 東京リージョンではまだ使えない • BigQuery Standardエディションでは未サポート • クエリデータ量、⾏サイズ制限あり • クエリ結果:20GiB(⾮圧縮)

    • クエリ結果合計サイズ:1TB / ⽇ • ⾏の最⼤サイズ:10MiB • GROUP BY 利⽤時のクエリ結果:256 MB • 通常の BigQuery より少しお⾼い • BigQuery(オンデマンド US):$6.25 per TiB • Omni(オンデマンド AWS バージニア北部):$7.82 per TiB • やっぱりちょっと遅い(?) 36 ※参考:https://cloud.google.com/bigquery/docs/omni-introduction?hl=ja#limitations https://cloud.google.com/bigquery/quotas?hl=ja#query_jobs https://cloud.google.com/bigquery/pricing
  12. 41