【Apache Iceberg実践 ! ベストプラクティス】BigQueryのデータを低コストでSnowflakeから読めるようにするためにIcebergを使う / Using Iceberg for Cost-Effective BigQuery Data Access from Snowflake

© LayerX Inc. BigQueryのデータを低コストで Snowﬂakeから読むためにIcebergを使う 2026/06/11 Apache Iceberg実践 ! ベストプラクティス
@civitaspo

⾃⼰紹介

© LayerX Inc. 3 バクラク事業部 BizOps部データグループマネージャー兼 Platform
Engineering部 SRE Snowﬂake Data Superhero 2026 Snowﬂake九州ユーザー会主宰 Links 𝕏 civitaspo civitaspo.com civitaspo その他画像を⼊れてね civitaspo （ｷﾋﾞﾀｽﾎﾟ/ きびちゃん）⾃⼰紹介

会社紹介

© LayerX Inc. 5 会社紹介出典: シリーズBで150億円を調達。エンジニアの採⽤を強化し、AIエージェント事業をさらに加速 / ニュース /
株式会社LayerX

© LayerX Inc. 6 会社紹介資産運⽤サービス ALTERNA（オルタナ）エンタープライズ向け AIプラットフォームバックオフィス向け
AIエージェントサービス Fintech事業 Ai Workforce事業バクラク事業

7 「バクラク」の事業領域 Coming Soon AIエージェント HCM領域 (人的資本管理) 稟議・ワークフロー領域 BSM
/ ARM領域（債務・債権管理） Payment 領域

© LayerX Inc. 8 バクラクのAI Agent機能バクラク債権管理、「⼊⾦消込エージェント」を提供開始。⽇々のログイン不要で⼊⾦確認から消込まで⾃動化差し戻しゼロへ。バクラク、AIエージェント「AI申請レビュー」をリリース。 AIが⾃社の規程‧ルールに基づき経費精算申請を即時レビュー
LayerX、「バクラクAIエージェント」の新機能として「領収書分割エージェント」を提供開始 AIエージェント「AI明細仕訳」をリリース。明細OCR×⽣成AIで、明細⾏が多い‧毎回取引内容が変わる請求書の処理を⾃動化。 - バクラクバクラク経費精算、AIが申請不備を検知‧指摘する「AI申請レビュー」全ユーザーへの提供開始〜9割の企業が抱える「⼿戻り」を解消。設定機能アップデートにより、⾃社規定のAI実装が容易に LayerX、「バクラクAIエージェント」の新機能として「AI勤怠初期設定」を提供開始 AIが就業規則を読み解き、複雑な有給休暇の付与ルールを⾃動提案

今⽇のトピック

12 © LayerX Inc. BigQueryのデータを "可能な限り安く" Snowﬂake で読みたい！！ Google Analytics
や Google Ads など BigQuery との連携が強いサービスが存在する。これらのデータを “可能な限り安く” Snowﬂake で読めるようにしたい。今⽇のトピック夢の技術！

© LayerX Inc. 14 • 今⽇のトピックは「データ転送の⼿段としてIcebergテーブルを利⽤した」話です。 • Iceberg spec の詳細など
Iceberg という技術そのものへの深掘りは控えめとなっています。 • また、時間の都合上、細かな制約に対するアプローチは記載していません。懇親会でお話できればと思っています!!! • ぜひお話しましょう！！！おことわり今⽇のトピック

⽬次 Agenda • ✅ ⾃⼰紹介 / 会社紹介 • ✅ 今⽇のトピック
• "可能な限り安く" #とは • Snowﬂake から BigQuery を Read する選択肢 • BigQuery Extract Job で出⼒した Parquet を Snowﬂake-managed Iceberg Table へ格納する • ハマりどころ • まとめ

"可能な限り安く" #とは

17 © LayerX Inc. "可能な限り安く" #とは今⽇の真のトピック

SnowﬂakeからBigQueryをReadする選択肢

© LayerX Inc. 19 1. Snowflake UDTF / Procedure から
BigQuery へ直接クエリ 2. Snowflake Openflow 3. BigQuery-managed Iceberg Table を Snowflake から参照する 4. BigQuery Extract Job で出⼒した Parquet を Snowflake-managed Iceberg Table へ格納 SnowflakeからBigQueryをReadする選択肢 SnowflakeからBigQueryをReadする選択肢

© LayerX Inc. 20 • Snowflake は Python や JavaScript
で UDTF/Procedure を書ける • そのため、直接 BigQuery の API を call してデータを取得することが可能 • 構成的には⼀番シンプルになる • ⼀⽅、クエリするたびに BigQuery 側にコストがかかる上、データ転送コストもかかる • また、データ量によっては UDTF/Procedure が OOM を起こすこともあり、⽤途が限定的 Snowflake UDTF / Procedure から BigQuery へ直接クエリ SnowflakeからBigQueryをReadする選択肢

© LayerX Inc. 21 • Snowflake が提供する Apache Nifi のマネージドサービス
• BigQuery から incremental sync するコネクタが提供されている • すでに Openflow を運⽤しているなら良い選択肢だが、BigQuery からのデータ取得のためだけに構築‧運⽤するのは過剰 Snowflake Openflow SnowflakeからBigQueryをReadする選択肢 ref. About the Openflow Connector for Google BigQuery | Snowflake Documentation ref. Snowflake Openflow Unlocks Full Data Interoperability, Accelerating Data Movement for AI Innovation

© LayerX Inc. 22 • 6/2 に Snowflake の BigLake
Metastore に対するカタログ統合がGA になった • Iceberg らしい interoperability のある構成になる • ⼀⽅、既存 BigQuery Native Table を対象とする場合、Iceberg Tableへ変換し続ける必要がある ◦ BigQuery 側でデータパイプラインを組む必要がある • また、BigQuery の Iceberg テーブルには多くの制約があり、データ操作時にメンタルモデルを変えてオペレーションする必要がある BigQuery-managed Iceberg Table を Snowflake から参照する SnowflakeからBigQueryをReadする選択肢 ref. https://docs.cloud.google.com/bigquery/docs/biglake-iceberg-tables-in-bigquery#limitations

BigQuery Extract Jobで出⼒したParquetを Snowﬂake-managed Iceberg Tableへ格納

© LayerX Inc. 24 最終的に、BigQuery Extract Jobで出⼒したParquetを Snowﬂake-managed Iceberg Tableへ格納する⽅針を採⽤した
BigQuery Extract Job で出⼒した Parquet を Snowﬂake-managed Iceberg Table へ格納する BigQuery Extract Jobで GCSへParquetファイルを格納 COPY LOAD_MODE = ADD_FILES_COPY 構⽂で ParquetファイルをIcebergのデータファイルとしてコピーして登録

© LayerX Inc. 25 • BigQuery の Extract Job は
BigQuery Table のデータを Parquet 含む様々なフォーマット‧圧縮形式でGCSへ出⼒できる • 出⼒上限も⾮常に⼤きい ◦ プロジェクトあたり1⽇50TiBまで無料 ◦ Job数上限もプロジェクトあたり1⽇100,000 • Partition 単位の出⼒もサポートしており、⽇々の増分更新にも使える BigQuery Extract Job で GCS へ Parquet ファイルを置く BigQuery Extract Job で出⼒した Parquet を Snowﬂake-managed Iceberg Table へ格納する ref. https://docs.cloud.google.com/bigquery/quotas#export_jobs

© LayerX Inc. 26 • Snowflakeのmanaged iceberg tableには、データをロードする⽅式に LOAD_MODE
= ADD_FILES_COPY が存在 • 外部に存在する Paquet ファイルをコピーして、そのまま Iceberg テーブルのデータファイルとして登録する • Parquet ファイルを Snowflake 側で extract せずにコピーするだけなので、ロードコストが⼤幅に抑えることができる GCS上のParquetファイルをSnowflake-managed Iceberg Table のデータファイルとしてコピーして登録 BigQuery Extract Job で出⼒した Parquet を Snowflake-managed Iceberg Table へ格納する ref. Snowflake-managed Iceberg table の COPY LOAD_MODE = ADD_FILES_COPY の仕様をドキュメントと実測から理解する - LayerX エンジニアブログ

ハマりどころ

© LayerX Inc. 28 • Snowﬂakeのmanaged iceberg tableには、 CLUSTER BYというクラスタリングキーを指
定する機能がある • が、ADD_FILES_COPY は外部に存在する Paquet ファイルをコピーして、そのまま Iceberg テーブルのデータファイルとして登録するのみなので、CLUSTER BY を考慮しない • そのため、Parquet ファイル作成時点で、パフォーマンスを考慮してデータ配置を考える必要がある • BigQueryからの転送では、BigQueryの Partition単位でファイルを分割すれば良い CLUSTER BY を指定してもファイル配置は変わらないハマりどころ ref. Snowﬂake-managed Iceberg table の COPY LOAD_MODE = ADD_FILES_COPY の仕様をドキュメントと実測から理解する - LayerX エンジニアブログ実測: scan bytes は CLUSTER BY ではなくソース配置で変わる WHERE "dt" = DATE '2026-01-05' 27.6 MB なし 27.6 MB あり 2.8 MB なし 2.8 MB あり日付混在ファイル日付分割ファイル CLUSTER BY なし CLUSTER BY あり

© LayerX Inc. 29 • ADD_FILES_COPY は struct / list
/ map を VARIANT に変換しない。コピー先は互換な構造化データ型で定義する • BigQuery Extract Job は JSON 型を Parquet に変換できないネスト型は VARIANT 型のカラムへ格納できないハマりどころ ref. Snowﬂake-managed Iceberg table の COPY LOAD_MODE = ADD_FILES_COPY の仕様をドキュメントと実測から理解する - LayerX エンジニアブログロード対象 Parquet schema struct(a string, b number) list<struct(a, b)> map<string, number> Iceberg / Parquet のネスト型互換なコピー先 OBJECT(a varchar, b number) ARRAY(OBJECT(a varchar, b number)) MAP(varchar, number) 成功 ﬁeld 名・型・順序が互換であることが前提汎用 VARIANT へ投入 VARIANT 失敗 Parquet 側も Iceberg v3 VARIANT 形式である場合だけ別

© LayerX Inc. 30 • ADD_FILES_COPY はロード時点のテーブル定義で data file を登録する。後から⾜した
field は復元されない • COPY の前に schema 差分を⾒つけ、許容できる差分だけ先に ALTER する Schema Evolution は COPY 前に⾏う必要があるハマりどころ ref. Snowflake-managed Iceberg table の COPY LOAD_MODE = ADD_FILES_COPY の仕様をドキュメントと実測から理解する - LayerX エンジニアブログ OK NG 差分検出 Parquet に c がある ALTER OBJECT(a,b,c) へ拡張 COPY ADD_FILES_COPY 実行参照可能 c の値を読める COPY OBJECT(a,b) のまま実行 ALTER 後から c を追加参照不可ロード済み行の c は NULL 復元不能 data file から補完されない実装ルール COPY 前に schema compatibility gate を置く。許容差分は ALTER ICEBERG TABLE で先に反映し、許容できない差分は COPY 前に止める。

まとめ

© LayerX Inc. 32 • civitaspo/dbt-snowﬂake-iceberg-sync • dbt の package
として提供しているので、Snowﬂake × dbt で BigQuery のデータを取得したい⼈は使ってみてね！！他にも多々ハマりどころがあったのでOSSにしましたまとめ

© LayerX Inc. 33 • 弊社では、⼀緒に働く仲間を⼤募集しています！！！！ • Production-ReadyなAI開発をサポートするためのデータ基盤開発、時系列データ処理、リアルタイムデータパイプラインの構築などに興味がある⽅、そして、データ基盤を事業成⻑のドライバーだと信じて⽌まない⽅は、ぜひ⼀緒にチャレンジしましょう！！！
【バクラク】データエンジニア【バクラク】アナリティクスエンジニア We are hiring!!! おわりに

おわり

【Apache Iceberg実践 ! ベストプラクティス】BigQueryのデータを低コスト...

【Apache Iceberg実践 ! ベストプラクティス】BigQueryのデータを低コストでSnowflakeから読めるようにするためにIcebergを使う / Using Iceberg for Cost-Effective BigQuery Data Access from Snowflake

Civitaspo

More Decks by Civitaspo

Other Decks in Technology

Featured

Transcript

© LayerX Inc. BigQueryのデータを低コストで Snowﬂakeから読むためにIcebergを使う 2026/06/11 Apache Iceberg実践 ! ベストプラクティス

⾃⼰紹介

© LayerX Inc. 3 バクラク事業部 BizOps部データグループマネージャー兼 Platform

会社紹介

© LayerX Inc. 5 会社紹介出典: シリーズBで150億円を調達。エンジニアの採⽤を強化し、AIエージェント事業をさらに加速 / ニュース /

© LayerX Inc. 6 会社紹介資産運⽤サービス ALTERNA（オルタナ）エンタープライズ向け AIプラットフォームバックオフィス向け

7 「バクラク」の事業領域 Coming Soon AIエージェント HCM領域 (人的資本管理) 稟議・ワークフロー領域 BSM

© LayerX Inc. 9 バクラクのAI Agent機能バクラク、蓄積された⽀出データをAIが分析‧可視化する「バクラクインテリジェンス」を提供開始。作業不要で、グラフから証憑をワンクリックで確認

© LayerX Inc. 10 バクラクのAI Agent機能バクラクビジネスカード、AIサービスの利⽤状況とコストを可視化する「AIトークンアドバイザー」を提供開始

今⽇のトピック

12 © LayerX Inc. BigQueryのデータを "可能な限り安く" Snowﬂake で読みたい！！ Google Analytics

© LayerX Inc. 13 今⽇のトピック Snowﬂake導⼊から1年、LayerXのデータ活⽤の現在今⽇の話はココの話

© LayerX Inc. 14 • 今⽇のトピックは「データ転送の⼿段としてIcebergテーブルを利⽤した」話です。 • Iceberg spec の詳細など

⽬次 Agenda • ✅ ⾃⼰紹介 / 会社紹介 • ✅ 今⽇のトピック

"可能な限り安く" #とは

17 © LayerX Inc. "可能な限り安く" #とは今⽇の真のトピック

SnowﬂakeからBigQueryをReadする選択肢

© LayerX Inc. 19 1. Snowﬂake UDTF / Procedure から

© LayerX Inc. 20 • Snowﬂake は Python や JavaScript

© LayerX Inc. 21 • Snowﬂake が提供する Apache Niﬁ のマネージドサービス

© LayerX Inc. 22 • 6/2 に Snowﬂake の BigLake

BigQuery Extract Jobで出⼒したParquetを Snowﬂake-managed Iceberg Tableへ格納

© LayerX Inc. 24 最終的に、BigQuery Extract Jobで出⼒したParquetを Snowﬂake-managed Iceberg Tableへ格納する⽅針を採⽤した

© LayerX Inc. 25 • BigQuery の Extract Job は

© LayerX Inc. 26 • Snowﬂakeのmanaged iceberg tableには、データをロードする⽅式に LOAD_MODE

ハマりどころ

© LayerX Inc. 28 • Snowﬂakeのmanaged iceberg tableには、 CLUSTER BYというクラスタリングキーを指

© LayerX Inc. 29 • ADD_FILES_COPY は struct / list

© LayerX Inc. 30 • ADD_FILES_COPY はロード時点のテーブル定義で data ﬁle を登録する。後から⾜した

まとめ

© LayerX Inc. 32 • civitaspo/dbt-snowﬂake-iceberg-sync • dbt の package

おわり