Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[ELTツール×BigQuery] どのAPI使ってる?それぞれのAPIについて調べてみた /...
Search
Miyamotok
March 08, 2022
Technology
0
560
[ELTツール×BigQuery] どのAPI使ってる?それぞれのAPIについて調べてみた / elttool-bigquery-which-api
Web API LT会 - vol.3 #webapilt
2022/03/08
Miyamotok
March 08, 2022
Tweet
Share
More Decks by Miyamotok
See All by Miyamotok
Amazon Appflow で Salesforce to Snowflake へのデータローディング(EL)をやってみた / appflow-salesforce-snowflake-dataloading
miyamotok
0
580
ノーコード×分析基盤で複数データソースからのデータ収集を楽しようの話 / multi-saas-data-extract
miyamotok
0
380
Amazon Appflow で SaaS データ取込みを自動化してQuickSightで可視化してみた / appflow-salesforce-quicksight
miyamotok
0
5.6k
AWS Glue を試してみたら、カスタムコネクタのありがたさを感じたこと / awsglue-custom-connector
miyamotok
0
1.9k
最近使ったETL、ELTサービス(ツール)でデータ収集タスクについて考える / etl-elt-datacollect-task
miyamotok
1
3k
_CDataSync_SaaSデータのバックアップ_.pdf
miyamotok
0
1.2k
Other Decks in Technology
See All in Technology
2025-07-06 QGIS初級ハンズオン「はじめてのQGIS」
kou_kita
0
180
SEQUENCE object comparison - db tech showcase 2025 LT2
nori_shinoda
0
210
CDKコード品質UP!ナイスな自作コンストラクタを作るための便利インターフェース
harukasakihara
2
140
Glacierだからってコストあきらめてない? / JAWS Meet Glacier Cost
taishin
1
180
NewSQLや分散データベースを支えるRaftの仕組み - 仕組みを理解して知る得意不得意
hacomono
PRO
3
190
いつの間にか入れ替わってる!?新しいAWS Security Hubとは?
cmusudakeisuke
0
140
american airlines®️ USA Contact Numbers: Complete 2025 Support Guide
supportflight
1
110
OSSのSNSツール「Misskey」をさわってみよう(右下ワイプで私のOSCの20年を振り返ります) / 20250705-osc2025-do
akkiesoft
0
170
開発生産性を組織全体の「生産性」へ! 部門間連携の壁を越える実践的ステップ
sudo5in5k
3
7.5k
【LT会登壇資料】TROCCO新コネクタ「スマレジ」を活用した直営店データの分析
kazari0425
1
110
FOSS4G 2025 KANSAI QGISで点群データをいろいろしてみた
kou_kita
0
410
公開初日に Gemini CLI を試した話や FFmpeg と組み合わせてみた話など / Gemini CLI 初学者勉強会(#AI道場)
you
PRO
0
230
Featured
See All Featured
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
3.9k
Site-Speed That Sticks
csswizardry
10
690
We Have a Design System, Now What?
morganepeng
53
7.7k
Faster Mobile Websites
deanohume
307
31k
It's Worth the Effort
3n
185
28k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
50
5.5k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
44
2.4k
KATA
mclloyd
30
14k
How to Ace a Technical Interview
jacobian
278
23k
Building a Modern Day E-commerce SEO Strategy
aleyda
42
7.4k
The Pragmatic Product Professional
lauravandoore
35
6.7k
Speed Design
sergeychernyshev
32
1k
Transcript
[ELTツール×BigQuery] どのAPI使ってる?それぞれの APIについて調べてみた Web API LT会 - vol.3 #webapilt 2022/03/08
CData Software Japan 宮本
自己紹介 宮本 航太(@miyamon44) CData Software Japan 合同会社 →主にSaaSのAPIにSQLでアクセスできるコネクタや アプリケーションを開発・提供 テクニカルサポートエンジニア
→ELTツールの CData Syncの製品サポートを中心に、他社サー ビスとの検証、技術ブログ、コネクタ開発など色々やってる
ある日のお問合せにて Salesforce のリード情報を BigQuery にレプリケーションしたんだけど、 1回目は成功したんだが、 数分後すぐに2回目を実行すると失敗してしまう ジョブ構成などをヒアリングした結果、BigQuery のストリーミングAPI を使用してレ
プリケーションしていることがわかった ETL/ELT Tool
ストリーミングAPI • ストリーミングAPIは、insertAll というエンドポイントにリクエストしてデータを送信。 レコード自体はBodyにJSON型でリクエスト POST /v2/projects/{projectId}/datasets/{datasetId}/tables/{tableId}/insertAll • 特徴としてはデータ送信後にすぐ反映されるので、センサー情報などリアルタイムでモニタリングするようなケースには マッチ
BigQuery へのレプリケーション 【洗替方式】 毎回テーブル再作成で全件レプリケーション 【差分連携】 連携用テーブルを用意してそこに差分データだけ連携。 連携後は本番テーブルにレコードをマージ。例えば Dataform や dbt
などの変換 サービスを使ったり。
再現確認&原因 【再現確認】 洗替方式の内容*1を順番に Postman でリクエストして確認 *1: テーブル削除 → テーブル作成 →
ストリーミングインサート 【原因】 同名のテーブル再作成だと、テーブルが BigQuery に再作成してから数分 間の間は物理的に反映されないのがわかった。 BigQuery のコンソール画 面からテーブルサイズを見ても 0バイトのまま ※試した内容はQiitaに https://qiita.com/miyamotok/items/7036758013893b94aceb
他にないか調べた ストリーミングAPI 以外のデータ転送系APIの確認 • JSONじゃなくてSQLでリクエストできる Query API • 転送内容をアップロード&アップロード用ジョブを作成して実行する Upload
API
Query API • insertAll のように送信レコードを JSONで送るのではなく、SQLをBigQueryに送信する。 POST /v2/projects/{projectId}/queries • 同期型なので失敗した場合はBigQuery側には反映されない。
ただし成功すると即座にテーブル自体も反映される。 ➡ テーブル再作成を頻繁に行うケースでも対応できるので、こっちを案内
Upload API • upload API BigQueryの一時ストレージに対象データをアップロードしてロード用ジョブを作成する POST /upload/bigquery/v2/projects/projectId/jobs • 大量レコードを反映したい場合などに向いている
おまけ(Write API) ストリーミングAPIとバッチ処理を一つにまとめたAPIがつい最近リリース!! ストリーミングAPIがいつの間にか古くなってた。今後 はWriteAPIを推奨のようで。
まとめ • ELTサービス/ツールで利用APIを指定できるか?(転送方式を変更できるか) • ユースケースにマッチする API(エンドポイント)はどれか? • 最終的にはパフォーマンスやコストなども考慮 • 今後はWrite
APIが良さそうかも ツールやサービス利用時はぶっちゃけあまり意識しない部分 とは言え、オプションで BigQueryのAPIを選択できるかなどいくつかの観点で確認してみるのも◎ ETL/ELT ツールの CData Sync では指定可能 左記ブログで各種転送方式とパフォーマンスについて紹介してます Thank you!