Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Cloud Dataflow
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
株式会社Curious Vehicle
February 14, 2025
19
0
Share
Cloud Dataflow
株式会社Curious Vehicle
February 14, 2025
More Decks by 株式会社Curious Vehicle
See All by 株式会社Curious Vehicle
PQCが変える暗号の世界
curicle
0
15
最近流行ってるClaudeについて
curicle
0
6
ElasticsearchのHA構成について
curicle
0
11
機械学習で絶対音感になりたかった
curicle
0
13
BQにおけるSQLアンチパターンとslot消費削減策
curicle
0
16
VibeKanbanについて
curicle
0
10
"バーチャル宮本さん"を作ってみた
curicle
0
8
"バーチャル宮本さん” 本番デプロイ編
curicle
0
14
最近課金しているAIサービスについて
curicle
0
15
Featured
See All Featured
Typedesign – Prime Four
hannesfritz
42
3k
Paper Plane (Part 1)
katiecoart
PRO
0
6.4k
エンジニアに許された特別な時間の終わり
watany
106
240k
ラッコキーワード サービス紹介資料
rakko
1
2.9M
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
250
4 Signs Your Business is Dying
shpigford
187
22k
Pawsitive SEO: Lessons from My Dog (and Many Mistakes) on Thriving as a Consultant in the Age of AI
davidcarrasco
0
100
A brief & incomplete history of UX Design for the World Wide Web: 1989–2019
jct
1
340
The Curious Case for Waylosing
cassininazir
0
290
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
780
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
210
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
1.9k
Transcript
Cloud Dataflow by Google Cloud Platform
contents • Dataflowとは • Dataflow機能概要 • デモ • まとめ •
Code Tips
Dataflow とは Cloud Dataflow Cloud Dataflow • Dataflowとは ストリーム処理とバッチ処理をフルマネー ジドしてくれるサービス
• GCPを利用することでサーバなどの運用を気にせず データ処理を簡単に実装できる • リソース周りもオートスケールで管理してくれるのでリ ソース管理も不要となる • Java, Python, Goなどの言語で開発可能 (Apache Beam SDK)
Dataflow 構成概要 BigQuery Bigtable Datastore Cloud PubSub Cloud Storage Dataflow
What can dataflow do • Pipeline • Transform • Window
& Trigger • PipelineIO • Groupby & Combine
Pipeline • 各種入力チェックや処理の流れを Pipelineとして自由に組み立てられます • Pipelineを利用して処理の分岐や結合する ことも可能です
Transform • 入力は ファイルであれば1行、DBであれば1レコードづつが Transformのinputとし 各種データ変換処理を行うブロックです • Transformの処理は並列処理されます (ParDo)
PipelineIO • データの流入元と出力先 (始点と終点)のライブラリ群 • ベーシックなものとしては FileIOなどだが、GCP関連はほぼIOライブラリが揃っている
Window and Trigger • Windowを設定することで永続的な Stream処理とすることができます • Windowには以下のような種類がある • Fixed
Time Windows • Sliding Time Windows • Per-Session Windows • Single Global Window • Calendar Based Windows
Window and Trigger • Triggerは各種Windows内の処理を放出するタイミングを設定する • Triggerには以下のような種類がある • Event Time
Triggers • Processing Time Triggers • Data-driven Triggers • Composite Triggers
GroupBy and Combine • 並列処理されているものをまとめる処理 (flattenなどもある) • 以下GroupByの例。分散処理していたものをシーケンシャル処理する際に設定する
詳しくはコチラ https://beam.apache.org/documentation/programming-guide/
デモ
まとめ • ストリーム処理などに手を出そうと考えている人にはよいきっかけになると思う • 構成の自由度が高いので様々なデータをまとめたり中間処理を枝分かれさせたりと GCP の各機能を連携するハブとして有効な機能と思われます • 若干、遅くない?、高くない?といった部分が気になりますが、サーバーレス、 GCPとの相
性など使われる場は増えてゆきそうです
Thanks!