Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Kubeflowで作る共通データ基盤 (道半ば編)
Search
JDSC
August 19, 2021
Technology
1
270
Kubeflowで作る共通データ基盤 (道半ば編)
合同勉強会での資料です。
JDSC
August 19, 2021
Tweet
Share
More Decks by JDSC
See All by JDSC
JDSC採用ページⅡ
jdsc
0
3.6k
JDSC採用ページ
jdsc
1
69k
Data Meshと私
jdsc
0
210
家電製品の異常検知 (Case Study)
jdsc
0
520
鉄道省エネに向けた車上データ活用事例の紹介
jdsc
0
740
InterpretMLと Explainable Boosting Machineのススメ
jdsc
1
2.6k
Google Cloud Build とAI Platformではじめる軽量MLOps pipelineとAlphaSQL
jdsc
0
470
JDSCの事業・技術
jdsc
0
18k
JDSCの人・カルチャー
jdsc
0
18k
Other Decks in Technology
See All in Technology
共有と分離 - Compose Multiplatform "本番導入" の設計指針
error96num
2
1.1k
5分でカオスエンジニアリングを分かった気になろう
pandayumi
0
260
「Linux」という言葉が指すもの
sat
PRO
4
140
フルカイテン株式会社 エンジニア向け採用資料
fullkaiten
0
8.8k
バイブスに「型」を!Kent Beckに学ぶ、AI時代のテスト駆動開発
amixedcolor
2
580
5年目から始める Vue3 サイト改善 #frontendo
tacck
PRO
3
230
Oracle Cloud Infrastructure IaaS 新機能アップデート 2025/06 - 2025/08
oracle4engineer
PRO
0
110
今日から始めるAWSセキュリティ対策 3ステップでわかる実践ガイド
yoshidatakeshi1994
0
120
IoT x エッジAI - リアルタイ ムAI活用のPoCを今すぐ始め る方法 -
niizawat
0
120
roppongirb_20250911
igaiga
1
240
AWSで始める実践Dagster入門
kitagawaz
1
740
Claude Code でアプリ開発をオートパイロットにするためのTips集 Zennの場合 / Claude Code Tips in Zenn
wadayusuke
5
1k
Featured
See All Featured
The Language of Interfaces
destraynor
161
25k
The World Runs on Bad Software
bkeepers
PRO
70
11k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
8
930
Designing Experiences People Love
moore
142
24k
Mobile First: as difficult as doing things right
swwweet
224
9.9k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
33
2.4k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
131
19k
Agile that works and the tools we love
rasmusluckow
330
21k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
285
14k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
Producing Creativity
orderedlist
PRO
347
40k
How STYLIGHT went responsive
nonsquared
100
5.8k
Transcript
Kubeflowで作る共通データ基盤 (道半ば編)
自己紹介 - 石井 正浩 - SIerとか携帯屋さんとかを経て現職 - 朝起きたら”ものもらい”ができてて左目が あかない
今日話すこと - データ基盤開発の課題 - Kubeflow on GKEやってみた
CloudStorage (DataLake) 分析にいきつくまでのデータ基盤の構成はだいたい一緒 お客様の データ置き場 定期的に更新さ れるデータ 自社領域に コピー (Datalake)
DWH (data warehouse) データ取り込み (warehousing) 分析/モデリング 開始 DWH (datamart) 取り込むストレージが千差万別 (GCS, S3, Box, SFTP, ...) スケジュールは顧客次第 取り込める形へ変換 データの外形的な異常がないか検査 スキーマ生成 分析用マートを作成するための大量の SQL
個別 vs 共通 個別に作るときの課題 - 案外大変 - 同じことやってる割に、毎回同じような工 数かかる(データエンジニア1人張り付き 1ヶ月とか)
- 一度や二度ならともかく、何回かやると 飽きる(個人の感想です) - ビジネス上の価値を作るのはあとの フェーズなので、ここは小さくしたい - 案件単位で実装だととっちらかる - 技術スタックが異なってしまう - 同じ機能が微妙に異なる実装で行われ る 共通化するときの課題 - 権限制御ミスると死ぬ - A社にB社のデータが見えてしまった・・・ (さすがにやったことはない ) - 計算リソースの想定がしにくい - 利用者が増えれば増えたぶんだけ、 スケールさせたい - 一方で利用者が少ないとき (時間帯)は 小さくしておきたい
Kubeflow on GKE
Kubeflow ※Kubeflow公式ページより https://www.kubeflow.org/docs/started/kubeflow-overview/
Kubeflow Pipelineの開発 - PipelineのworkflowそのものはPythonで記述 - コンテナレベルの制御 (例えばサイドカーの設定とか )をしたいときはkubernetesの Python SDKを使う
- コンテナ内の処理はもちろん何で書いても良い - データ処理と親和性の高い Pythonを使うもよし - gcloudみたいなコマンドラインツールを走らせるもよし Pipeline(Python) 処理1 処理2 定義 (yaml) 定義 (yaml) 処理3 処理2 定義 (yaml) 定義 (yaml)
Kubeflow Pipelineの登録と実行 - 登録: UI or API経由で可能 - API経由の場合、マルチテナント環境だと少し面倒・・・ (というか、もはやバグ
) - https://github.com/kubeflow/kfctl/issues/140#issuecomment-719894529 - 実行 - 必要なパラメータをその場その場で渡して実行 - 実行ごとにProfileをわけることが可能 Pipeline (Python) yaml Compile 登録 Pipeline UserA UserB Profile A Profile B ※ multi user環境の場合 Param Param
workload identity ※GoogleCloud公式ページより https://cloud.google.com/kubernetes-engine/docs/how-to/workload-identity
workload identityとKubeflow Profile Kubeflow Profile ≒ Kubernetes namespace UserA用に権限設定されたGCP ServiceAccount
BigQuery A_dataset ServiceAccount Profile: UserA コンテナ B_dataset Mapping (workload identity) GCS A_bucket B_bucket GKE(kubernetes) ServiceAccount Profile: UserB コンテナ
まとめ - Kubeflow on GKE、良いところばっかり書きましたが辛いところも多そうです - ドキュメントはout-of-date感たっぷり、英語しかない - 一度謎に壊れたときは作り直す以外なかった (逆に言えばそういう前提で作っておくと良さそ
う) - ただ、 - GKEと組み合わせたときの使い勝手はなかなか良い - 今回の使い方にはまあハマってそう - なんとなくミライを感じる