Kubeflowで作る共通データ基盤 (道半ば編)

自己紹介 - 石井正浩 - SIerとか携帯屋さんとかを経て現職 - 朝起きたら”ものもらい”ができてて左目があかない

今日話すこと - データ基盤開発の課題 - Kubeflow on GKEやってみた

CloudStorage (DataLake) 分析にいきつくまでのデータ基盤の構成はだいたい一緒お客様のデータ置き場定期的に更新されるデータ自社領域にコピー (Datalake)
DWH (data warehouse) データ取り込み (warehousing) 分析/モデリング開始 DWH (datamart) 取り込むストレージが千差万別 (GCS, S3, Box, SFTP, ...) スケジュールは顧客次第取り込める形へ変換データの外形的な異常がないか検査スキーマ生成分析用マートを作成するための大量の SQL

個別 vs 共通個別に作るときの課題 - 案外大変 - 同じことやってる割に、毎回同じような工数かかる(データエンジニア1人張り付き 1ヶ月とか)
- 一度や二度ならともかく、何回かやると飽きる(個人の感想です) - ビジネス上の価値を作るのはあとのフェーズなので、ここは小さくしたい - 案件単位で実装だととっちらかる - 技術スタックが異なってしまう - 同じ機能が微妙に異なる実装で行われる共通化するときの課題 - 権限制御ミスると死ぬ - A社にB社のデータが見えてしまった・・・ (さすがにやったことはない ) - 計算リソースの想定がしにくい - 利用者が増えれば増えたぶんだけ、スケールさせたい - 一方で利用者が少ないとき (時間帯)は小さくしておきたい

Kubeflow on GKE

Kubeflow ※Kubeflow公式ページより https://www.kubeflow.org/docs/started/kubeflow-overview/

Kubeflow Pipelineの開発 - PipelineのworkflowそのものはPythonで記述 - コンテナレベルの制御 (例えばサイドカーの設定とか )をしたいときはkubernetesの Python SDKを使う
- コンテナ内の処理はもちろん何で書いても良い - データ処理と親和性の高い Pythonを使うもよし - gcloudみたいなコマンドラインツールを走らせるもよし Pipeline(Python) 処理1 処理2 定義 (yaml) 定義 (yaml) 処理3 処理2 定義 (yaml) 定義 (yaml)

Kubeflow Pipelineの登録と実行 - 登録: UI or API経由で可能 - API経由の場合、マルチテナント環境だと少し面倒・・・ (というか、もはやバグ
) - https://github.com/kubeflow/kfctl/issues/140#issuecomment-719894529 - 実行 - 必要なパラメータをその場その場で渡して実行 - 実行ごとにProfileをわけることが可能 Pipeline (Python) yaml Compile 登録 Pipeline UserA UserB Profile A Profile B ※ multi user環境の場合 Param Param

workload identity ※GoogleCloud公式ページより https://cloud.google.com/kubernetes-engine/docs/how-to/workload-identity

workload identityとKubeflow Profile Kubeflow Profile ≒ Kubernetes namespace UserA用に権限設定されたGCP ServiceAccount 
BigQuery  A_dataset  ServiceAccount   Profile: UserA   コンテナ  B_dataset  Mapping  (workload identity)   GCS  A_bucket  B_bucket  GKE(kubernetes)   ServiceAccount   Profile: UserB   コンテナ 

まとめ - Kubeflow on GKE、良いところばっかり書きましたが辛いところも多そうです - ドキュメントはout-of-date感たっぷり、英語しかない - 一度謎に壊れたときは作り直す以外なかった (逆に言えばそういう前提で作っておくと良さそ
う) - ただ、 - GKEと組み合わせたときの使い勝手はなかなか良い - 今回の使い方にはまあハマってそう - なんとなくミライを感じる

Kubeflowで作る共通データ基盤 (道半ば編)

Kubeflowで作る共通データ基盤 (道半ば編)

JDSC

More Decks by JDSC

Other Decks in Technology

Featured

Transcript