MLパイプラインをk8sで並列分散化するOSS "kannon"の開発

MLパイプラインをk8sで並列分散化 kannonの開発 2023/04/17 Yutaro Oguri (@irungo_ic )

自己紹介名前: Yutaro Oguri (Twitter: @irungo_ic ) 所属: 東京大学電子情報工学科
B4 興味: ML, CV, Search, MLOps, DB, …など(色々) k8s歴: よくわからないままkubectl叩く(6 months) + kannon開発(1 month) 趣味: 🎻 🍶 🍺

前提知識 - 機械学習自体の知識は必要ありません！ - 基本的なデータ構造の知識 - Job, Persistent Volumeが何となくわかる

kannonとは？ - 機械学習パイプライン gokart のwrapper - ほんの少しの変更だけでパイプラインの一部をk8s jobsで並列分散実行 - 2023/03
エムスリー AIチームでのインターンで開発: 記事 - “cannon” (砲台)と同じ発音

gokartとは？ - エムスリー発の機械学習パイプラインOSS - 社内ではGKEのCronJobで運用 class TaskA(gokart.TaskOnKart): ... class TaskB(gokart.TaskOnKart):
parent_0 = gokart.TaskInstanceParameter() def requires(self): return dict(parent_0=self.parent_0) ... task_a = TaskA(param="a") task_b = TaskB(parent_0=task_a) … output = gokart.build(root) DAG ( -> means ‘requires’)

gokartの特徴: cache 機械学習で求められる再現性・再実行の容易性実行したTaskの結果をpkl形式でcache gokartはこれを前提にシングルスレッドで動く

kannonの動機機械学習パイプラインの特徴: 時間がかかるが、並列可能なことが多い ex) - k-fold 交差検証(CV) - N月分のデータを1ヶ月ごとに前処理 k8sで運用されているgokartパイプラインから
微小な変更をするだけで並列・分散したい！ 1CV = 2h, 5CV = 10h 😢 ここを5並列にできる！

kannonの使い方 class TaskA(gokart.TaskOnKart): # Change gokart.TaskOnKart -> kannon.TaskOnBullet class TaskB(kannon.TaskOnBullet):
# Change gokart.TaskOnKart -> kannon.TaskOnBullet class TaskC(kannon.TaskOnBullet): class TaskD(gokart.TaskOnKart): Kannon(...).build(task) ここをいい感じに分散したい...

kannonの仕組みここを並列分散

kannonの仕組み 1. Masterが依存関係を解決してQueueを作るここを並列分散

kannonの仕組み 2. masterがqueueを前からconsumeしていくここを並列分散

kannonの仕組み 3. 分散すべきTaskがきたらChild Jobを生成してTaskを任せるここを並列分散

kannonの仕組み 4. master, child共通のcacheに結果をsave & loadするここを並列分散

k8s的な面白さ 1. k8s in k8s - master jobがchild jobをcreate・watch 2.
分散キャッシュ - あるJobが他のJobの結果に依存する => 共通の場所(GCS Bucket)にcache 3. 分散した複数jobの制御・管理 - Task Queueを構築し、順序制御をしつつ無駄な待ち無く分散詳しく解説！

k8s的な面白さ: 分散した複数jobの制御・管理イメージ: “クロック周期”1sec、CPUのスケジューリング Queue Task D1

OSS開発: 使ってもらうには？ - ユーザがすぐにありがたみを実感できるようなQuick Starterが必要 - でもGKEはお金がかかる... - ローカルで完結させたい ...
minikubeの出番！ - ローカルで動くk8s clusterを軽量にセットアップできる - support kubectl, docker, …

minikubeを使ったTutorial作成 - キャッシュに用いるGCS Bucketはどうする？ Persistent Volumeで代替！ - ユーザが必要な環境構築は？ minikube, Dockerを入れるだけ！
Job実行に必要な環境はDockerfileに集約できる

minikubeを使ったTutorial こちら -> https://github.com/m3dev/kannon/blob/main/example/README.md ぜひお試しください！ Issue、PR、Star☆お待ちしております！

Thank You!

MLパイプラインをk8sで並列分散化するOSS "kannon"の開発

MLパイプラインをk8sで並列分散化するOSS "kannon"の開発

Yutaro Oguri

More Decks by Yutaro Oguri

Other Decks in Programming

Featured

Transcript

MLパイプラインをk8sで並列分散化 kannonの開発 2023/04/17 Yutaro Oguri (@irungo_ic )

自己紹介名前: Yutaro Oguri (Twitter: @irungo_ic ) 所属: 東京大学電子情報工学科

前提知識 - 機械学習自体の知識は必要ありません！ - 基本的なデータ構造の知識 - Job, Persistent Volumeが何となくわかる

kannonとは？ - 機械学習パイプライン gokart のwrapper - ほんの少しの変更だけでパイプラインの一部をk8s jobsで並列分散実行 - 2023/03

gokartとは？ - エムスリー発の機械学習パイプラインOSS - 社内ではGKEのCronJobで運用 class TaskA(gokart.TaskOnKart): ... class TaskB(gokart.TaskOnKart):

gokartの特徴: cache 機械学習で求められる再現性・再実行の容易性実行したTaskの結果をpkl形式でcache gokartはこれを前提にシングルスレッドで動く

kannonの動機機械学習パイプラインの特徴: 時間がかかるが、並列可能なことが多い ex) - k-fold 交差検証(CV) - N月分のデータを1ヶ月ごとに前処理 k8sで運用されているgokartパイプラインから

kannonの使い方 class TaskA(gokart.TaskOnKart): # Change gokart.TaskOnKart -> kannon.TaskOnBullet class TaskB(kannon.TaskOnBullet):

kannonの仕組みここを並列分散

kannonの仕組み 1. Masterが依存関係を解決してQueueを作るここを並列分散

kannonの仕組み 2. masterがqueueを前からconsumeしていくここを並列分散

kannonの仕組み 3. 分散すべきTaskがきたらChild Jobを生成してTaskを任せるここを並列分散

kannonの仕組み 4. master, child共通のcacheに結果をsave & loadするここを並列分散

k8s的な面白さ 1. k8s in k8s - master jobがchild jobをcreate・watch 2.

k8s的な面白さ: 分散した複数jobの制御・管理イメージ: “クロック周期”1sec、CPUのスケジューリング Queue Task D1

OSS開発: 使ってもらうには？ - ユーザがすぐにありがたみを実感できるようなQuick Starterが必要 - でもGKEはお金がかかる... - ローカルで完結させたい ...

minikubeを使ったTutorial作成 - キャッシュに用いるGCS Bucketはどうする？ Persistent Volumeで代替！ - ユーザが必要な環境構築は？ minikube, Dockerを入れるだけ！

minikubeを使ったTutorial こちら -> https://github.com/m3dev/kannon/blob/main/example/README.md ぜひお試しください！ Issue、PR、Star☆お待ちしております！

Thank You!