CyberAgent AI Labを支えるCloud実験環境 / ML Experiment Management via Cloud Computing Platform in CyberAgent AI Lab

CyberAgent AI Labを支える Cloud実験環境 PyData.Tokyo 20210526 Yuki IWAZAKI@chck / CyberAgent
AI Lab

Hello! I am Yuki IWAZAKI@chck ◦ 2014...Backend Engineer (Ruby/Scala) └2017...ML/DS
(Scala/Python) └2018-...Research Engineer in AI Lab ◦ Multimedia (Vision & Language) 2

CyberAgent AI Labの規模感人数(35) 研究領域 3

AI Labを支えるEcosystem 4

AI Labを支えるEcosystem 5

AI Labを支えるEcosystem Data selection ailab-datasets 6

tensorﬂow-datasets Public Datasetのdata loader 7 celeb_a imagenet, cifar10, mnist coco
squad iris, movielens, titatic imdb, wiki40b youtube_vis https://www.tensorflow.org/datasets/catalog/overview

tensorﬂow-datasets Public Datasetのdata loader 8 celeb_a imagenet, cifar10, mnist coco
squad iris, movielens, titatic imdb, wiki40b youtube_vis https://www.tensorflow.org/datasets/catalog/overview Dataset名を指定 Iterationの定義

tensorﬂow-datasets: load “tensorﬂow” とあるが, numpyやpandas形式で出力できる 9

tensorﬂow-datasets: load “tensorﬂow” とあるが, numpyやpandas形式で出力できる 10 tf.data numpy pandas

tensorﬂow-datasets: create tfds cliからtemplateを生成 11

13 Versioning Metadata. カラムの型の定義データの説明文引用論文のURL データのダウンロード分割方法の指定前処理含むGenerator

15 前処理含むGenerator (apache-beam pipeline)

Private dataの課題感 ◦ Private dataの管理にルールがない ◦ 全プロダクトのデータ集約基盤は Researcher向けじゃない ◦ 各々がオレオレJupyterlabで実験
◦ 前処理の冪等性担保や共有が困難 ◦ とにかく属人的で難解なSQL ◦ Public -> Private dataでの実験 ◦ インターンや新メンバーの学習コスト ◦ 急にDomain知識が必要になる preprocess preprocess preprocess product_a dataset_c product_b 16

ailab-datasets ◦ mnist.loadのようにメンテフリーに扱いたい ◦ Domain知識をコード内に埋め込みたい ◦ tensorﬂow-datasetsのwrapper ◦ Lab共通のPrivate Dataset
Loader ◦ 社内githubからpip installで利用 1. Data追加が簡単 2. ProductやTaskの単位でVersioning 3. Apache Beamによる高速な前処理 product_a product_b dataset_c product_a dataset_c product_b ailab-datasets 17

ailab-datasets product_a product_b dataset_c product_a dataset_c product_b ailab-datasets 18 ailab_datasets/
┣products/ ┃┣product_a ┃┗product_b ┣image_classiﬁcation/ ┗text_generation/

PowerfulなDataset Runner Apache BeamによりCPU並列, Worker並列が選択可能 https://towardsdatascience.com/running-an-apache-beam-data-pipeline-on-azure-databricks-c09e521d8fc3 19

ailab-datasets -> post-process 利用者がデータ規模に応じて後段の処理を自由に選択可能 20 ailab-datasets Tensorflow Transform tf.data Numpy
Pandas Dask-cuDF Distributed GPU CPU Apache Beam

AI Labを支えるEcosystem Modeling ailab-model-zoo 21

Private modelの課題感 ◦ 似たデータ,似たタスクによるモデルの再発明が多発 ◦ 例えば広告×NLPや広告×CVでpretraining taskが収束してくる ◦ Researcher間で重みシェアしたい欲高まる ◦
誰がどんな学習済モデルを秘蔵しているかが把握しづらい状況 ◦ Aさんの学習済モデルはBさんに応用できるかも ◦ Public pre-trained modelのprivate版がほしかった ◦ ResNet(on imagenet)やBERT(on ja-wiki)の社内データ版 22

ailab-model-zoo (WIP) tensorﬂow-hubのManaged版であるAI Hub(GCP)を利用以下3つがPrivateに共有可能: - kubeﬂow pipeline - notebook
- trained model 23

ailab-model-zoo (WIP) “tensorﬂow” とあるが, 実体はuploadしたobjectの検索service Metadataを入力して共有したいobjectをupload tf.hubのself-hostingも可能だが現状はAI Hubで必要十分 tensorﬂow/hub/issues/266
24

ailab-model-zoo (WIP) 検索機能付きで管理しやすく,Downloadして利用 25 Public model Private model

AI Labを支えるEcosystem ailab-mlflow Evaluation 26

実験管理の課題感 Teamや個人で実験管理がしたい Free: MLﬂow, Keepsake SaaS: Neptune.ai, Comet.ml, Wandb MLﬂowはServer構築が面倒
SaaS系は個人の無料枠を超えると高い 27

実験管理の課題感 MLﬂow Serverを1つ立てて使い回しでもよいが, Experiments枠で各Userの実験を分けると煩雑個人やチームごとに1MLﬂowあるとBetter 28 ▪ Write ▪ Read

ailab-mlflow AI Lab共通で使えるMLflow Clusterを構築 OSSのMLflow Tracking ServerをLab PrivateでHosting GCP Resourceで各ユーザはCost/Server管理要らず
Gmail Whitelist Accessなので共同研究先との利用にも 29

Cloud IAPによるユーザ認証 34 Not Authorized

How to track 1. Terraformで$user endpointを作成 2.Training codeからOAuth Token発行 3.Serverに向けて実験ログを飛ばす
4.${MLFLOW_HOST}/${USER}にアクセス 5.実験結果を自由に管理 35

Summary - 実験の流れ - Data (ailab-datasets) - -> Preprocess (tft,
tf.data, numpy, pandas) - -> Training (ai platform training) - -> Save model (ailab-model-zoo) - -> Report (ailab-mlﬂow) OSSを上手くwrapすることでメンテコストを抑えた実験サポート環境を実現 36

Future work: ailab-pipeline - 実験の流れ - Data (ailab-datasets) - ->
Preprocess (tft, tf.data, numpy, pandas) - -> Training (ai platform training) - -> Save model (ailab-model-zoo) - -> Report (ailab-mlﬂow) 全体のPipelineもうまいこと管理したいが... Pipeline 37

どう布教させるかの話 ResearcherはCloudの新技術とかに拘らない傾向意外と使ってくれないのでTutorialや事例を地道に増やす, 共著で入るときにこっそり導入してしまう全体のPipelineを設計して自由度を下げるよりも、まずはパーツ部分に注力し、利用者側が取捨て選択できるように 38

ailab-mlﬂowの構築方法近々blog公開するのでぜひ https://cyberagent.ai/blog/research/ 39

40 Thanks! Any questions? You can ﬁnd me at: ◦
github@chck ◦ [email protected]

CyberAgent AI Labを支えるCloud実験環境 / ML Experiment ...

CyberAgent AI Labを支えるCloud実験環境 / ML Experiment Management via Cloud Computing Platform in CyberAgent AI Lab

More Decks by chck

Other Decks in Programming

Featured

Transcript