Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Web系企業研究所における研究開発を加速させるエコシステム / Ecosystem accel...

chck
October 08, 2021

Web系企業研究所における研究開発を加速させるエコシステム / Ecosystem accelerates our R&D in CyberAgent AI Lab

PRMU #202110での発表資料です

chck

October 08, 2021
Tweet

More Decks by chck

Other Decks in Research

Transcript

  1. Hello! I am Yuki IWAZAKI@chck ◦ 2014...Backend Engineer in DSP

    └2018-...Research Engineer in AI Lab ◦ Ad x Multimedia (Vision & Language) 2
  2. 組織体制 AI Lab Creative Group Human-computer interaction Econ & Optimization

    Creative Research NLP Applied ML Algorithms Graphics Audio Media Fundamentals Econ Research Econ Social Implementation Reinforcement Learning 6
  3. AI LabにおけるR&Dの進め方 • 学術貢献 -> 論文投稿, 学会発表, 特許 ◦ Proposal

    first, Bottom up ▪ 会社の事業領域に関連する基礎, 応用研究 • 事業貢献 -> コンサル, EDA, Modeling ◦ Task first, Top down ▪ プロダクトと連携して課題解決 7
  4. AI LabにおけるR&Dの進め方 • 学術貢献 -> 論文投稿, 学会発表 ◦ Proposal first,

    Bottom up ▪ 会社の事業領域に関連する基礎, 応用研究 • 事業貢献 -> コンサル, EDA, Modeling ◦ Task first, Top down ▪ プロダクトと連携して課題解決 8
  5. 課題: データ管理 • データ形式がProduct/Project毎に違う ◦ CSV, JSON, S3, RDB, BigQuery,

    etc… ◦ Domain知識フル動員な鬼Query • 前処理の共有や冪等性担保が困難 ◦ 属人的で難解なREADME ◦ 先人の実験時とレコード数が違う ◦ リーダブルコーディングが浸透しづらい ◦ 新メンバーやインターンの学習コスト高 preprocess preprocess preprocess product_a dataset_c product_b 14
  6. 解決: tensorflow-datasets • Public/Private Dataset loader ◦ 社内GitHubからpip installで利用 •

    特徴 ◦ データの読込, 追加が簡単 ◦ ProductやProjectの単位でVersioning ◦ Apache Beamによる並列分散処理 product_a product_b dataset_c product_a dataset_c product_b ailab-datasets 15
  7. 20

  8. 22

  9. 課題: モデル管理 • モデルの再発明が多発 ◦ 似たタスク前に誰かがやっていたような ◦ benchmark取りたいが再実装した方が早そう • 研究者間でモデルの重みシェアしたい

    ◦ 既にどんなモデルがあるか把握しづらい ◦ Aさんの学習済モデルはBさんのテーマで応用できるかも • Public pre-trained modelのprivate版がほしい ◦ ResNet(on imagenet)やBERT(on jawiki)の社内データ版 27
  10. 課題: 実験管理 Teamや個人で実験管理がしたい Free: MLflow, Keepsake, TensorBoard SaaS: Neptune.ai, Comet.ml,

    Wandb MLflowはServer構築が面倒 SaaS系は個人の無料枠を超えると高い 32
  11. 解決: MLflow Cluster • AI Lab共通のMLflow Clusterを構築 • 特徴 ◦

    実験管理は各人独立したendpointを提供 ◦ OSSのMLflow Tracking ServerをLab PrivateでHosting ◦ GCP Resourceで各ユーザはCost/Server管理要らず ◦ Google Account Whitelistで共同研究先との利用にも 34
  12. 35

  13. 36

  14. 37

  15. 38

  16. Summary - 実験の流れ - Data (tensorflow-datasets) - -> Preprocess (tft,

    tf.data, numpy, pandas) - -> Training (ai platform training) - -> Save model (AI Hub) - -> Report (MLflow) OSSを上手くwrapすることで メンテコストを抑えた実験サポート環境を実現 42