Upgrade to Pro — share decks privately, control downloads, hide ads and more …

repro-tech-meetup-7

 repro-tech-meetup-7

Repro tech meetup #7の発表資料です

Takeshi Kamada

April 04, 2019
Tweet

Other Decks in Technology

Transcript

  1. 自己紹介 • 鎌田武志 (@take4_k) • 2018 年 6 月 Repro

    入社 • Repro AI Labs 所属 • WEB アプリケーションエンジニア (!?)
  2. Smart Audience™ • Repro 初の AI 機能 • キャンペーン対象ユーザーを自動予測 ◦

    現在はチャーン予測 ( 離脱しそうなユーザー ) に対応
  3. Repro AI Labs. • データ分析 • PoC • ML Ops

    • Repro 本体への機能追加
  4. Composer(Airflow) • フルマネージドワークフローオーケストレーションサービス • GKE 上に Airflow を構築してくれる • Python

    で DAG( 有向非巡回グラフ ) を使いワークフローを定義 ◦ DAG ファイルは GCS に置くだけ • スケジュール管理 • 様々な Operator • ( UI わかりずらいけど他よりまだマシな気がする)
  5. DAG

  6. Datalab • GCE 上にデータ分析、可視化、 ML のための環境を構築してく れるサービス • Notebook 形式で使いやすい

    • BQ 、 GCS などと簡単に接続できる • Docker 化されている • Repro では PoC 用
  7. 最速でリリースしたツケ • 前処理・学習・予測全て 1 スクリプト 1 タスクで実行 ◦ 途中でコケた時に全て再実行 …

    • 処理時間が線形に増加してスケールできない ◦ 一時期は 7 時間かかっていた … • 補足できてないエラーがあった ◦ コケていたことに気付かずインシデントに …
  8. Dataprocアンチパターン • Jupyter notebook も scikit-learn もインストールできる • やろうと思えば ML

    バッチ処理に使える?! • でもやらないほうがよい ◦ Python 側でマシンリソース使いすぎた時に Spark の Job が落 ちる
  9. 改善できた理由 • 今後の AI 機能開発を見据えたチーム増員 ◦ アプリケーション ◦ インフラ •

    AI エンジニアに不足しがちな視点を補完 ( きっとアルゴリズムや 予測精度で頭いっぱいですよね ) ◦ システム負荷 ◦ 障害対応 ▪ 起き辛いコードを書くのも含む
  10. 今後やっていきたいこと • ML 基盤まだまだ伸びしろある ◦ Dataproc から ML を剥がしたい ◦

    もっと良い感じの PoC 環境を作りたい • もっと AI 機能を作る ◦ 課金ユーザーを予測 ◦ ユーザー毎の最適なプッシュ配信時間を予測