Upgrade to Pro — share decks privately, control downloads, hide ads and more …

machine learning with rancher and K8s on prem

machine learning with rancher and K8s on prem

@ジュジュ

May 15, 2019
Tweet

More Decks by @ジュジュ

Other Decks in Technology

Transcript

  1. オンプレK8s & Rancher
    で作る機械学習基盤
    2019/05/15
    RancherMeetupDeepDive#1@LINE株式会社
    岡野兼也

    View Slide

  2. $ whoami
    name:
    - 岡野兼也
    - @ジュジュ
    belonging:
    - CyberAgent
    - OpenSaaS Studio
    role:
    - Backend Engineer
    - ほうれん草
    エバンジェリスト
    interest:
    - CloudNative
    - DevOps
    dream:
    - 働かないこと
    hobbies:
    - 登山
    - キャンプ
    2

    View Slide

  3. 注意事項
    今回の発表は入社前に株式会社キスモで
    やっていた内容です
    3

    View Slide

  4. お話しすること
    1. MLOpsと目指した機械学習基盤
    2. Rancherを使って作った機械学習基盤概要
    3. なんで機械学習をオンプレで?
    4. なんでRancherを?
    4

    View Slide

  5. お話しすること
    1. MLOpsと目指した機械学習基盤
    2. Rancherを使って作った機械学習基盤概要
    3. なんで機械学習をオンプレで?
    4. なんでRancherを?
    5

    View Slide

  6. 機械学習の成果がユーザに届くまで
    6
    Data Collect Compute Delivery
    リソースを用意して学習
    Webサービスや
    エッジデバイスからデータ収集
    システムに組み込んで
    ユーザに届ける

    View Slide

  7. データサイエンティストがやりたいところ
    7
    Data Collect Compute Delivery
    - どんなデータを集めるか
    - どういう手法でモデルを作るか

    View Slide

  8. データサイエンティストは専門職
    8
    - データについての圧倒的知識
    - 普段追いかけているのは新たな統計的な手法など
    - 必ずしもweb技術、エンジニアリングに明るくなくても
    インパクトを出せる

    View Slide

  9. データサイエンティストがやるべき
    9
    Data Collect Compute Delivery
    データサイエンスに注力してもらう
    それ以外はどうする???

    View Slide

  10. MLOps
    Machine Learning + Operation
    DevOpsよろしく機械学習を効率的に利用できるようにする
    おそらく、会社の数だけ実態がある
    10

    View Slide

  11. MLOps
    11
    Data Collect Compute Delivery
    データサイエンスで生まれる価値をシームレスにユーザに届ける
    Fluentd
    BigQuery
    Kubernetes Rekcurd
    SagerMaker Kubeflow
    etc
    etc etc
    etc

    View Slide

  12. データサイエンティストが
    データサイエンスだけをしても
    ユーザに価値が届く仕組みを作る
    12

    View Slide

  13. MLOps
    13
    Data Collect Compute Delivery
    データサイエンスで生まれる価値をシームレスにユーザに届ける
    今日話す部分

    View Slide

  14. お話しすること
    1. MLOpsと目指した機械学習基盤
    2. Rancherを使って作った機械学習基盤概要
    3. なんで機械学習をオンプレで?
    4. なんでRancherを?
    14

    View Slide

  15. 機械学習基盤の概要図
    15

    View Slide

  16. 機械学習基盤の概要図
    16
    Jujuで必要なミドルウェアをパッケージング
    MAASで作られたイメージをマシンに展開

    View Slide

  17. 機械学習基盤の概要図
    17
    RKEでクラスタ作る
    GPUの管理コンテナをDaemonSetで展開
    Rancherの展開

    View Slide

  18. 機械学習基盤の概要図
    18
    学習はJupyterやコンテナの中にexecして実行
    リソース管理はK8sにお任せ

    View Slide

  19. お話しすること
    1. MLOpsと目指した機械学習基盤
    2. Rancherを使って作った機械学習基盤概要
    3. なんで機械学習をオンプレで?
    4. なんでRancherを?
    19

    View Slide

  20. 時代はクラウド全盛
    ● 数多くのマネージドサービス
    ● 高い信頼性を誇るストレージ
    ● 必要な時に必要な分のリソースを利用可能
    ● 課金対象も使った分だけ
    ● 世界展開も容易
    20

    View Slide

  21. 機械学習とクラウドの相性は?
    ● 機械学習するときだけ高価なインスタンスを立てられる
    ● SageMaker, Google Cloud ML Engineというような学習
    からデプロイまで一気通貫に行うサービス
    ● 高機能なストレージサービスとも容易に連携
    ● 推論モデルのバージョン管理も簡単
    21

    View Slide

  22. なぜオンプレか
    22

    View Slide

  23. 機械学習とクラウドの相性は?
    ● 機械学習するときだけ高価なインスタンスを立てられる
    ● SageMaker, Google Cloud ML Engineというような学習
    からデプロイまで一気通貫に行うサービス
    ● 高機能なストレージサービスとも容易に連携
    ● 推論モデルのバージョン管理も簡単
    23
    精度の高いモデルを作るために、
    機械学習リソースは常に必要になる場合もある

    View Slide

  24. 高い精度で高い生産性を出すには
    ● データサイエンティストが数多くの引き出しを持っている
    ● 類似の学習の経験がある
    24
    データサイエンティストが常に
    様々なデータの解析を行うことで結果的に
    早く、高い精度のモデルを作ることができる

    View Slide

  25. どう経験を増やす?
    25

    View Slide

  26. Kaggle
    ● 主に機械学習を利用したデータ分析の世界大会が
    行われるプラットフォーム
    ● 与えられたデータをもとに少しでも高い精度が出せる
    ように世界中のデータサイエンティストが研鑽している
    ● 高い精度を目指して様々な話し合いが行われている
    26

    View Slide

  27. キスモでの機械学習の状況
    ● Kaggleは業務の一環
    ● スケールの設定してもほぼ常に業務かKaggleで
    リソース上限を利用した学習が回り続ける
    27
    ● 機械学習するときだけ高価なインスタンスを立てられる
    というメリットの消失
    ● クラウドのメリットが価格面でのコストを下回ると判断

    View Slide

  28. あるKaggler(キスモ役員)の名言
    28

    View Slide

  29. 29
    オフィスに来るなら広瀬すずより
    計算資源がいい
    あるKaggler(キスモ役員)の名言

    View Slide

  30. 30
    <
    あるKaggler(キスモ役員)の名言
    これほどリソースが常に求められる

    View Slide

  31. お話しすること
    1. MLOpsと目指した機械学習基盤
    2. Rancherを使って作った機械学習基盤概要
    3. なんで機械学習をオンプレで?
    4. なんでRancherを?
    31

    View Slide

  32. 機械学習基盤を導入した結果
    ● 嬉しいこと
    ○ データサイエンティストが空きリソース、
    動作中の学習などを意識することがへった
    ○ コンテナ化によって変化に強くなった
    ○ 学習単位がマシンに縛られなくなった
    ● 嬉しくないこと
    ○ データサイエンティストがK8sやらないといけない
    ○ データの扱い面倒臭い
    32

    View Slide

  33. 機械学習基盤を導入した結果
    ● 嬉しいこと
    ○ データサイエンティストが空きリソース、
    動作中の学習などを意識することがへった
    ○ コンテナ化によって変化に強くなった
    ○ 学習単位がマシンに縛られなくなった
    ● 嬉しくないこと
    ○ データサイエンティストがK8sやらないといけない
    ○ データの扱い面倒臭い
    33
    データサイエンスだけ
    すればいい世界との落差

    View Slide

  34. Kubernetesを直感的に使うには…?
    ● GUIを使う
    ○ Rancherを使った時にK8sへの初期の嫌悪感がかなり
    減った
    ● kubectlをラップする
    ○ CUIから使った方が効率的なケースもある
    ○ リソースを管理して学習支援
    34

    View Slide

  35. まとめ
    ● RancherやK8sを使ってCompute Resourceをリソース
    プールとして扱う
    ● データサイエンティストの尖った部分の穴埋めをMLOps
    で補い、完成度の高いモデルをいち早くユーザに届ける
    ● データサイエンティストの研鑽の手助けをして、届ける
    価値を最大化する
    ● なるべくアレルギーの出なさそうな方法を話し合いなが
    ら考えると良い
    35

    View Slide

  36. 36
    https://opensaas.studio
    OpenSaaS Studioでは開かれた文化で
    サービスと寄り添ってプロダクトを
    作りたい人を募集しています!

    View Slide