Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
machine learning with rancher and K8s on prem
Search
@ジュジュ
May 15, 2019
Technology
5
460
machine learning with rancher and K8s on prem
@ジュジュ
May 15, 2019
Tweet
Share
More Decks by @ジュジュ
See All by @ジュジュ
チーム分割においていかれたアラートをチームで責任を持てる形に再設計した
juju62q
0
160
ボトムアップでSLOを導入 2年半運用して分かった失敗と変化
juju62q
2
1.1k
Firecracker Snapshottingを調べてみた
juju62q
1
600
SLOを活用した技術的改善
juju62q
10
11k
IAM Role for Pods and Instance Meta Data Service
juju62q
1
1.6k
telepresence handson
juju62q
2
5.2k
Wanna Use Vitess in Orientation
juju62q
6
1.4k
docker-handson-for-researcher
juju62q
3
330
Getting Started to CRIU
juju62q
0
140
Other Decks in Technology
See All in Technology
まだ間に合う! Agentic AI on AWSの現在地をやさしく一挙おさらい
minorun365
17
2.1k
M&Aで拡大し続けるGENDAのデータ活用を促すためのDatabricks権限管理 / AEON TECH HUB #22
genda
0
190
Bedrock AgentCore Memoryの新機能 (Episode) を試してみた / try Bedrock AgentCore Memory Episodic functionarity
hoshi7_n
2
1.5k
AIBuildersDay_track_A_iidaxs
iidaxs
3
930
AlmaLinux + KVM + Cockpit で始めるお手軽仮想化基盤 ~ 開発環境などでの利用を想定して ~
koedoyoshida
0
140
【開発を止めるな】機能追加と並行して進めるアーキテクチャ改善/Keep Shipping: Architecture Improvements Without Pausing Dev
bitkey
PRO
1
100
Lookerで実現するセキュアな外部データ提供
zozotech
PRO
0
190
AIの長期記憶と短期記憶の違いについてAgentCoreを例に深掘ってみた
yakumo
4
470
モダンデータスタックの理想と現実の間で~1.3億人Vポイントデータ基盤の現在地とこれから~
taromatsui_cccmkhd
1
220
ZOZOの独自性を生み出す「似合う4大要素」の開発サイクル
zozotech
PRO
0
110
マイクロサービスへの5年間 ぶっちゃけ何をしてどうなったか
joker1007
17
7.3k
【ServiceNow SNUG Meetup LT deck】WorkFlow Editorの廃止と Flow Designerへの移行戦略
niwato
0
120
Featured
See All Featured
The Illustrated Children's Guide to Kubernetes
chrisshort
51
51k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
22k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.2k
Site-Speed That Sticks
csswizardry
13
1k
How to Get Subject Matter Experts Bought In and Actively Contributing to SEO & PR Initiatives.
livdayseo
0
28
RailsConf 2023
tenderlove
30
1.3k
Amusing Abliteration
ianozsvald
0
64
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
0
1k
Fireside Chat
paigeccino
41
3.8k
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
96
Transcript
オンプレK8s & Rancher で作る機械学習基盤 2019/05/15 RancherMeetupDeepDive#1@LINE株式会社 岡野兼也
$ whoami name: - 岡野兼也 - @ジュジュ belonging: - CyberAgent
- OpenSaaS Studio role: - Backend Engineer - ほうれん草 エバンジェリスト interest: - CloudNative - DevOps dream: - 働かないこと hobbies: - 登山 - キャンプ 2
注意事項 今回の発表は入社前に株式会社キスモで やっていた内容です 3
お話しすること 1. MLOpsと目指した機械学習基盤 2. Rancherを使って作った機械学習基盤概要 3. なんで機械学習をオンプレで? 4. なんでRancherを? 4
お話しすること 1. MLOpsと目指した機械学習基盤 2. Rancherを使って作った機械学習基盤概要 3. なんで機械学習をオンプレで? 4. なんでRancherを? 5
機械学習の成果がユーザに届くまで 6 Data Collect Compute Delivery リソースを用意して学習 Webサービスや エッジデバイスからデータ収集 システムに組み込んで
ユーザに届ける
データサイエンティストがやりたいところ 7 Data Collect Compute Delivery - どんなデータを集めるか - どういう手法でモデルを作るか
データサイエンティストは専門職 8 - データについての圧倒的知識 - 普段追いかけているのは新たな統計的な手法など - 必ずしもweb技術、エンジニアリングに明るくなくても インパクトを出せる
データサイエンティストがやるべき 9 Data Collect Compute Delivery データサイエンスに注力してもらう それ以外はどうする???
MLOps Machine Learning + Operation DevOpsよろしく機械学習を効率的に利用できるようにする おそらく、会社の数だけ実態がある 10
MLOps 11 Data Collect Compute Delivery データサイエンスで生まれる価値をシームレスにユーザに届ける Fluentd BigQuery Kubernetes
Rekcurd SagerMaker Kubeflow etc etc etc etc
データサイエンティストが データサイエンスだけをしても ユーザに価値が届く仕組みを作る 12
MLOps 13 Data Collect Compute Delivery データサイエンスで生まれる価値をシームレスにユーザに届ける 今日話す部分
お話しすること 1. MLOpsと目指した機械学習基盤 2. Rancherを使って作った機械学習基盤概要 3. なんで機械学習をオンプレで? 4. なんでRancherを? 14
機械学習基盤の概要図 15
機械学習基盤の概要図 16 Jujuで必要なミドルウェアをパッケージング MAASで作られたイメージをマシンに展開
機械学習基盤の概要図 17 RKEでクラスタ作る GPUの管理コンテナをDaemonSetで展開 Rancherの展開
機械学習基盤の概要図 18 学習はJupyterやコンテナの中にexecして実行 リソース管理はK8sにお任せ
お話しすること 1. MLOpsと目指した機械学習基盤 2. Rancherを使って作った機械学習基盤概要 3. なんで機械学習をオンプレで? 4. なんでRancherを? 19
時代はクラウド全盛 • 数多くのマネージドサービス • 高い信頼性を誇るストレージ • 必要な時に必要な分のリソースを利用可能 • 課金対象も使った分だけ •
世界展開も容易 20
機械学習とクラウドの相性は? • 機械学習するときだけ高価なインスタンスを立てられる • SageMaker, Google Cloud ML Engineというような学習 からデプロイまで一気通貫に行うサービス
• 高機能なストレージサービスとも容易に連携 • 推論モデルのバージョン管理も簡単 21
なぜオンプレか 22
機械学習とクラウドの相性は? • 機械学習するときだけ高価なインスタンスを立てられる • SageMaker, Google Cloud ML Engineというような学習 からデプロイまで一気通貫に行うサービス
• 高機能なストレージサービスとも容易に連携 • 推論モデルのバージョン管理も簡単 23 精度の高いモデルを作るために、 機械学習リソースは常に必要になる場合もある
高い精度で高い生産性を出すには • データサイエンティストが数多くの引き出しを持っている • 類似の学習の経験がある 24 データサイエンティストが常に 様々なデータの解析を行うことで結果的に 早く、高い精度のモデルを作ることができる
どう経験を増やす? 25
Kaggle • 主に機械学習を利用したデータ分析の世界大会が 行われるプラットフォーム • 与えられたデータをもとに少しでも高い精度が出せる ように世界中のデータサイエンティストが研鑽している • 高い精度を目指して様々な話し合いが行われている 26
キスモでの機械学習の状況 • Kaggleは業務の一環 • スケールの設定してもほぼ常に業務かKaggleで リソース上限を利用した学習が回り続ける 27 • 機械学習するときだけ高価なインスタンスを立てられる というメリットの消失
• クラウドのメリットが価格面でのコストを下回ると判断
あるKaggler(キスモ役員)の名言 28
29 オフィスに来るなら広瀬すずより 計算資源がいい あるKaggler(キスモ役員)の名言
30 < あるKaggler(キスモ役員)の名言 これほどリソースが常に求められる
お話しすること 1. MLOpsと目指した機械学習基盤 2. Rancherを使って作った機械学習基盤概要 3. なんで機械学習をオンプレで? 4. なんでRancherを? 31
機械学習基盤を導入した結果 • 嬉しいこと ◦ データサイエンティストが空きリソース、 動作中の学習などを意識することがへった ◦ コンテナ化によって変化に強くなった ◦ 学習単位がマシンに縛られなくなった
• 嬉しくないこと ◦ データサイエンティストがK8sやらないといけない ◦ データの扱い面倒臭い 32
機械学習基盤を導入した結果 • 嬉しいこと ◦ データサイエンティストが空きリソース、 動作中の学習などを意識することがへった ◦ コンテナ化によって変化に強くなった ◦ 学習単位がマシンに縛られなくなった
• 嬉しくないこと ◦ データサイエンティストがK8sやらないといけない ◦ データの扱い面倒臭い 33 データサイエンスだけ すればいい世界との落差
Kubernetesを直感的に使うには…? • GUIを使う ◦ Rancherを使った時にK8sへの初期の嫌悪感がかなり 減った • kubectlをラップする ◦ CUIから使った方が効率的なケースもある
◦ リソースを管理して学習支援 34
まとめ • RancherやK8sを使ってCompute Resourceをリソース プールとして扱う • データサイエンティストの尖った部分の穴埋めをMLOps で補い、完成度の高いモデルをいち早くユーザに届ける • データサイエンティストの研鑽の手助けをして、届ける
価値を最大化する • なるべくアレルギーの出なさそうな方法を話し合いなが ら考えると良い 35
36 https://opensaas.studio OpenSaaS Studioでは開かれた文化で サービスと寄り添ってプロダクトを 作りたい人を募集しています!