Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
クラウドとオンプレミスを組み合わせた機械学習基盤構築の挑戦
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
k-nagase
December 17, 2025
Technology
230
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
クラウドとオンプレミスを組み合わせた機械学習基盤構築の挑戦
k-nagase
December 17, 2025
More Decks by k-nagase
See All by k-nagase
SREには開発組織全体で向き合う
koh_naga
0
570
サンドボックス技術でAI利活用を促進する
koh_naga
1
310
SREは特別な魔法じゃないって話
koh_naga
1
330
Reducing Cross-Zone Egress at Spotify with Custom gRPC Load Balancing Recap
koh_naga
0
590
システム担当者のためのクラウドとコンテナライゼーション ~効果を最大化する思考~
koh_naga
0
310
AWS Load balancer controller使用下でのAWSリソースのライフサイクル分離
koh_naga
0
580
Datadogログ萬屋
koh_naga
0
270
Other Decks in Technology
See All in Technology
AI Engineering Summit Tokyo 2026 AIの前に、やることがある 〜医療データ企業の4フェーズ〜
dtaniwaki
0
2.2k
2026.06.13_AI時代に事業会社が「SIer出身エンジニア」を求める理由 / Why Businesses Seek Engineers with a System Integrator Background in the AI Era
jumtech
0
890
Amazon Bedrock AgentCore ワークショップ JAWS UG TOHOKU / amazon-bedrock-agentcore-workshop-jawsug-tohoku-2026
gawa
9
430
新アーキテクチャ「TiDB X」解説とDedicated比較 TiDB Cloud Premiumのゲーム運用活用を検証
staffrecruiter
0
120
Dario Amodi『Policy on the AI Exponential』を理解する
nagatsu
0
200
「嘘をつくテスト」の失敗例から学ぶ 良いテストコード #frontend_phpcon_do
asumikam
0
570
探して_入れて_作って_使う_Agent_Skills___LT.pdf
peintangos
2
180
Chart.js が簡単に使えるようになっていたので OGP 画像生成に使った話
kamekyame
0
170
SIer20年! 培ったスキルがスタートアップで輝く時
shucho0103
0
740
「コーディング」しない人のための Claude Code 入門 ChatGPT の次の一歩 — 業務に組み込む 育成・共有・自動化
rfdnxbro
2
1.2k
Microsoft Build Keynoteふりかえり
tomokusaba
0
110
非エンジニアがClaudeと挑んだ「1ヶ月間プロダクト30本ノック」
askokc
0
120
Featured
See All Featured
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
2
290
Visual Storytelling: How to be a Superhuman Communicator
reverentgeek
2
550
More Than Pixels: Becoming A User Experience Designer
marktimemedia
3
430
Efficient Content Optimization with Google Search Console & Apps Script
katarinadahlin
PRO
1
600
The Mindset for Success: Future Career Progression
greggifford
PRO
0
350
Impact Scores and Hybrid Strategies: The future of link building
tamaranovitovic
0
300
So, you think you're a good person
axbom
PRO
2
2.1k
AI Search: Where Are We & What Can We Do About It?
aleyda
0
7.6k
The Power of CSS Pseudo Elements
geoffreycrofte
82
6.3k
Why You Should Never Use an ORM
jnunemaker
PRO
61
9.9k
Introduction to Domain-Driven Design and Collaborative software design
baasie
1
820
Leveraging Curiosity to Care for An Aging Population
cassininazir
1
270
Transcript
クラウドとオンプレミスを組み合わせた機械学習基盤構築 株式会社スリーシェイク 永瀬滉平 Copyright © 3-shake, Inc. All Rights Reserved.
自己紹介 Copyright © 3-shake, Inc. All Rights Reserved. - 所属:
株式会社スリーシェイク - 仕事: マネージャー・エンジニア - 所在: 岩手県某所 - 今年は雪が多くなりそうな予感がしています 永瀬 滉平 (@koh_naga)
Copyright © 3-shake, Inc. All Rights Reserved. 会社名 株式会社スリーシェイク 設立日
2015/1/15 Mission: インフラをシンプルにして イノベーションが起こりやすい世界を作る 3 About US Vision: 労苦〈Toil〉を無くすサービスを適正な価格で提供し続ける Value: エンジニアリングレイヤーに横たわる人、手法、ツールが サイロ化されて労苦が発生しているプロセスをシンプルにし サービス機能開発に集中できるソリューション (SRE、DevSecOps、DataOps、HROps)を提供する 2015 2016 2017 2018 2019 2020 2021 2022 0 50 100 従業員: 200名over Engineer 60% 所在地 東京都中央区銀座8丁目21番1号 住友不動産汐留浜離宮ビル7F 代表者 代表取締役社長 吉田 拓真 沿革 2021年1月 JAFCOから総額5億円の資金調達 2022年8月 自動脆弱性診断ツール「Securify Scan」をリ リース。JAFCO、MUCAPから総額8.48億円の資金調達 2025年9月29日 新オフィスに移転 Googleクラウド・AWSの両方のエンジニアリングに強みを持つ (2024年8月に国内2例目の、GoogleCloudのDevOpsスペシャライゼーションを取得) Google Cloud×SRE / GenAIにおいて、スリーシェイクは国内トップパートナー
SREを主軸にクラウドネイティブ化/エンジニアリング内製化を支援 SRE/DevOps SecOps BizOps HR ・SRE総合支援からセキュリティ対 策を全方位支援 ・Geminiを用いた生成AIの活用支援 ・ワンストップで脆弱性診断を行う セキュリティ対策SaaS
・クラウド型ETL/データパイプ ラインSaaSの決定版 ・あらゆるSaaSをノーコードで連携 ・ハイスキルフリーランスエンジニ ア紹介エージェント IT内製化 / 高度化 クラウドネイティブ化 モダナイゼーション ITアジリティ向上
機械学習基盤 開発者が利用できる社内共通の機械学習基盤の構築を企画中。 • 拠点が全国に存在し、拠点内にあるデータは拠点 LAN内に閉じておきたい -> 各拠点にあるオンプレサーバを利用する必要あり • 拠点内にあるデータを用いて、開発者が誰でも MLモデルの構築のための様々な作業ができる基盤を構
築したい ◦ リモート開発環境の提供 ◦ モデルトレーニングと作成したモデルのサービング -> MLモデルに関する一通りの機能をパッケージしている Kubeflowを利用したい オンプレが絡むことからKubernetesをクラウドとオンプレで利用するマルチクラスタ構成のコンセプト
構成概要 拠点内はDMZとInternet facingの疎通性が あり、DMZからはSquid Proxy経由でイン ターネットと疎通できる KubeflowをDMZに置くことで、以下を実現 する • 拠点ごとにアクセス可能なユーザを
絞る • データをDMZに留めながら各種処理 を実行 全拠点共通で利用するツールは AWS 上のEKSでホスティング
話すこと 拠点に置く KubernetesとEKSの担う役割を見直したいと絶賛思っている状況です。 役割分担と実装について現時点の検討状況をご共有しますので、もし何かご意見やご 知見をいただけると大変助かります
今時点抱えている課題 DMZ k8sはオンプレミスになるため、物理サーバの扱いが発生する。 GPUノードも含まれているため、要件上 DMZ内である必要がない Podでリソースを圧迫したくない オンプレのため増設の手間を 省くために最もリソース効率 を重視したい DMZ内のデータを実際にreadす
るPod。 このような性質のPodだけをスケ ジュールしたい DMZ内のデータを扱わないので クラウドなどのスケーラブルな 環境にもっていきたい
案1: オンプレ・クラウドを含めて1つのクラスタとして扱う EKSではハイブリッドノード機能を使ってオンプレノードも EKSのコントロールプレーンで管理できる メリット • コントロールプレーンが AWSマネージドになる • 1つのクラスタ内のため、標準の
Podスケジュール機能 が使える • 拠点毎に冗長だった Kubeflowのコンポーネントをクラ ウド側に集約できる デメリット • ネットワークの複雑性が高く、オンプレ側は DMZ内の ノードがクラスタに参加するための設定が複雑になる • 誤ったノードへのスケジュールに対して対策が必要 • 拠点ごとの利用把握が大変
案2: 既存構成のままマルチクラスタスケジューリングを実装 クラスタを跨いで該当拠点 DMZ内データのreadを必要とするPodのみを指定の場所にスケジュール メリット • クラスタわけが直接的に分離境界になるため把握がしや すい ◦ セキュリティポリシーの管理が楽
• ネットワークは今まで構築したものが利用できるので考慮 不要 • 拠点毎に冗長だった Kubeflowのコンポーネントをクラウド 側に集約できる デメリット • コントロールプレーンの管理工数が増える • カスタムスケジューリングのロジックを作る必要がある • コンポーネントごとの配置先の管理が大変
論点の整理 Podスケジューリング機構として以下 2つの実装のうちどちらが速度高く実装でき、運用しやすいものかが論点に なると考える 1. クラスタ跨ぎでのPodスケジューリング機構 2. 誤ったノードにPodをスケジュールすることを防ぐ機構
1. クラスタ跨ぎでのPodスケジューリング機構〜現状の構想〜 KueueのMultikueue機能を使った実装 MultiKueueを利用した外部クラスタへのジョブスケジューリング :https://sreake.com/blog/multikueue-job-scheduling-to-external-cluster/ Kueue: • Kubernetesネイティブなジョブキューイングを提供す るツール •
合わせて、リソースマネジメントとそれに伴うジョブス ケジューリング機能も要する この中のMultiKueueというマルチクラスタでのジョブディス パッチ機能を利用する 課題点: Kubeflowの一部コンポーネントでは公式に統合されているも のの、Notebookのような常駐系のワークロードがうまく扱え ない
2. 誤ったノードにPodをスケジュールすることを防ぐ機構〜現状の構想〜 ValidatingAdmissionPolicy(VAP)・MutatingAdmissionPolicy(MAP)の活用 (未検証) ※どちらもKubernetesネイティブな機能 VAP:Kubernetesにデプロイされる各種オブジェクトが指定した ルールに沿ったパラメータになっているかを確認する機能 MAP:Kubernetesにデプロイされる各種オブジェクトに指定した ルールに沿ったパラメータになるように追加・修正する機能 Kubernetes
Mutating Admission Policyの調査、検証 :https://tech.preferred.jp/ja/blog/kubernetes-mutating-admission-policy/ (参照 2025/12/17)
終わりに まだ構想・検討段階のお話をあえて持ち込んだので、あまり実践的な感じではなく申し訳ないです。。。 前述した2点の解決策を検証したうえで、よさそうな方向に倒していければと思っています。 また進展があればどこかの機会で共有できればと思っているので、頭の片隅で楽しみにしていてください。 何か良い知見があればぜひ授けていただけるとありがたいです お気軽に私にお声がけください!(助けて欲しい。。。)