クラウドとオンプレミスを組み合わせた機械学習基盤構築の挑戦

by k-nagase

Embed

Start on current slide

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Copyright © 3-shake, Inc. All Rights Reserved. 会社名株式会社スリーシェイク設立日 2015/1/15 Mission: インフラをシンプルにしてイノベーションが起こりやすい世界を作る 3 About US Vision: 労苦〈Toil〉を無くすサービスを適正な価格で提供し続ける Value: エンジニアリングレイヤーに横たわる人、手法、ツールがサイロ化されて労苦が発生しているプロセスをシンプルにしサービス機能開発に集中できるソリューション（SRE、DevSecOps、DataOps、HROps）を提供する 2015 2016 2017 2018 2019 2020 2021 2022 0 50 100 従業員: 200名over Engineer 60% 所在地東京都中央区銀座8丁目21番1号　　住友不動産汐留浜離宮ビル7F　代表者代表取締役社長　吉田拓真沿革 2021年1月 JAFCOから総額5億円の資金調達 2022年8月自動脆弱性診断ツール「Securify Scan」をリリース。JAFCO、MUCAPから総額8.48億円の資金調達 2025年9月29日新オフィスに移転 Googleクラウド・AWSの両方のエンジニアリングに強みを持つ（2024年8月に国内2例目の、GoogleCloudのDevOpsスペシャライゼーションを取得） Google Cloud×SRE / GenAIにおいて、スリーシェイクは国内トップパートナー

Slide 4

Slide 4 text

SREを主軸にクラウドネイティブ化/エンジニアリング内製化を支援 SRE/DevOps SecOps BizOps HR ・SRE総合支援からセキュリティ対策を全方位支援・Geminiを用いた生成AIの活用支援・ワンストップで脆弱性診断を行うセキュリティ対策SaaS ・クラウド型ETL/データパイプラインSaaSの決定版・あらゆるSaaSをノーコードで連携・ハイスキルフリーランスエンジニア紹介エージェント IT内製化 / 高度化クラウドネイティブ化モダナイゼーション ITアジリティ向上

Slide 5

Slide 5 text

機械学習基盤開発者が利用できる社内共通の機械学習基盤の構築を企画中。 ● 拠点が全国に存在し、拠点内にあるデータは拠点 LAN内に閉じておきたい -> 各拠点にあるオンプレサーバを利用する必要あり ● 拠点内にあるデータを用いて、開発者が誰でも MLモデルの構築のための様々な作業ができる基盤を構築したい ○ リモート開発環境の提供 ○ モデルトレーニングと作成したモデルのサービング -> MLモデルに関する一通りの機能をパッケージしている Kubeflowを利用したいオンプレが絡むことからKubernetesをクラウドとオンプレで利用するマルチクラスタ構成のコンセプト

Slide 6

Slide 6 text

構成概要拠点内はDMZとInternet facingの疎通性があり、DMZからはSquid Proxy経由でインターネットと疎通できる KubeflowをDMZに置くことで、以下を実現する ● 拠点ごとにアクセス可能なユーザを絞る ● データをDMZに留めながら各種処理を実行全拠点共通で利用するツールは AWS 上のEKSでホスティング

Slide 7

Slide 7 text

話すこと拠点に置く KubernetesとEKSの担う役割を見直したいと絶賛思っている状況です。役割分担と実装について現時点の検討状況をご共有しますので、もし何かご意見やご知見をいただけると大変助かります 󰢛

Slide 8

Slide 8 text

今時点抱えている課題 DMZ k8sはオンプレミスになるため、物理サーバの扱いが発生する。 GPUノードも含まれているため、要件上 DMZ内である必要がない Podでリソースを圧迫したくないオンプレのため増設の手間を省くために最もリソース効率を重視したい DMZ内のデータを実際にreadするPod。このような性質のPodだけをスケジュールしたい DMZ内のデータを扱わないのでクラウドなどのスケーラブルな環境にもっていきたい

Slide 9

Slide 9 text

案1: オンプレ・クラウドを含めて1つのクラスタとして扱う EKSではハイブリッドノード機能を使ってオンプレノードも EKSのコントロールプレーンで管理できるメリット ● コントロールプレーンが AWSマネージドになる ● 1つのクラスタ内のため、標準の Podスケジュール機能が使える ● 拠点毎に冗長だった Kubeflowのコンポーネントをクラウド側に集約できるデメリット ● ネットワークの複雑性が高く、オンプレ側は DMZ内のノードがクラスタに参加するための設定が複雑になる ● 誤ったノードへのスケジュールに対して対策が必要 ● 拠点ごとの利用把握が大変

Slide 10

Slide 10 text

案2: 既存構成のままマルチクラスタスケジューリングを実装クラスタを跨いで該当拠点 DMZ内データのreadを必要とするPodのみを指定の場所にスケジュールメリット ● クラスタわけが直接的に分離境界になるため把握がしやすい ○ セキュリティポリシーの管理が楽 ● ネットワークは今まで構築したものが利用できるので考慮不要 ● 拠点毎に冗長だった Kubeflowのコンポーネントをクラウド側に集約できるデメリット ● コントロールプレーンの管理工数が増える ● カスタムスケジューリングのロジックを作る必要がある ● コンポーネントごとの配置先の管理が大変

Slide 11

Slide 11 text

論点の整理 Podスケジューリング機構として以下 2つの実装のうちどちらが速度高く実装でき、運用しやすいものかが論点になると考える 1. クラスタ跨ぎでのPodスケジューリング機構 2. 誤ったノードにPodをスケジュールすることを防ぐ機構

Slide 12

Slide 12 text

1. クラスタ跨ぎでのPodスケジューリング機構〜現状の構想〜 KueueのMultikueue機能を使った実装 MultiKueueを利用した外部クラスタへのジョブスケジューリング：https://sreake.com/blog/multikueue-job-scheduling-to-external-cluster/ Kueue： ● Kubernetesネイティブなジョブキューイングを提供するツール ● 合わせて、リソースマネジメントとそれに伴うジョブスケジューリング機能も要するこの中のMultiKueueというマルチクラスタでのジョブディスパッチ機能を利用する課題点： Kubeflowの一部コンポーネントでは公式に統合されているものの、Notebookのような常駐系のワークロードがうまく扱えない

Slide 13

Slide 13 text

2. 誤ったノードにPodをスケジュールすることを防ぐ機構〜現状の構想〜 ValidatingAdmissionPolicy（VAP）・MutatingAdmissionPolicy（MAP）の活用 (未検証) ※どちらもKubernetesネイティブな機能 VAP：Kubernetesにデプロイされる各種オブジェクトが指定したルールに沿ったパラメータになっているかを確認する機能 MAP：Kubernetesにデプロイされる各種オブジェクトに指定したルールに沿ったパラメータになるように追加・修正する機能 Kubernetes Mutating Admission Policyの調査、検証：https://tech.preferred.jp/ja/blog/kubernetes-mutating-admission-policy/ (参照 2025/12/17)

Slide 14

Slide 14 text

終わりにまだ構想・検討段階のお話をあえて持ち込んだので、あまり実践的な感じではなく申し訳ないです。。。前述した2点の解決策を検証したうえで、よさそうな方向に倒していければと思っています。また進展があればどこかの機会で共有できればと思っているので、頭の片隅で楽しみにしていてください。何か良い知見があればぜひ授けていただけるとありがたいですお気軽に私にお声がけください！（助けて欲しい。。。）