Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Google Kubernetes Engine におけるバッチ処理のパターン
Search
Shouta Yoshikai
April 19, 2018
Technology
6
7.1k
Google Kubernetes Engine におけるバッチ処理のパターン
JapanContainerDays v18.04
Shouta Yoshikai
April 19, 2018
Tweet
Share
More Decks by Shouta Yoshikai
See All by Shouta Yoshikai
GKEで学ぶKubernetes入門
tinjyuu
1
2.3k
Other Decks in Technology
See All in Technology
低レイヤを知りたいPHPerのためのCコンパイラ作成入門 完全版 / Building a C Compiler for PHPers Who Want to Dive into Low-Level Programming - Expanded
tomzoh
4
3.3k
AWS Summit Japan 2025 Community Stage - App workflow automation by AWS Step Functions
matsuihidetoshi
1
290
米国国防総省のDevSecOpsライフサイクルをAWSのセキュリティサービスとOSSで実現
syoshie
2
1.2k
"サービスチーム" での技術選定 / Making Technology Decisions for the Service Team
kaminashi
1
180
生成AIで小説を書くためにプロンプトの制約や原則について学ぶ / prompt-engineering-for-ai-fiction
nwiizo
4
2.6k
生成AI時代 文字コードを学ぶ意義を見出せるか?
hrsued
1
610
Wasm元年
askua
0
150
Oracle Cloud Infrastructure:2025年6月度サービス・アップデート
oracle4engineer
PRO
2
280
生成AI時代の開発組織・技術・プロセス 〜 ログラスの挑戦と考察 〜
itohiro73
1
310
Windows 11 で AWS Documentation MCP Server 接続実践/practical-aws-documentation-mcp-server-connection-on-windows-11
emiki
0
1k
Understanding_Thread_Tuning_for_Inference_Servers_of_Deep_Models.pdf
lycorptech_jp
PRO
0
140
製造業からパッケージ製品まで、あらゆる領域をカバー!生成AIを利用したテストシナリオ生成 / 20250627 Suguru Ishii
shift_evolve
PRO
1
140
Featured
See All Featured
Agile that works and the tools we love
rasmusluckow
329
21k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
281
13k
Music & Morning Musume
bryan
46
6.6k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
107
19k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
29
9.5k
Stop Working from a Prison Cell
hatefulcrawdad
270
20k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
5
230
Navigating Team Friction
lara
187
15k
Writing Fast Ruby
sferik
628
62k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
181
53k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
15
1.5k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
331
22k
Transcript
Google Kubernetes Engine における バッチ処理のパターン 株式会社 カブク 吉海 将太
自己紹介 2
自己紹介 吉海 将太 / @yoshikai_ ❏ 株式会社 カブク ❏ サーバーサイドエンドエンジニア
(開発と運用) ❏ Python, Go, Kubernetes, GCP ❏ コミュニティ活動 ❏ Kubernetes Meetup Tokyo, GCPUG Tokyo ❏ Web連載 ❏ CodeZine Kubernetesによるスケーラブルな Webアプリ環境の構築 ❏ 趣味 ❏ クソアプリ開発, IoT(ロボ作ったり、雨になったら開く紙の傘を作ったり 3
今日のゴール 4
今日のゴール Google Kubernetes Engineにおけるバッチ処理には • どの様なパターンがあるか ◦ K8S Job, メッセージキューイング
• どの様な構成例があるか ◦ 弊社の構成例をご紹介します 5
アジェンダ • バッチ処理の定義 • バッチ処理のパターン紹介 • 弊社の構築例を紹介 6
バッチ処理の定義 7
バッチ処理の定義 1. 数秒から数時間以上かかる処理 2. 非同期(今回は非同期のバッチ処理を想定しています) 弊社では、時間がかかる3D解析処理をバッチ処理にしています 本講演では、タスクという単語がよく出てきます。 タスクはバッチ処理のことを指します。 8
バッチ処理のパターン 9
バッチ処理のパターン 大きく分けて2通り • KubernetesのJob • メッセージキューイングの組み合わせる ◦ クラウドのメッセージキューイングサービス ▪ Cloud
Pub/Sub ◦ ミドルウェア ▪ RabbitMQ 10
KubernetesのJob • 一度限りの処理を実行させるためコンテナ ◦ 処理が終わるとコンテナが終了する • Kubernetesの標準の機能 • リトライ機能(コンテナ再実行) ◦
ゼロ以外の終了コード ◦ デフォルトのリトライ上限は6回 ▪ リトライのディレイは10秒, 20秒, 40秒と大きくなる • 上限は6分 標準機能なので使うのが容易だが単純な仕組みしか用意されていない ので、自前で色々と準備する必要があり 11
KubernetesのJobの構成例 12 Client K8S Job K8S API API Server &
Controller
Jobのみを使う構成ついて • メリット ◦ 構成するコンポーネントの数が少ない。シンプル超いいね ◦ 機能が単純なので理解しやすい • デメリット ◦
Jobの数が増えると管理するのが大変 ▪ ラベルをつけて管理出来るが数が多いと辛い ◦ 一度に大量のJobを作ると ▪ リソースの上限に達してしまう ▪ Kubernetes apiserver, controller, or schedulerに負荷が かかる 13
Jobのみを使う構成の問題 公式で紹介されている解決案 https://kubernetes.io/docs/tasks/job/parallel-processing-expansion/ • Parallel Processing using Expansions • Coarse
Parallel Processing Using a Work Queue ◦ RabbitMQと組み合わせる • Fine Parallel Processing Using a Work Queue ◦ Redisと組み合わせる 14
メッセージキューイングと組み 合わせる 15
メッセージキューイングと組み合わせる メリット • Jobのみ構成の問題解決 ◦ 管理の大変さ、リソース上限、K8SのAPIserverに対する負荷 の軽減 • 並列にタスクを処理できる •
Podを使える ◦ キャッシュをPodにもたせて処理時間の短縮 ◦ レスポンス性がいい ▪ コンテナ起動時の処理がはいらないので ◦ マシンリソースはJobより使うことに 16
メッセージキューイングの組み合わせる デメリット • 検討すべき点が増える ◦ どのメッセージキューイング使うか ◦ Push式するか、Pull式するか ◦ ネットワーク構成どうする
• コンポーネントが増える ◦ 運用コストなどが増える ◦ 構成を理解するのに時間がかかる 17
クラウドの メッセージキューイング 18
クラウドのメッセージキューイング Google Cloud Platform • Cloud Pub/Sub フルマネージドなので、導入コストが低い 負荷の問題も金で解決できる 通信経路が、K8Sのネットワーク外
19
クラウドのメッセージキューイングサービスを使った構 成図 Job 20 Client K8S Job (Worker) K8S API
Cloud Message Queue Cloud API API Server & Controller
クラウドのメッセージキューイングサービスを使った構 成図 Pod Push方式 21 Client K8S Pod (Worker) Cloud
API Cloud Message Queue Cloud API
ミドルウェアの メッセージキューイング 22
ミドルウェアの メッセージキューイング K8Sにミドルウェアを動作させる形 • RabbitMQなど 特徴 • 導入、運用コストが高い • 要件にあったミドルウェアを使える
23
Middlewareのメッセージキューイングサービスを 使った構成図 Pod Push方式 24 Client K8S Pod (Worker) Middleware
API Middleware Message Queue Middleware API
まとめ バッチ処理のパターンを検討する上で • 構成をシンプルに ◦ Jobで要件をみたすか ◦ 構成するコンポーネント数を少なく • 導入コスト、運用コスト
◦ クラウドを使うのかミドルウェアをブチ込むのか Jobでのバッチ処理を検討して難しいようであれば、メッセージキューイ ングを使った仕組みを検討する 25
弊社の構築例の紹介 26
弊社の構築例の紹介 要件 • タスクのリトライ機能 • 3D解析処理 ◦ 数秒から1時間を超える処理 • GPUとCPUのヘテロ構成
◦ GPU ▪ レンダリング ◦ CPU ▪ ポリゴンリダクション 27
注意!! これから紹介する構成例は 良くない例です 歴史的背景がなー 色々となー 28
現構成 29 Client K8S CPU Pod (Worker) HTTP AppEngine &
TaskQueue HTTP K8S GPU Pod (Worker) Pod (Worker) LB 非同期 同期
課題 • 長時間のタスクをHTTPで動的に投げているゆえの制約 ◦ 1タスクの最大処理時間が1時間の上限がある ▪ AppEngineのネットワーク制約 ▪ 3D解析処理によっては1時間超えることがある ◦
処理中のPodにもタスクが振られてしまう場合がある ▪ LoadBalancerで3D解析処理APIにリクエストを飛ばして いるため 30
課題点 31 K8S CPU Pod (Worker) HTTP AppEngine & TaskQueue
K8S GPU Pod (Worker) Pod (Worker) LB 処理終わるまで 繋ぎっぱ タスク処理中とか 知らんがな
そうだ、新しい構成に移行し よう 32
新要件 • HTTPを辞める ◦ 1時間を超えるタスクの処理が出来るように ◦ 空いているPodにタスクを振り分けるように 33
いくつか新しい構成を検討し ていくことに 34
検討したもの • Cloud Pub/Sub ◦ ACK(確認応答)の期限が最大10分 • Cloud Tasks ◦
アルファーなので本番使うのは無謀 • Redis ◦ シンプルで速いけど必要な機能が足りない • RabbitMQ ◦ 多機能。要件は満たしそう ◦ うさぎ可愛い 35
あ、RabbitMQだ! かわいい!! 36 君に決めた!
RabbitMQを使った構成 37
新構成 using RabbitMQ 38 Client K8S CPU Pod (Worker) amqp
Rabbit MQ HTTP K8S GPU Pod (Worker) Pod (Worker) AppEngine (API互換のため)
新構成 using RabbitMQ • タスクの処理時間の上限の問題の解決 ◦ AMQP • 処理中のPodにもタスクが振られてしまう問題の解決 ◦
コンシューマーのプリフェッチカウントを1 39
まとめ 40
まとめ • バッチ処理のパターンには大きく2通り ◦ Job ◦ メッセージキューイング • バッチ処理の構成は ◦
なるべくシンプルに ◦ コストを考える • 悪い構成は良くしていこうな ◦ なかなか難しい... 41
おまけ 42
エンジニアを募集してます!!!! • フロントエンドエンジニア • サーバーサイドエンジニア • 機械学習エンジニア 3名のGoogle Developers Expertsが在籍!!
3Dプリンター使い放題!! 43
4月22日の技術書典にサークル参加します!!! 44