Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
リクルートの オンプレ環境の未来を語る
Search
Recruit
PRO
March 06, 2025
Technology
1.4k
4
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
リクルートの オンプレ環境の未来を語る
2025/2/19に開催したRecruit Tech Conference 2025の関の資料です
Recruit
PRO
March 06, 2025
More Decks by Recruit
See All by Recruit
双方向推薦システムにおける長期的マッチング最大化に向けた代理目的関数の設計と実証
recruitengineers
PRO
0
47
就職⽀援サービスにおけるキャリアアドバイザーのシフトスケジューリング
recruitengineers
PRO
1
140
Model Routerを使った逐次LLM選択による毀損低減効果の検証
recruitengineers
PRO
1
38
ストリーム処理基盤のFlink移行検証と適材適所の実践
recruitengineers
PRO
2
66
AI 時代の Platform Engineering
recruitengineers
PRO
2
390
巨大プラットフォームを進化させる「第3のROI」
recruitengineers
PRO
2
3.3k
データ戦略を加速させる プラットフォーム エンジニアリングと進化的アーキテクチャ
recruitengineers
PRO
2
88
まなび領域における生成AI活用事例
recruitengineers
PRO
2
290
AI時代にエンジニアはどう成長すれば良いのか?
recruitengineers
PRO
1
520
Other Decks in Technology
See All in Technology
AAIFに入ってみた ~内から見えるコミュニティ動向~
sato4
0
170
20260619 私の日常業務での生成 AI 活用
masaruogura
1
130
Djangoユーザが知っ得なPostgreSQL機能 - 設計の選択肢を増やす / Djang-use-PostgreSQL
soudai
PRO
1
230
"何を作るか"を任される エンジニアは、どう育つのか
yutaokafuji
1
610
作って終わりにしない タイミーのセマンティックレイヤー育成の現在地
chanyou0311
4
2.2k
ACE-Step-1.5で見る 音楽生成AIのしくみと“破綻だけ直す”Retake機能の開発【zennfes spring 2026 登壇資料】
personabb
1
140
SONiC Scale-Up Working Group から探る Scale-UpやUltraEthernet機能の実装方法
ebiken
PRO
2
130
2026 TECHFRESH 畢業分享會 - AI-Native 重塑軟體工程與虛擬講師
line_developers_tw
PRO
0
850
Oracle AI Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
6
1.5k
「エンジニア進化論」2028年の開発完全自動化、エンジニアはどう進化するか
cyberagentdevelopers
PRO
6
4.6k
Kubernetesにおける学習基盤とLLMOpsの概要
ry
1
250
Amazon Bedrock AgentCore ワークショップ JAWS UG TOHOKU / amazon-bedrock-agentcore-workshop-jawsug-tohoku-2026
gawa
9
730
Featured
See All Featured
Understanding Cognitive Biases in Performance Measurement
bluesmoon
32
2.9k
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.6k
How STYLIGHT went responsive
nonsquared
100
6.2k
Pawsitive SEO: Lessons from My Dog (and Many Mistakes) on Thriving as a Consultant in the Age of AI
davidcarrasco
0
160
Breaking role norms: Why Content Design is so much more than writing copy - Taylor Woolridge
uxyall
0
320
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
Music & Morning Musume
bryan
47
7.2k
Beyond borders and beyond the search box: How to win the global "messy middle" with AI-driven SEO
davidcarrasco
3
160
Avoiding the “Bad Training, Faster” Trap in the Age of AI
tmiket
0
170
Jamie Indigo - Trashchat’s Guide to Black Boxes: Technical SEO Tactics for LLMs
techseoconnect
PRO
0
160
Thoughts on Productivity
jonyablonski
76
5.2k
Transcript
リクルートの オンプレ環境の未来を語る RECRUIT TECH CONFERENCE 2025 止められない!リクルートのオンプレ基盤 パブリッククラウドという選択肢もある中、 リクルートはオンプレミスでどのようなことを検討していくか 関 竜輔
株式会社リクルート プロダクトディベロップメント室
今日話すこと リクルートのプライベートクラウド「RAFTEL」上で将来やりたいこと • RAFTELの規模と消費電力の話 (1min) • GPU基盤をオンプレミスへ持ってくる話 (3min) ◦ データ推進室と我々インフラ組織の共同検証である
◦ 今日はインフラ側の視点でのみ話す • サーバーの冷却の話 (7min) ◦ 液冷・液浸の検証環境を作ろうとしている話 • まとめ (1min) 注意事項 • RAFTELの話というよりは上記の技術検証・導入検討の話に終始する予定です • 現在進行中のプロジェクトのため、結論はありません • 現時点で検討中の内容のため、明日には言っていることが変わる可能性もあります
Agenda 1. リクルートの持つプライベートクラウド「RAFTEL」 2. オンプレミスGPU基盤の検討 3. サーバーの冷却技術 4. まとめ
Agenda 1. リクルートの持つプライベートクラウド「RAFTEL」 2. オンプレミスGPU基盤の検討 3. サーバーの冷却技術 4. まとめ
リクルートのプライベートクラウドであるRAFTELは下表のような規模で運営されている。 リクルートホールディングス全体の約5.5%がIT機器/DC関連のCO 2 排出 (≒電力使用) である。 RAFTELの規模 物理サーバー台数 約1,000台 ラック数
約150ラック ストレージ総容量 1.5PB以上 ドメイン数 4,000ドメイン以上 仮想マシン数 約4,000VMs 利用サイト数 約100サイト ネットワーク機器台数 約360台 年間使用電力量 約280万kWh
Agenda 1. リクルートの持つプライベートクラウド「RAFTEL」 2. オンプレミスGPU基盤の検討 3. サーバーの冷却技術 4. まとめ
リクルートのインフラ利用状況 プロダクト系 (エンジニア組織) はオンプレミスとパブリッククラウドを共に利用しているが、 データ系は100%をパブリッククラウドに依存している状況がある。 プロダクト系 データ分析/AI系 オンプレミス (プライベートクラウド) ⚪
(RAFTEL) × 現状、存在していない パブリッククラウド ⚪ (AWS/GCPなど) ⚪ (AWS/GCP/OCI) プロダクト系では用途ごとに オンプレミス/パブリッククラウドの 使い分けができる構造にある。 データ分析/AI系では オンプレミスの環境が存在せず、 パブリッククラウド一択の現状。
リクルートのインフラ利用状況 プロダクト系 (エンジニア組織) はオンプレミスとパブリッククラウドを共に利用しているが、 データ系は100%をパブリッククラウドに依存している状況がある。 プロダクト系 データ分析/AI系 オンプレミス (プライベートクラウド) ⚪
(RAFTEL) × 現状、存在していない パブリッククラウド ⚪ (AWS/GCPなど) ⚪ (AWS/GCP/OCI) プロダクト系では用途ごとに オンプレミス/パブリッククラウドの 使い分けができる構造にある。 データ分析/AI系では オンプレミスの環境が存在せず、 パブリッククラウド一択の現状。 オンプレミスにGPU環境を持ち、ワークロードによって オンプレミス/パブリッククラウドを選択できるようにすることにより、 • コスト的なメリット • パブリッククラウドのGPUインスタンス不足への対応 • 仮にクラウドが駄目となってしまった場合の 行き先(技術者・環境)作り などの点でメリットがあると考えている。
データテクノロジーUとプロダクトインフラU プロダクト開発室 データ推進室 プロダクト ディベロップメント室 データテクノロジーU プロダクトインフラU ・・・ ・・・ 開発ディレクション部
組織はこのくらい離れている プロダクトディベロップメント室はエンジニア組織としてプロダクトを開発しており、 一方、データ推進室ではサービスで取得したデータの分析やサービスへの活用を行っている。 中でも、プロダクトインフラUはプロダクトを動かすための共通インフラを維持・管理しており、 データテクノロジーUは各サービスへの技術支援や全社横断の技術検証などを行っている。
我々の取り組み状況 データ室がパブリッククラウドに持っているGPU基盤の一部をオンプレミスへ持ってきてみて、 オンプレミスを利用することに意味があるか効果測定を行いたい • データ推進室データテクノロジーUと我々(プロダクトインフラU)の共同で検討中 ◦ プロダクトインフラUがRAFTELの端にGPUサーバーを用意し、 データテクノロジーUに検証いただく構図を予定。 • 現在はパブリッククラウドで動いているGPU基盤の一部をオンプレミスへ持ってきて、
小規模なPoC環境で様々な効果測定を行うことを目論んでいる。
GPUサーバーの導入検討 プロダクト系 (エンジニア組織) はオンプレミスとパブリッククラウドを共に利用しているが、 データ系は100%をパブリッククラウドに依存している状況がある。 現在見えている点として以下のような項目がある。 1. オンプレミスへ持ってくるとして、どのような用途のサーバーで旨味があるか? → 推論用の規模でオンプレミスのメリットが大きそうという結論
2. HW構成はどうするか? → GPUはNVIDIA一択なのか?など広く検討中 3. サーバー以外の構成 (ネットワーク・ストレージなど) はどのようにするか? → 未検討、GPUサーバー特有のお作法があるため それとRAFTELの現行構成との間に折り合いをつける必要がありそう 4. OSや仮想化レイヤについてどのようにするのが最適か? → 未検討 この後のサーバー冷却の話なども密接に絡んでおり、 現在複合的に検討を進めている最中である。
Agenda 1. リクルートの持つプライベートクラウド「RAFTEL」 2. オンプレミスGPU基盤の検討 3. サーバーの冷却技術 4. まとめ
RAFTEL標準サーバー Server 1 Server 2 Server 3 Server 4 搭載CPU
(TDP) Intel Xeon E5-2667v4 (135W) Intel Xeon Gold 6146 (165W) Intel Xeon Gold 6342 (230W) Intel Xeon Gold 6438M (205W) コア数 [Cores/2Sockets] 16 24 48 64 メモリ搭載量 [GB] 256 384 768 1024 入力電力/実効消費電力 515W/270W 490W/306W 670W/455W 670W/455W 搭載数 [Nodes/Rack] 24 24 16 16 RAFTELのサーバーは4世代が混在しており、それぞれ以下のような諸元となる
RAFTEL標準サーバー Server 1 Server 2 Server 3 Server 4 搭載CPU
(TDP) Intel Xeon E5-2667v4 (135W) Intel Xeon Gold 6146 (165W) Intel Xeon Gold 6342 (230W) Intel Xeon Gold 6438M (205W) コア数 [Cores/2Sockets] 16 24 48 64 メモリ搭載量 [GB] 256 384 768 1024 入力電力/実効消費電力 515W/270W 490W/306W 670W/455W 670W/455W 搭載数 [Nodes/Rack] 24 24 16 16 RAFTELのサーバーは4世代が混在しており、それぞれ以下のような諸元となる CPUの高性能化によってコア数は4倍になったが、 必要な電力量も倍近くにまで増加
RAFTEL標準サーバー Server 1 Server 2 Server 3 Server 4 搭載CPU
(TDP) Intel Xeon E5-2667v4 (135W) Intel Xeon Gold 6146 (165W) Intel Xeon Gold 6342 (230W) Intel Xeon Gold 6438M (205W) コア数 [Cores/2Sockets] 16 24 48 64 メモリ搭載量 [GB] 256 384 768 1024 入力電力/実効消費電力 515W/270W 490W/306W 670W/455W 670W/455W 搭載数 [Nodes/Rack] 24 24 16 16 RAFTELのサーバーは4世代が混在しており、それぞれ以下のような諸元となる TDPの上昇によって消費電力は今後も増加する見込み (次期サーバーにおいてはTDP500WのCPUまで検討中)
RAFTEL標準サーバー Server 1 Server 2 Server 3 Server 4 搭載CPU
(TDP) Intel Xeon E5-2667v4 (135W) Intel Xeon Gold 6146 (165W) Intel Xeon Gold 6342 (230W) Intel Xeon Gold 6438M (205W) コア数 [Cores/2Sockets] 16 24 48 64 メモリ搭載量 [GB] 256 384 768 1024 入力電力/実効消費電力 515W/270W 490W/306W 670W/455W 670W/455W 搭載数 [Nodes/Rack] 24 24 16 16 RAFTELのサーバーは4世代が混在しており、それぞれ以下のような諸元となる 電力と冷却をボトルネックとして、 1ラックに積めるサーバー台数が徐々に減っている
RAFTEL標準サーバー Server 1 Server 2 Server 3 Server 4 搭載CPU
(TDP) Intel Xeon E5-2667v4 (135W) Intel Xeon Gold 6146 (165W) Intel Xeon Gold 6342 (230W) Intel Xeon Gold 6438M (205W) コア数 [Cores/2Sockets] 16 24 48 64 メモリ搭載量 [GB] 256 384 768 1024 入力電力/実効消費電力 515W/270W 490W/306W 670W/455W 670W/455W 搭載数 [Nodes/Rack] 24 24 16 16 RAFTELのサーバーは4世代が混在しており、それぞれ以下のような諸元となる 電力と冷却をボトルネックとして、 1ラックに積めるサーバ台数が徐々に減っていく つまり... サーバーの高性能化に伴ってサーバー台数を減らすことはできたが、 サーバーラック台数を減らすことはほとんどできていない
Power Usage Effectiveness (PUE) リクルートには2030年までにカーボンニュートラルを実現という目標があるが、 これに向けてサーバー冷却に利用する電力を減らすことが重要 以下に示す式により算出されるPUEという値がある。 これが1に近いほど、系の電力効率が優れることを示している。 サーバーが利用する電力は「計算に利用する電力」「冷却に利用する電力」の2種類があり、 PUEの良化には「冷却に利用する電力」を減らすことが重要である。
マシンルーム全体を空気により冷やしている サーバー冷却手法 ~空冷と液冷~ 日本における現在の冷却手法の主流は空冷であるが、 これを液冷とすることにより効率が向上する。 液体 空気 空気 液体 液体
発熱部品を直接液体冷却するため部屋の冷却は不要 チラー チラー 空冷 液冷 CPU/GPU CPU/GPU エアコン 熱交換機 サーバーのファン
マシンルーム全体を空気により冷やしている サーバー冷却手法 ~空冷と液冷~ 日本における現在の冷却手法の主流は空冷であるが、 これを液冷とすることにより効率が向上する。 液体 空気 空気 液体 液体
発熱部品を直接液体冷却するため部屋の冷却は不要 チラー チラー 空冷 液冷 CPU/GPU CPU/GPU サーバーのファン エアコン ロス ロス 熱交換機
マシンルーム全体を空気により冷やしている サーバー冷却手法 ~空冷と液冷~ 日本における現在の冷却手法の主流は空冷であるが、 これを液冷とすることにより効率が向上する。 液体 空気 空気 液体 液体
発熱部品を直接液体冷却するため部屋の冷却は不要 チラー チラー 空冷 液冷 熱交換機 CPU/GPU CPU/GPU エアコン ロス ロス ロス サーバーのファン
マシンルーム全体を空気により冷やしている サーバー冷却手法 ~空冷と液冷~ 日本における現在の冷却手法の主流は空冷であるが、 これを液冷とすることにより効率が向上する。 液体 空気 空気 液体 液体
発熱部品を直接液体冷却するため部屋の冷却は不要 チラー チラー 空冷 液冷 CPU/GPU CPU/GPU エアコン ロス ロス ロス ロス 熱交換機 サーバーのファン
液体冷却手法 ~リアドア冷却~ 冷気 暖気 冷気 冷気 通常の空冷ラックにおいては、 室温の空気を吸気し、 サーバーの熱とともに大気排出する。 リアドア冷却の場合、マシンルームへ排気する前に
ラックの後部で気体の冷却を行う。(上図破線部分) リアドア冷却は一般的に液体によって行うため、 マシンルームには水冷配管を要するが、 サーバー本体は空冷用のものを利用可能 チラーとの冷却水の交換
液体冷却手法 ~直接液体冷却~ CPUのみ液体冷却 (残りの熱は空冷) CPU・GPU・RAM・NI Cを液体冷却 (100%をDLC) Coolant Distribution Unit
(CDU) サーバーへ クーラントを送る管 直接液体冷却 (Direct Liquid Cooling: DLC) はベンダー各社によって対応状況が異なり、 CPUのみ液体冷却が可能・100%をDLCにて熱除去可能などさまざまである。 チラーとの 冷却水の交換
液体冷却手法 ~液浸冷却~ 液槽 熱交換器 (CDU) 1. 加熱された冷却液は サーバーラックから排出され、 熱交換器 (CDU)
へと向かう。 2. 熱交換器はチラーから送られてきた 冷却水と熱交換を行う。 液槽から送られてきたクーラントは 冷やされ、再度液槽へ向かう チラー
液体冷却手法 ~液浸冷却~ 液槽 熱交換器 1. 加熱された冷却液は サーバーラックから排出され、 熱交換器 (CDU) へと向かう。
2. 熱交換器はチラーから送られてきた 冷却水と熱交換を行う。 液槽から送られてきたクーラントは 冷やされ、再度液槽へ向かう チラー
液体冷却手法 ~各手法比較~ 冷却タイプ 想定PUE 対応可能熱量 導入コスト ランニング コスト 設置難易度 部品故障率
発揮できる性能 空冷 1.6 ~ 2.2 ~15kVA 低 中 低 高 低 リアドア 1.2 ~ 1.6 ~50kVA 中 中 中 高 中 直接液冷 (DLC) 1.01 ~ 1.4 50kVA ~無制限 中 低 中 中 中〜最高 液浸 1.02 ~ 1.1 無制限 高 中 高 低 高 前ページまでの内容をまとめると、各手法は相対的に以下のように言える。
液体冷却手法 ~各手法比較~ 冷却タイプ 想定PUE 対応可能熱量 導入コスト ランニング コスト 設置難易度 部品故障率
発揮できる性能 空冷 1.6 ~ 2.2 ~15kVA 低 中 低 高 低 リアドア 1.2 ~ 1.6 ~50kVA 中 中 中 高 中 直接液冷 (DLC) 1.01 ~ 1.4 50kVA ~無制限 中 低 中 中 中〜最高 液浸 1.02 ~ 1.1 無制限 高 中 高 低 高 前ページまでの内容をまとめると、各手法は相対的に以下のように言える。 これらの手法を現在検討中
液冷サーバーの検討状況 RAFTELで液冷サーバーを導入すると以下のようなメリットが考えられるため、 導入する冷却手法などについて鋭意検討中 • サーバーラック台数の減少による不動産コストの大幅削減ができそう • サーバーラックの減少によるエッジスイッチの大幅削減が可能になる • 電力使用の効率化による電気代の削減ができる •
電力使用の低減によるリクルートホールディングスのカーボンニュートラル目標への寄与 • 冷却能力の向上により、CPU (GPU) の性能向上 (サーマルスロットリングを回避) 現在、データセンター側で液冷用の部屋を増築中のため、 液冷用の部屋の提供スケジュールが決まり次第、本検討を加速していく予定である。
Agenda 1. リクルートの持つプライベートクラウド「RAFTEL」 2. オンプレミスGPU基盤の検討 3. サーバーの冷却技術 4. まとめ
まとめ • RAFTELは一大変革期にあり、その中で通常のEoSL対応以外にも将来に向けたあり方を模 索している。 • 新たな取り組みとして、「GPUインスタンスの導入検討」「サーバーラックの高集約化に よるコスト削減(= サーバー冷却技術検討)」などに取り組んでいる。 • 検討中の内容であるため、プロジェクトが完遂した暁にはどこかで改めて報告したい。