Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ストレージエンジニアの仕事と、近年の計算機について / 第58回 情報科学若手の会

ストレージエンジニアの仕事と、近年の計算機について / 第58回 情報科学若手の会

第58回 情報科学若手の会にて行ったスポンサーセッションの資料です。
ストレージエンジニアとしての新卒の仕事内容と、それに絡めてここ数年のストレージハードウェア、サーバー、ネットワークの動向や新技術紹介を行いました。

若手の会ホームページ: https://wakate.org/2025/08/18/58th-general/

Avatar for Preferred Networks

Preferred Networks PRO

October 27, 2025
Tweet

More Decks by Preferred Networks

Other Decks in Technology

Transcript

  1. 3 氏名: 所属: 経歴 その他 自己紹介 丸山 泰史 株式会社 Preferred

    Networks 基盤技術部 ストレージチーム 木更津高専 筑波大学・大学院 ICTSC運営 SecHack365 Seccamp 17, 18, 25
  2. 5 Preferred Networks (PFN) 会社概要 設立 本社 代表取締役 従業員数 事業内容

    主要子会社 出資企業 (五十音順) 2014年3月26日 東京都千代田区 西川徹(最高経営責任者) 岡野原大輔(最高技術責任者) 約350名(2025年2月) AIチップ、計算基盤、生成AI基盤モデルなどのAI関連技術を 活用したソリューション・製品の開発・販売および研究開発 Matlantis株式会社(2021年6月設立、2025年7月Preferred Computational Chemistryから社名変更) 株式会社Preferred Robotics(2021年11月設立) 株式会社Preferred Computing Infrastructure(2025年1月設立) SBIグループ NTT株式会社 ENEOSイノベーションパートナーズ合同会社 株式会社講談社 信越化学工業株式会社 SUMISEI INNOVATION FUND 積水ハウス投資事業有限責任組合 中外製薬株式会社 TBSイノベーション・パートナーズ3号投資事業組合 TEL Venture Capital, Inc. 東映アニメーション株式会社 トヨタ自動車株式会社 株式会社日本政策投資銀行 株式会社博報堂DYホールディングス 株式会社日立製作所 ファナック株式会社 株式会社みずほ銀行 三井住友信託銀行株式会社 三井物産株式会社 三菱商事株式会社 三菱UFJ信託銀行株式会社 株式会社ワコム 他 ミッション: 現実世界を計算可能にする https://www.preferred.jp
  3. 6 PFNの事業: AI技術のバリューチェーンを垂直統合 AIソリューション・製品 計算基盤 AIチップ 生成AI基盤モデル 様々な産業向けのAIソリューション・製品 MN-Core MN-Core

    2 GPUクラスタ MN-3 (MN-Coreクラスタ) PLaMo Prime(国産LLM) PLaMo Lite(エッジ向けSLM) MN-Core 次世代 MN-Core 2を 計算資源とした クラウドサービス 物質のエネルギー計算モデル PFP 生成AI(推論)向け MN-Core L1000 (2027年提供予定) PFNは、チップ、計算基盤、生成AI基盤モデル、ソリューション・製品まで、AI技術のバリューチェーン を垂直統合し、ソフトウェアとハードウェアを高度に融合することで、競争力の高い技術の開発および産 業応用を進めています。
  4. 8 PFN の自社計算基盤 Icon pack by Icons8 - https://icons8.com MN-2b

    (A30) 42 nodes (252 GPUs) A30 (24 G) PCIe x 6 100 GbE x 2 RoCEv2 with SR-IOV MN-2b (A100) 42 nodes (168 GPUs) A100 (80 G) SXM4 x 4 100 GbE x 2 RoCEv2 with SR-IOV MN-2a 128 nodes (1024 GPUs) V100 (16 / 32 G) SXM2 x 8 100 GbE x 4 RoCEv2 with SR-IOV MN-3 48 nodes (192 MN-Cores) MN-Core x 4 100 GbE x 2 MN-Core DirectConnect 80 CPU Cores 128 CPU Cores 48 CPU Cores 36 CPU Cores DDR4 384 GB DDR4 384 GB DDR4 1024 GB DDR4 512 GB
  5. 9 PFNの自社計算基盤 MN-2a, MN-2b MN-3 Icon pack by Icons8 -

    https://icons8.com MN-2b A100 x168, A30 x252 Object Storage SATA HDD 14 TB x2160 100G IP-Clos Network Login Node NFS (home, archive) 世界1位!! (ISC20, ISC21, SC21) MN-3 MN-Core x192 MN-2a V100 x1024 ストレージサーバ
  6. 12 誰もが MN-Core™ シリーズを利用できる AI クラウドサービス Preferred Computing Platform Preferred

    Computing Platform(以下、PFCP)は株式会社 Preferred Networks(以下、PFN)が構築 運用する深層学習・AI ワークロード向けのクラウドサービスです。PFNが開発する独自アクセラレータであ るMN-Core™ シリーズを唯一利用でき、最先端の性能と効率性を備えています。 強力な計算ノード MN-Core 2ボードを8基搭載した MN-Core 2サー バを複数専有して利用できます。すべてのノードは 深層学習に最適化された高速なネットワークで相互 に接続されています。 フルマネージドサービス 深層学習・AI ワークロード向けに拡張された Kubernetes クラスタをマルチテナントで利用でき ます。実験から大規模分散学習、推論サーバの 高可用な運用まで幅広く行えます。ワークロードの 状況を観測するためのマネージドなモニタリング サービスも付随しています。 MN-Core 2 サーバの構成 アクセラレータ MN-Core 2 × 8基 (FP64 96TFlops, FP32 392TFlops, TF32 784TFlops, TF16 3.1PFlops) CPU Intel® Xeon® Platinum 8480+(2.0GHz) プロセッサー x 2基,合計112コア Memory 1,024GiB Interconnect 100Gbps Ethernet x4 OS コンテナ ワークロード ベアメタル https://pfcomputing.com
  7. 16 PFNの事業: AI技術のバリューチェーンを垂直統合 AIソリューション・製品 計算基盤 AIチップ 生成AI基盤モデル 様々な産業向けのAIソリューション・製品 MN-Core MN-Core

    2 GPUクラスタ MN-3 (MN-Coreクラスタ) PLaMo Prime(国産LLM) PLaMo Lite(エッジ向けSLM) MN-Core 次世代 MN-Core 2を 計算資源とした クラウドサービス 物質のエネルギー計算モデル PFP 生成AI(推論)向け MN-Core L1000 (2027年提供予定) PFNは、チップ、計算基盤、生成AI基盤モデル、ソリューション・製品まで、AI技術のバリューチェーン を垂直統合し、ソフトウェアとハードウェアを高度に融合することで、競争力の高い技術の開発および産 業応用を進めています。
  8. アプリケーション 基盤系のソフトウェア( kubernetes) システム構成(systemd, eBGP, IP, ファイルシステム, デバイスドライバ) OS ブートローダー、netboot(PXE)、DHCP

    サーバーハードウェア ネットワークハードウェア 電力・物理配線 技術レイヤー 手分けして部署で全体を開発・運用
  9. 運用 • 定常的なもの ◦ アップデート(OS、分散ファイルシステム) ◦ エコシステム(k8s, クライアント, ライブラリ...) •

    非定常的なもの ◦ 設定変更(クオータ、権限、) ◦ 機能追加 ◦ ノード間のバランシング
  10. 障害対応 台数が多ければ物理故障は頻繁に起こる • HDD・SSD: 月に1枚程度 • 光トランシーバー・AOC: 月に1~2つ程度 • ノード故障(メモリ・PSU・ファン等):

    ごく稀に 故障が起きたら ... 1. 故障を検知(or予兆を予測) 2. 物理故障を確認 3. ベンダーに保証対象か確認 (委託) 4. 物理交換作業 (委託) 5. 復旧作業 6. 在庫の交換・不良品の送付
  11. 選定・調達・検証 選定 • 要件の概要を決定 • ベンダーと機材を選定 • 見積もり・適合確認 • 機材の確定

    • 新規格の調査 調達 • 納入時期の調 査 • 発注依頼 • 納入 一人で全てをやっているわけではなく、かなり自チーム・他チームと連携している 新しくストレージを増やす時
  12. 設置・設定 設置工事 • 工事立ち会い • 実地試験 • 初期不良対応 一人で全てをやっているわけではなく、かなり自チーム・他チームと連携している 新しくストレージを増やす時

    事前環境構築 • キッティングマニュアルの作成 • 在庫の送付 • ハード・BMC検収 • BMC・BIOS設定 • 組み立て(optional)
  13. 環境構築・デプロイ • ネットワーク機器設定 ◦ ToRの設定投入、IPアドレス設計、BGPの設定、VRF&VLAN • OS・netboot ◦ OSの自動インストール •

    構成管理ツール ◦ インベントリの作成、IP設定・BGP設定の生成 ◦ 各サーバー用途ごとのAnsibleを流し込み
  14. アプリケーション 基盤系のソフトウェア( kubernetes) システム構成(systemd, eBGP, IP, ファイルシス テム, デバイスドライバ) OS

    ブートローダー、netboot(PXE)、DHCP サーバーハードウェア ネットワークハードウェ ア 電力・物理配線 最後に • 低レイヤーからインフラまで広い技術 を触れる職種です • クラウドだけではなくオンプレクラス ターを持っているので、特有のベアメタ ル知識・業務が必要になる • (PFNの)"ストレージエンジニア"の解 像度が少しでも上がってくれれば嬉し いです!
  15. アプリケーション 基盤系のソフトウェア( kubernetes) システム構成(systemd, eBGP, IP, ファイルシステム, デバイスドライバ) OS ブートローダー、netboot(PXE)、DHCP

    サーバーハードウェア ネットワークハードウェア 電力・物理配線 技術レイヤー 手分けして部署で全体を開発・運用
  16. 33 • コントローラーとCPUを繋ぐ規格 • SSDはNon Volatile Memory Express(NVME)が主流 ◦ SSD・フラッシュメモリの速度に比べてSATA/SASは遅い6Gbps/12Gbps

    • キューが大きく非同期処理を行える利点 • 古いソフトウェアスタックに依存していない • HDDにも対応している • 64K command / Queue • 64K Queue / Device • MSI-X(PCI割り込み) ◦ poll/block不要 SSDの接続規格
  17. 34 • SSDの容量増加が求められている。HDDより速く、かつ大容量な記憶媒体として使 われている。 • 2025年現在(TLC): 30〜60TB程度が限界 • セルの電圧を1bit(0,1)ではなく4bit分割 •

    近い将来の容量目測: 100TBぐらい • デメリット ◦ まとめて書き込む必要がある ◦ 電圧精度がシビア ▪ →遅い、寿命が短い • 解決策 ◦ SLC Cache ◦ TLCで高密度化(3D NAND) SSDセルの進化 電位 1 0 111 110 101 100 011 010 001 000 1111 1110 1101 1100 1011 1010 1001 1000 0111 0110 0101 0100 0011 0010 0001 0000 SLC TLC QLC
  18. 35 • HDDの大規模化が求められている • ディスクのシリンダに置く磁石のサイズは、ヘッダの最小の大きさに依存する 被せて書き込む: SMR ◦ →書き込みはシーケンシャル(ゾーン単位)、読み込みは自由 ◦

    削除はゾーン単位 HDDの大容量化(1) device-managed SMR • 部分書き込みをHDDコ ントローラー側で処理。 • OSからは通常のATAコ マンドで読み書きする host-managed SMR • OS側が直接書き込み 領域を処理 • 拡張ATAコマンドでシー ケンシャル書き込みの み行える
  19. 37 • Peripheral Component Interconnect Express • CPUと外部機器の通信を担当するバス ◦ GPU,

    NIC, SSD, USB… • PCIe 4.0: 16GT/s x1 • PCIe 5.0: 32GT/s x1 ◦ 400G NICなら5.0 x16が必要 ◦ 10GB/sなSSDなら5.0 x4 or 4.0 x8 ◦ 128b/130b NRZ ◦ ここ近年でPCIe 5.0搭載サーバーが増え始めた PCIe規格
  20. 38 • PCIe 6.0: 64GT/s x1 ◦ PAM4, FEC(前方誤り”訂正”) •

    NVMの主な転送レイヤーはPCIe。(他に、RoCe v2なども) • NVMe over Fabric ◦ NVMe Command on RDMA ◦ Block Storage PCIe規格
  21. 39 • Compute Express Link ◦ コヒーレンシがあるCPU間通信 • CXL.io: 外部デバイスIO通信(NIC等)

    • CXL.cache: GPUなどとキャッシュの一貫性規 格 • CXL.mem: RAM, pmemなど、メモリ管理規格 • CXL.ioはアンダーレイにPCIe 5.0を採用 (≠PCIe5.0はCXLである) • ノード間でGPUを共有、GPUのVRAMにCPU キャッシュ適用、大容量メモリをラック内のマシン で融通、など PCIe規格 (続き) images from CXL Consortium
  22. 40 ディスクのハードウェア規格 コネクタ規格 images from CC BY-SA 4.0 SATAコネクタ 端子の規格

    プロトコル SATA, mSATA SATA SAS SAS(SCSI), SATA M.2 (M Key) SATA M.2 U.2 U.3 SAS, SATA, PCIe(NVMe) E1.S E1.L E3.S E3.L (1T, 2T) U.2 M.2
  23. 41 • E1…高密度、高排熱 • E3…大容量、高速、大表面積 • ホットスワップに対応 • 信号品質 EDSFF

    (Enterprise and Datacenter Storage Form Factor) E3.L 2T E3.S 1T E1.S U.2 M.2 供給電力 ~70W ~25W ~20W 約25W 約10W PCIe lane 4~16 4~8 4 4 PCIe 6.0 ready ready ready 未定 未定 引用元: U.2は成功を収めたが、これからは EDSFFの時代 | Micron Technology Inc.
  24. 42 引用元: EDSFF E3 フォームファクター | KIOXIA - Japan (日本語)

    引用元: EDSFF E1 フォームファクター | KIOXIA - Japan (日本語)
  25. 44

  26. 46 • HPCやAIでは、複数ノードで分散処理を行う ◦ Webサービスの水平スケールに近い ◦ APIではなく、直接変数(メモリ)や関数(RPC)を呼び出して動作する ◦ “複数のサーバーで跨って動く大きな1つのソフトウェア” •

    RDMA: Remote Direct Memory Access ◦ 別のマシンのDRAMの番地を指定して、readやwriteを行う ◦ 相手のCPUサイクルを消費しない、非同期 ◦ 有名どころのハードウェアではInfinibandがある • Collective通信 ◦ All-gatherやAll-reduceなど、ブロードキャストで情報交換を行う ◦ OpenMPIなどが有名 RDMA・Collective通信
  27. 47 • InfiniBand, Omni PathなどからConverged Ethernetへ ◦ TCP/IPとの共存、L2ドメインの分割 • NICはRDMAとEthernet両対応へ

    ◦ 400G: ConnectX-7, Thor2… • 400G主流時代の終わり ◦ 数年前は100Gが高速と呼ばれていたが、現在は400Gが主流へ ◦ 400G 1ポート構成が限界、ネットワークは800G、1.6Tの時代へ ◦ OSFP, APN, DWDM • RPC・Collective通信のライブラリも多様化 ◦ MPI, UCX, NCCL 産業・民間クラスタのRDMA
  28. 48 • ジョブ収容の高密度化 ◦ GANG Scheduling • リソースの配分、ノード選択 ◦ 共有ノードにいかにジョブを詰めるか

    ◦ NP困難パズル • IO待ちの高速化 ◦ Node Local Storageの活用 ◦ Burst Buffer • 通信の高速化 ◦ SmartNIC, ハードウェアオフロード ジョブ効率化
  29. 49 • マルチノードGPU • Unified Memory(Grace Hopper, Apple Silicon) •

    GPUのスライシング • モデルサイズ100B〜 ◦ Qwen72B, GPT-OSS120B, MoE • Closネットワーク ◦ leaf-spineよりもleafが多い→横の通信が多い ◦ Adaptive Routing AI・LLM最適化
  30. 50 • 空冷では間に合わない ◦ 大気の熱容量は少ない、流量を増やすのも限界がある ◦ 水冷、液冷、直接液冷(DLC) ▪ リアドアからCPUヒートシンク直結へ ▪

    現実的であり、業界で導入実績もある ◦ 液浸...まだ商用化には時間がかかりそう • 大電力、大電流 ◦ 1ラック6kVA→30kVA、100kVAの時代へ ▪ 供給ができても、その消費電力分の熱はどうする? ◦ 200V 交流→400V 直流給電 ▪ バスバーなどが(まだ)普及してない 電力・熱
  31. 51 • 水冷・液冷方式 ◦ OCP準拠か? ◦ マニホールドの規格、1次側と2次側の液体など、決めることがたくさん ◦ 絶縁体か?漏れたらどうするのか? •

    GPU系では19インチラックは1200mm超が主流 ◦ 今までは900mm程度だった ◦ サーバーは奥に奥に長くなってゆく ◦ 42Uラック(EIA規格)には奥行きの定義がない • エアフローの高度化 ◦ コールドアイル・ホットアイルの分離 ファシリティ
  32. 52 • 技術発展でIO速度は順調に速くなっている ◦ 容量: SMR HDD, QLC SSD ◦

    通信: PCIe 5.0, CXL, EDSFF, 800Gbps ◦ 演算: スケジューリング, バッファ, マルチノード, 分散メモリ ◦ 特に各社は規格の面と物理の面で競争をしている • 現状の敵は速度より電気と熱 ◦ 液冷 • 数年先の規格・技術を見据えて常に調査や検討が必要 ◦ 出たばかりの最新なハードウェアを使って見る仕事 ◦ 実はコストパフォーマンスがいい場合もある まとめ
  33. 53 • 計算基盤関連のポジション ◦ 27卒 新卒採用 (11月募集開始) ◦ ストレージエンジニア ◦

    機械学習プラットフォームエンジニア ◦ 大規模計算基盤エンジニア • こんな環境にワクワクするかたを募集しています! ◦ 日進月歩で進化している機械学習にフォーカスした計算技術を低レイヤーから高レイヤー までトータルに吸収できる ◦ 大規模な機械学習クラスタの開発・運用が経験できる ◦ Kubernetes を始めとする OSS コミュニティでも活躍できるチャンスがある ◦ HPC と Cloud Native の境界領域というますます重要になる分野の経験ができる ◦ 多様な要求・ユーザーリテラシをサポートするプラットフォーム設計を経験できる (さいごに) We’re Hiring! 他にも様々なポジ ションがあります! 毎年夏にインターン もあります!