Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AIスパコン「さくらONE」のLLM学習ベンチマークによる性能評価 / SAKURAONE L...

AIスパコン「さくらONE」のLLM学習ベンチマークによる性能評価 / SAKURAONE LLM Training Benchmarking

Cloud Operator Days Tokyo 2025 Closing Event Keynote (20min)
https://cloudopsdays.com/closing/

LLMなどの大規模なAI基盤モデルの学習は、GPU計算ノード、高速ネットワークやスケーラブルなストレージを統合した高性能計算インフラを必要とします。さくらインターネットでは、この要件に最適化した大規模AI学習向けマネージドHPCクラスタ「さくらONE」を提供しています。 本講演では、MLPerf Trainingベンチマークスイートを用いたGPT-3の分散学習によるAIスパコンの評価事例を紹介します。 特に、分散学習ワークロードの特性、さくらONEのシステム構成と性能評価結果、および、処理効率を計るためのテレメトリー分析の観点を取り上げます。

Avatar for Yuuki Tsubouchi (yuuk1)

Yuuki Tsubouchi (yuuk1)

September 05, 2025
Tweet

More Decks by Yuuki Tsubouchi (yuuk1)

Other Decks in Research

Transcript

  1. プロフィール さくらインターネット研究所 上級研究員 博 士 (情報学) 2013-2018 2 株式会社はてな  

    Webオペレーションエンジニア/SRE ͘͞ΒΠϯλʔωοτɹ 2019-ݱࡏ 坪内 佑樹 @yuuk1t 2020-2023 ژ౎େֶେֶӃ ৘ใֶݚڀՊ ത࢜ޙظ՝ఔ ςϨϝτϦʔ/AIOpsͷݚڀ 京都市在住
  2. 深層学習の処理の流れ 反復構造をもつ Webアプリケーションのようなトランザク ション型ではなく、バッチ型のワークロード ॱ఻ൖ ޡࠩ ٯ఻ൖ ύϥϝʔλ ߋ৽ ޡࠩࢉग़

    ޯ഑ ֶशσʔλ ॱ఻ൖ ʜ ֶशσʔλ ΦϓςΟϚΠβ ޡࠩΛখ͘͢͞Δ ύϥϝʔλࢉग़ ൓෮̍ ൓෮̎ 1. ෼ࢄֶशͱΠϯϑϥͷجຊ --.։ൃͰ͸ֶशδϣϒΛԿճ ΋౤ೖͯ͠ࢼߦࡨޡ͢ΔͨΊɺ δϣϒ࣮ߦΛߴ଎Խ͍ͨ͠ 5
  3. 分散深層学習 - データ並列(DP) モデルをGPUごとに複製し、データを分割して並列処理 ॱ఻ൖ ٯ఻ൖ ύϥϝʔλ ߋ৽ ॱ఻ൖ ٯ఻ൖ

    ύϥϝʔλ ߋ৽ ॱ఻ൖ ٯ఻ൖ ύϥϝʔλ ߋ৽  "MM3FEVDF ʢ૯࿨ʣ (16 (16 (16 ֤(16ϝϞϦ্ͷܭࢉ݁ՌΛू໿ԋࢉ ͠ɺ֤(16্ͷϝϞϦ΁݁ՌΛ഑෍ ूஂ௨৴ 6 1. ෼ࢄֶशͱΠϯϑϥͷجຊ
  4. モデルのパラメータ数増 大 メモリの壁(Memory Wall) (IPMBNJ "NJS FUBM "JBOE.FNPSZ8BMMz *&&&.JDSP 'JH

    B ΑΓసࡌ Ϟσϧύϥϝʔλ਺͕ ೥Ͱഒ "*ΞΫηϥϨʔλʢ(16 516ʣͷϝϞϦྔ͸೥Ͱഒ 7 1. ෼ࢄֶशͱΠϯϑϥͷجຊ
  5. 分散深層学習 - モデル並列 モデルを分割する ςϯιϧฒྻʢ51ʣ ॱ ߋ৽ ( 1 6

     ٯ ύΠϓϥΠϯฒྻʢ11ʣ ॱ ॱ ॱ ٯ ٯ ٯ ߋ৽ ( 1 6  Ϟσϧͷ૚Λ࿈ଓͨ͠εςʔδʹ෼ׂ ૚ ૚ ݸʑͷ૚಺ͷςϯιϧʢߦྻʣΛ෼ׂ ߋ৽ ߋ৽ ॱ ॱ ٯ ٯ ूஂ௨৴ ूஂ௨৴ (16 (16 8 1. ෼ࢄֶशͱΠϯϑϥͷجຊ
  6. 演算より通信がボトルネックへ ˞4BQJP "NFEFP FUBM4DBMJOHEJTUSJCVUFENBDIJOFMFBSOJOHXJUI*O/FUXPSLBHHSFHBUJPO/4%*  ˞,MFOL #FOKBNJO FUBM"OJOOFUXPSLBSDIJUFDUVSFGPSBDDFMFSBUJOHTIBSFENFNPSZ NVMUJQSPDFTTPSDPMMFDUJWFTz *4$"

     ਂ૚ֶशͷֶश࣌ؒʹ઎ΊΔ"MMSFEVDFͷׂ߹ਪఆ͸ɺ ˞ ˞ (16ͷුಈখ਺఺ੑೳ͸೥Ͱഒ৳ͼͨɻҰํͰωοτϫʔΫଳ Ҭͷഒ৳௕ʹ͸໿೥Λཁͨ͠ ˞ (CQTωοτϫʔΫͰ໿ (CQTωοτϫʔΫͰr 9 1. ෼ࢄֶशͱΠϯϑϥͷجຊ
  7. 3%." ʢ04ΧʔωϧόΠύεʹΑΓ$16 ͱ%3".Λܦ༝ͤͣʹ௚઀సૹʣ *O fi OJCBOE /*$ʹϝϞϦసૹΦϑϩʔυ 3%."ΛωΠςΟϒ αϙʔτͨ͠ઐ༻ωο τϫʔΫ૬ޓ઀ଓٕज़

    3P$&W *1ϧʔςΟϯάՄೳͳ6%1ϕʔε3%." ϩεϨε ϑϩʔ੍ޚ΍᫔᫓੍ޚʹΑΓύέοτϩεΛθϩʹ͚ۙͮΔ ˞-J 8FOYVF FUBM 6OEFSTUBOEJOHDPNNVOJDBUJPODIBSBDUFSJTUJDTPGEJTUSJCVUFEUSBJOJOHz "1/FU  ˞'JHVSF B ΑΓసࡌ ネットワーク通信の 高 速化技術 10 1. ෼ࢄֶशͱΠϯϑϥͷجຊ
  8. さくらONEとは 2. ͘͞ΒONE LLMの開発 用 にさくらインターネットで 自 社構築したマネージドHPCクラスタ 501 )1--*/1"$,

    ੈքҐ )1$( )1$਺஋ԋࢉΞϓϦέʔγϣϯ ੈքҐ )1-.Y1 "*޲͚ͷ୯ਫ਼౓΍൒ਫ਼౓ԋࢉੑೳ ੈքҐ *0 ετϨʔδ*0ੑೳ ੈքҐ インターコネクトネットワークは、 TOP500の上位100位以内では唯 一 ベンダー中 立 でオープンな技術を採 用 ISC2025にてスパコン性能ランキングTOP500 世界49位を獲得 SONiC OSと800 GbE Ethernet 13
  9. さくらONEのクラスタ構成 4QJOF -FBG 7FOEPS40/J$3P$&W ',POJTIJ4",63"0/&&NQPXFSJOH5SBOTQBSFOUBOE 0QFO"*1MBUGPSNTUISPVHI1SJWBUF4FDUPS)1$*OWFTUNFOU JO+BQBOBS9JW  ૚ͷ-FBG4QJOFߏ੒ /*$

    ʜʜ (C& (C& (16 (16 (16 (16 /748*5$) (16 (16 (16 (16 3BJM0QUJNJ[FEτϙϩδ ϑϧόΠηΫγϣϯ ܭࢉ ϊʔυ /*$ ʜʜ ετϨʔδγεςϜ ετϨʔδ༻/*$ %%/&4/79/%3 ʜʜ ʜʜ 15
  10. 分散学習ベンチマーク実施の動機 • TOP500におけるベンチマークは 一 般の計算機性能を計測するものである • さくらONEがフォーカスするLLM学習における性能を計測したい • 業界の標準的なベンチマークとしてMLPerfに着 目

    した • MLPerfベンチマークスイート:Training/Inference/Storageなど11種 • Trainingのうち、さくらONEの想定ユースケースに近しい、GPT-3 175B事 前学習とLlama2ファインチューニングを選択 ຊߨԋͷର৅ 3. LLM෼ࢄֶशͷϕϯνϚʔΫ 18
  11. MLPerf Training • スコアは学習開始から学習終了までの実時間(min) • 層数や学習率、シーケンス 長 などの学習関連のハイパーパラメータは固定 • 学習データセットは

    用 意されている • 損失が規定の閾値に達すると実 行 を停 止 (GPT-3ではLog Perplexityが2.69) • ある程度学習を進められた状態を保存したチェックポイントから学習開始 • 学習中のチェックポインティング(ストレージへの定期保存)はなし モデル側のパラメータ固定や学習終了条件の明 示 ˞$MPTFE%JWJTJPOͷ৔߹ 3. LLM෼ࢄֶशͷϕϯνϚʔΫ 19
  12. GPT-3事前学習のスコア 0SHBOJ[BUJPO 4ZTUFN/BNF (16਺ .PEFM/BNF -BUFODZ NJO /7*%*" &PTEGX@O 

     )49.(#  0SBDMF Y#.(16)  )49.(#  0SBDMF Y#.(16)  )49.(#  4",63" JOUFSOFU 4",63"0/&@O  )49.(#  VOWFSJ fi FE /7*%*" &PT@O  )49.(#  4",63" JOUFSOFU 4",63"0/&@O  )49.(#  VOWFSJ fi FE /7*%*" &PT@O  )49.(#  IUUQTNMDPNNPOTPSHCFODINBSLTUSBJOJOH3PVOEW͔ΒҰ෦ൈਮ ˞VOWFSJ fi FE͸.-$PNNPOTڠձʹ Αͬͯݕূ͞Ε͍ͯͳ͍݁ՌͰ͋Δɻ 3. LLM෼ࢄֶशͷϕϯνϚʔΫ 20
  13. GPT-3事前学習(規模が近い他システム 比 較①) 0SHBOJ[BUJPO 4ZTUFN/BNF (16਺ .PEFM/BNF -BUFODZ NJO 4",63"

    JOUFSOFU 4",63"0/&@O  )49.(#  VOWFSJ fi FE /7*%*" &PT@O  )49.(#  (16਺ɺ(16Ϟσϧɺ/8ଳҬ෯͕ಉ৚݅Ͱͷൺֱ &PT@Oʹରͯ͠ɺ4",63"0/&@O͸ͷֶश࣌ؒͱͳͬͨ 3. LLM෼ࢄֶशͷϕϯνϚʔΫ 21
  14. GPT-3事前学習(規模が近い他システム 比 較②) (16਺͕ۙ͘͠ಉҰϞσϧɺ/8ଳҬ෯ಉҰͰͷൺֱ 0SHBOJ[BUJPO 4ZTUFN/BNF (16਺ .PEFM/BNF -BUFODZ NJO

    4",63" JOUFSOFU 4",63"0/&@O  )49.(#  VOWFSJ fi FE /7*%*" &PT@O  )49.(#  &PT@OΛԾʹϊʔυͱ͢Δͱཧ૝׵ࢉͰ NJO ͱͳΓɺ 4",63"0/&@O͸ͷֶश࣌ؒ ˞4",63"0/&ʹ͸ෆརͳ৚݅Ͱͷൺֱ ྆ऀ1PEʢ46ʣ ԣஅ௨৴͋Γ 3. LLM෼ࢄֶशͷϕϯνϚʔΫ 22
  15. 分散学習の代表的な 目 標性能指標 εϧʔϓοτ ܭࢉޮ཰ .'6 .PEFM'MPQT6UJMJ[BUJPO  Ϟσϧ͕ཧ࿦తʹ࢖༻͢Δ'-014 ϋʔυ΢ΣΞͷϐʔΫ'-014

    ֶशεϧʔϓοτɹUPLFOTTFD TBNQMFTTFD ԋࢉεϧʔϓοτɹ'-014ʢ'MPBUJOHQPJOU0QFSBUJPOT1FS4FDPOEʣ ϨΠςϯγ 5JNFUP5SBJOɹֶश։͔࢝Β׬ྃ·Ͱͷ࣌ؒ 3. LLM෼ࢄֶशͷϕϯνϚʔΫ 23
  16. GPT-3事前学習(さくらONEスケーリング評価) ϊʔυ਺   5JNFUP5SBJO ʢNJOʣ   .'6 

      5'-014(16   5PLFOTTFD(16   ֶश࣌ؒ୹ॖ཰ɹɹഒ ϊʔυ਺͕ഒʹରͯ͠ )'1ࠞ߹ਫ਼౓Ͱͷԋࢉޮ཰ʢ.'6ʣͷ૬৔͸ʢr5'-014HQVʣ ԋࢉޮ཰(16ɹɹɹ ରཧ૝εέʔϦϯά ˞ৄࡉ͸෇࿥εϥΠυΛࢀর 3. LLM෼ࢄֶशͷϕϯνϚʔΫ 24
  17. GPT-3事前学習(パラメータの組み合せ) 51 11 %1 (MPCBM #4 .JDSP #4 '-014 (16

    5JNFUP5SBJO ʢNJOʣ      /PEBUB                       51ςϯιϧฒྻ౓ 11ύΠϓϥΠϯฒྻ౓ %1σʔλฒྻ౓ (MPCBM#4άϩʔόϧόοναΠζ .JDSP#4ϚΠΫϩόοναΠζ 96ノード શମͰݸͷύϥϝʔλͷ͏ͪ୅දతͳ΋ͷΛൈਮ ςϯιϧฒྻͷ ௨৴Λαʔό಺ /8Ͱ׬݁ͤͨ͞ ͍ͨΊ51 73".ʹऩ·Δൣ ғͰ%1Λ্͛Ε ͹͍͍ͱࢥ͍ͬͯ ͕ͨҙ֎ͱͦ͏Ͱ ΋ͳ͍ εΩοϓ 3. LLM෼ࢄֶशͷϕϯνϚʔΫ 25
  18. GPT-3事前学習の結果の考察 • さくらONEでは相場の範囲内の演算効率を達成できている。 • インターコネクト通信が 十 分 高 速。分散学習のチューニングも相場レベル。 •

    一方 で、さくらONEはEOSと32ノード 比 較で-8.3%、96ノード換算 比 較 で-20.7%の性能となった。 • 要因の可能性:Ethernet(RoCEv2)対In fi niband、あるいは単にチューニング不 足 • インターコネクトのトポロジ構成(Rail Optimized)は同 一 のはず • ソフトウェアスタックはOSとカーネルモジュール(ドライバなど)以外のバー ジョンは同 一 のはず 3. LLM෼ࢄֶशͷϕϯνϚʔΫ 26
  19. 今後の課題 • トップダウンアプローチ 初 手 でパラメータ設定を変えず、モデルアーキテ クチャからメモリ量や通信量を推定し、最適なパラメータの仮説を 立 てる •

    自 動チューニングにより負荷試験の試 行 錯誤を 高 速化 • DeepSpeed-Autotuning,Galvatron,Merak • FixstarsさんがAI Boosterを提供 • オブザーバビリティの 高 度化によるチューニングの効率化 ˞ϑΟοΫελʔζɺ͘͞ΒΠϯλʔωοτ͕ఏڙ͢ΔʮߴՐྗ1):ʯͷ࠷৽(16౥ࡌػΛ"*#PPTUFSͰύϑΥʔϚϯε࠷େԽ  IUUQTOFXT fi YTUBSTDPN 0CTFSWBCJMJUZ$POGFSFODF5PLZPʢʣʹͯߨԋ༧ఆ ˞ εΩοϓ 30 4. ·ͱΊ
  20. (宣伝)さくらインターネットの 高 火 力 サービス 高火力 PHY 高火力 VRT 高火力

    DOK さくらONE (提供予定) ベアメタル 仮想マシン コンテナ IUUQTHQVTBLVSBBEKQHQVDMPVETFSWJDF େن໛ খن໛ (V100, H100) (V100, H100) (H100,H200 B200) 32 4. ·ͱΊ
  21. 参考 文 献 • Yuichiro Ueno, PFNにおけるアクセラレータ間通信の実際, MPLS Japan 2024,

    https:// speakerdeck.com/pfn/mpls-japan-2024 . • Kazuki Fujii, GENIAC: 172B 事前学習知 見 , 2024 https://zenn.dev/tokyotech_lm/articles/ deb8012251bb68. • NVIDIA Corporation, NVIDIA DGX SuperPOD: Next GenerationScalable Infrastructure for AI Leadership, 2023. • NVIDIA Corporation, NVIDIA NeMo Framework User Guide. • Casey, Analysis of NVIDIA ’ s Latest Hardware: B100/B200/GH200/NVL72/SuperPod, https://www. fi bermall.com/blog/nvidia-b100-b200-gh200-nvl72-superpod.htm • その他本 文 スライド中に引 用 した論 文 など 33
  22. 本講演で触れていないこと • GPUそのもののアーキテクチャや処理系、低精度/半精度/混合精度計算 • 集団通信やRingアルゴリズムの詳細 • RDMA、GPUDirect RDMA、ECN/PFC/DCQCNなどインターコネクトネットワークの技術 • Zero-1/2/3,

    Activation Checkpointing, FlashAttentionなどのメモリ使 用 量削減法 • ストレージの構成とその 用 途 • ソフトウェアスタックにおける各要素の詳細 • モニタリング・オブザーバビリティ • … 35 Appendix
  23. GPUメモリ上の代表的なデータ ύϥϝʔλʢXFJHIUTʣ ΦϓςΟϚΠβঢ়ଶ (1673".ۭؒ Ϟσϧঢ়ଶʢֶशεςοϓΛԣஅʣ Ұ࣌σʔλʢεςοϓ಺ͷΈʣ ೖྗϛχόον தؒ׆ੑԽʢBDUJWBUJPOTʣ ॏΈߦྻͱόΠΞεͳͲ '1ϚελॏΈɺޯ഑ͷ

    ཤྺɾ෼෍౷ܭྔͳͲ ಛ௃ྔɾϥϕϧͳͲ ॱ఻ൖͷ૚͝ͱͷܭࢉ݁Ռ ޯ഑ʢHSBEJFOUTʣ ٯ఻ൖͰܭࢉ͞ΕΔ݁Ռ େن໛Ϟσϧ͸ ̍(16ϝϞϦ ʹ৐Γ੾Βͳ͍ 36 Appendix
  24. AIスパコンのソフトウェアスタック例 多層に折り重なった複雑な構成 εέδϡʔϥ 4MVSN ,VCFSOFUFT ίϯςφ /7*%*"$POUBJOFS5PPMLJU &OSPPU 1ZYJT 4JOHVSBMJUZ

    ෼ࢄֶशϑϨʔϜϫʔΫ .FHBUSPO-. %FFQ4QFFE 1ZUPSDI'4%1 /F.P ֶशϑϨʔϜϫʔΫ 1Z5PSDI 5FOTPS fl PX +"9 ूஂ௨৴ϥΠϒϥϦ /$$- 3$$- 3%."ϥΠϒϥϦ JCWFSCT SENBDPSF ܭࢉߴ଎ԽϥΠϒϥϦ DV#-"4DV#-"4-U DV%// 5SBOTGPSNFS&OHJOF ϥϯλΠϜυϥΠό $6%" OWJEJBESJWFST ˞IUUQTEPDTOWJEJBDPNOFNPGSBNFXPSLVTFSHVJEFMBUFTUTPGUXBSFDPNQPOFOUWFSTJPOTIUNM Ϣʔβʔ͕ ֶशδϣϒΛൃߦ 37 Appendix
  25. TOP500 (ISC2025) 世界49位 国内9位 3BOL 4ZTUFN 0SHBOJ[BUJPO 3NBY 1'MPQT 

    'VHBLV 3*,&/$FOUFSGPS$PNQVUBUJPOBM 4DJFODF   "#$* "*45   $)*& 4PGU#BOL$PSQ   $)*& 4PGU#BOL$PSQ   "#$*2 "*45   '15"*'BDUPSZ+BQBO '15"*'BDUPSZ+BQBO   .JZBCJ( +PJOU$FOUFSGPS"EWBODFE)JHI 1FSGPSNBODF$PNQVUJOH   546#".& $** *OTUJUVUFPG4DJFODF5PLZP   4",63"0/& 4",63"*OUFSOFU*OD 1SVOVT4PMVUJPOT*OD  ࠃ಺γεςϜ্ҐͷΈൈਮ IUUQTUPQPSHMJTUTUPQ 38 Appendix
  26. H100 BF16/FP8混合精度 MFU • ピークFLOPSとして、 文 献では1,979 TFLOPS を採 用

    されている • FP8 Tensor Coreは 3,958 TFLOPS(※1)だが、Sparseなしなら1,979 ˞/7*%*")5FOTPS$PSF(16%BUBTIFFUIUUQTSFTPVSDFTOWJEJBDPNFOVTIPQQFSBSDIJUFDUVSFOWJEJBUFOTPSDPSFHQV EBUBTIFFU ˞IUUQTDBUBMPHOHDOWJEJBDPNPSHTOWJEJBUFBNTEHYDCFODINBSLJOHSFTPVSDFTMMBNBCEHYDCFODINBSLJOHD ˞ -MBNB# .'6d ˞ ˞IUUQTTFNJBOBMZTJTDPNIDMVTUFSTQPXFSOFUXPSL .'6 ˞ USJMMJPOQBSBNFUFSUSBJOJOH -MBNB# ˞IUUQTTFNJBOBMZTJTDPNIWTHCOWMUSBJOJOHCFODINBSLT .'6 ˞ ˞IUUQTXXXEBUBCSJDLTDPNKQCMPHUVSCPDIBSHFEUSBJOJOHPQUJNJ[JOHEBUBCSJDLTNPTBJDBJTUBDLGQ .15CdC .'6d ˞ 39 Appendix
  27. はじめて分散学習やスパコンに触れた所感 クラウドオペレーター視点 • クラウド( 足 りなければ即スケールアウト) vs HPC(現状リソース使い切り) • Webアプリに

    比 べカスタムのロジックが少ない。フレームワーク層で吸収され、 ユーザーは設定に関するコーディングにのみ注 力 する • フレームワーク設定の 一 つ 一 つが論 文 で提案されたものが多いため奥深い • オブザーバビリティが不 足 しがち。集団通信のトレーシングをやってみたくなる 40 Appendix