AIスパコン「さくらONE」のLLM学習ベンチマークによる性能評価 / SAKURAONE LLM Training Benchmarking

Slide 1

Slide 1 text

坪内佑樹 (@yuuk1t) さくらインターネット研究所 AIスパコン「さくらONE」の LLM学習ベンチマークによる性能評価 Cloud Operator Days Tokyo 2025 Closing Event Keynote 2025/09/05

Slide 2

Slide 2 text

プロフィールさくらインターネット研究所上級研究員博士（情報学） 2013-2018 2 株式会社はてな　 Webオペレーションエンジニア/SRE ͘͞ΒΠϯλʔωοτɹ 2019-ݱࡏ 坪内佑樹 @yuuk1t 2020-2023 ژ౎େֶେֶӃ ৘ใֶݚڀՊ ത࢜ޙظ՝ఔ ςϨϝτϦʔ/AIOpsͷݚڀ 京都市在住

Slide 3

Slide 3 text

本講演の趣旨 • SREがはじめてスパコンを使ってLLMの分散学習ジョブを流して性能評価してみた • 数百基のGPUを用いたLLM学習のPerformance Engineeringってどんな感じなんだろう？に応える 3

Slide 4

Slide 4 text

1. 分散学習とインフラの基本

Slide 5

Slide 5 text

深層学習の処理の流れ反復構造をもつ Webアプリケーションのようなトランザクション型ではなく、バッチ型のワークロード ॱ఻ൖ ޡࠩ ٯ఻ൖ ύϥϝʔλ ߋ৽ ޡࠩࢉग़ ޯ഑ ֶशσʔλ ॱ఻ൖ ʜ ֶशσʔλ ΦϓςΟϚΠβ ޡࠩΛখ͘͢͞Δ ύϥϝʔλࢉग़ ൓෮̍ ൓෮̎ 1. ෼ࢄֶशͱΠϯϑϥͷجຊ --.։ൃͰ͸ֶशδϣϒΛԿճ ΋౤ೖͯ͠ࢼߦࡨޡ͢ΔͨΊɺ δϣϒ࣮ߦΛߴ଎Խ͍ͨ͠ 5

Slide 6

Slide 6 text

分散深層学習 - データ並列（DP）モデルをGPUごとに複製し、データを分割して並列処理 ॱ఻ൖ ٯ఻ൖ ύϥϝʔλ ߋ৽ ॱ఻ൖ ٯ఻ൖ ύϥϝʔλ ߋ৽ ॱ఻ൖ ٯ఻ൖ ύϥϝʔλ ߋ৽ "MM3FEVDF ʢ૯࿨ʣ (16 (16 (16 ֤(16ϝϞϦ্ͷܭࢉ݁ՌΛू໿ԋࢉ ͠ɺ֤(16্ͷϝϞϦ΁݁ՌΛ഑෍ ूஂ௨৴ 6 1. ෼ࢄֶशͱΠϯϑϥͷجຊ

Slide 7

Slide 7 text

モデルのパラメータ数増大メモリの壁（Memory Wall） (IPMBNJ "NJS FUBM "JBOE.FNPSZ8BMMz *&&&.JDSP 'JH B ΑΓసࡌ Ϟσϧύϥϝʔλ਺͕ ೥Ͱഒ "*ΞΫηϥϨʔλʢ(16 516ʣͷϝϞϦྔ͸೥Ͱഒ 7 1. ෼ࢄֶशͱΠϯϑϥͷجຊ

Slide 8

Slide 8 text

分散深層学習 - モデル並列モデルを分割する ςϯιϧฒྻʢ51ʣ ॱ ߋ৽ ( 1 6 ٯ ύΠϓϥΠϯฒྻʢ11ʣ ॱ ॱ ॱ ٯ ٯ ٯ ߋ৽ ( 1 6 Ϟσϧͷ૚Λ࿈ଓͨ͠εςʔδʹ෼ׂ ૚ ૚ ݸʑͷ૚಺ͷςϯιϧʢߦྻʣΛ෼ׂ ߋ৽ ߋ৽ ॱ ॱ ٯ ٯ ूஂ௨৴ ूஂ௨৴ (16 (16 8 1. ෼ࢄֶशͱΠϯϑϥͷجຊ

Slide 9

Slide 9 text

演算より通信がボトルネックへ ˞4BQJP "NFEFP FUBM4DBMJOHEJTUSJCVUFENBDIJOFMFBSOJOHXJUI*O/FUXPSLBHHSFHBUJPO/4%* ˞,MFOL #FOKBNJO FUBM"OJOOFUXPSLBSDIJUFDUVSFGPSBDDFMFSBUJOHTIBSFENFNPSZ NVMUJQSPDFTTPSDPMMFDUJWFTz *4$" ਂ૚ֶशͷֶश࣌ؒʹ઎ΊΔ"MMSFEVDFͷׂ߹ਪఆ͸ɺ ˞ ˞ (16ͷුಈখ਺఺ੑೳ͸೥Ͱഒ৳ͼͨɻҰํͰωοτϫʔΫଳ Ҭͷഒ৳௕ʹ͸໿೥Λཁͨ͠ ˞ (CQTωοτϫʔΫͰ໿ (CQTωοτϫʔΫͰr 9 1. ෼ࢄֶशͱΠϯϑϥͷجຊ

Slide 10

Slide 10 text

3%." ʢ04ΧʔωϧόΠύεʹΑΓ$16 ͱ%3".Λܦ༝ͤͣʹ௚઀సૹʣ *O fi OJCBOE /*$ʹϝϞϦసૹΦϑϩʔυ 3%."ΛωΠςΟϒ αϙʔτͨ͠ઐ༻ωο τϫʔΫ૬ޓ઀ଓٕज़ 3P$&W *1ϧʔςΟϯάՄೳͳ6%1ϕʔε3%." ϩεϨε ϑϩʔ੍ޚ΍᫔᫓੍ޚʹΑΓύέοτϩεΛθϩʹ͚ۙͮΔ ˞-J 8FOYVF FUBM 6OEFSTUBOEJOHDPNNVOJDBUJPODIBSBDUFSJTUJDTPGEJTUSJCVUFEUSBJOJOHz "1/FU ˞'JHVSF B ΑΓసࡌ ネットワーク通信の高速化技術 10 1. ෼ࢄֶशͱΠϯϑϥͷجຊ

Slide 11

Slide 11 text

AIスパコンのクラスタ構成例 ,PLPMJT "QPTUPMPT FUBM 3FWJTJUJOH3FMJBCJMJUZJO-BSHFTDBMF.BDIJOF -FBSOJOH3FTFBSDI$MVTUFSTz )1$" 'JHΑΓసࡌ ʢετϨʔδؔ࿈লུʣ αʔόɾϥοΫɾ1PEؒ ΠϯλʔίωΫτωοτϫʔΫ d(CQT αʔό಺ΠϯλʔίωΫτ (#T 11 1. ෼ࢄֶशͱΠϯϑϥͷجຊ

Slide 12

Slide 12 text

2. さくらONE

Slide 13

Slide 13 text

さくらONEとは 2. ͘͞ΒONE LLMの開発用にさくらインターネットで自社構築したマネージドHPCクラスタ 501 )1--*/1"$, ੈքҐ )1$( )1$਺஋ԋࢉΞϓϦέʔγϣϯ ੈքҐ )1-.Y1 "*޲͚ͷ୯ਫ਼౓΍൒ਫ਼౓ԋࢉੑೳ ੈքҐ *0 ετϨʔδ*0ੑೳ ੈքҐ インターコネクトネットワークは、 TOP500の上位100位以内では唯一ベンダー中立でオープンな技術を採用 ISC2025にてスパコン性能ランキングTOP500 世界49位を獲得 SONiC OSと800 GbE Ethernet 13

Slide 14

Slide 14 text

さくらONEのシステム概要 ',POJTIJ4",63"0/&&NQPXFSJOH5SBOTQBSFOUBOE0QFO"* 1MBUGPSNTUISPVHI1SJWBUF4FDUPS)1$*OWFTUNFOUJO+BQBOBS9JW OPEFT $16DPSFT (16T /*$T (C& (C&/8 (C&4UPSBHF/8 1#4UPSBHF 2. ͘͞ΒONE 14

Slide 15

Slide 15 text

さくらONEのクラスタ構成 4QJOF -FBG 7FOEPS40/J$3P$&W ',POJTIJ4",63"0/&&NQPXFSJOH5SBOTQBSFOUBOE 0QFO"*1MBUGPSNTUISPVHI1SJWBUF4FDUPS)1$*OWFTUNFOU JO+BQBOBS9JW ૚ͷ-FBG4QJOFߏ੒ /*$ ʜʜ (C& (C& (16 (16 (16 (16 /748*5$) (16 (16 (16 (16 3BJM0QUJNJ[FEτϙϩδ ϑϧόΠηΫγϣϯ ܭࢉ ϊʔυ /*$ ʜʜ ετϨʔδγεςϜ ετϨʔδ༻/*$ %%/&4/79/%3 ʜʜ ʜʜ 15

Slide 16

Slide 16 text

,POJTIJ 'VNJLB[V4",63"0/&&NQPXFSJOH 5SBOTQBSFOUBOE0QFO"*1MBUGPSNTUISPVHI 1SJWBUF4FDUPS)1$*OWFTUNFOUJO+BQBO BS9JWQSFQSJOUBS9JW さくらONEのホワイトペーパー 2. ͘͞ΒONE 16

Slide 17

Slide 17 text

3. LLM分散学習ベンチマーク

Slide 18

Slide 18 text

分散学習ベンチマーク実施の動機 • TOP500におけるベンチマークは一般の計算機性能を計測するものである • さくらONEがフォーカスするLLM学習における性能を計測したい • 業界の標準的なベンチマークとしてMLPerfに着目した • MLPerfベンチマークスイート：Training/Inference/Storageなど１１種 • Trainingのうち、さくらONEの想定ユースケースに近しい、GPT-3 175B事前学習とLlama2ファインチューニングを選択 ຊߨԋͷର৅ 3. LLM෼ࢄֶशͷϕϯνϚʔΫ 18

Slide 19

Slide 19 text

MLPerf Training • スコアは学習開始から学習終了までの実時間（min） • 層数や学習率、シーケンス長などの学習関連のハイパーパラメータは固定 • 学習データセットは用意されている • 損失が規定の閾値に達すると実行を停止（GPT-3ではLog Perplexityが2.69） • ある程度学習を進められた状態を保存したチェックポイントから学習開始 • 学習中のチェックポインティング（ストレージへの定期保存）はなしモデル側のパラメータ固定や学習終了条件の明示 ˞$MPTFE%JWJTJPOͷ৔߹ 3. LLM෼ࢄֶशͷϕϯνϚʔΫ 19

Slide 20

Slide 20 text

GPT-3事前学習のスコア 0SHBOJ[BUJPO 4ZTUFN/BNF (16਺ .PEFM/BNF -BUFODZ NJO /7*%*" &PTEGX@O )49.(# 0SBDMF Y#.(16) )49.(# 0SBDMF Y#.(16) )49.(# 4",63" JOUFSOFU 4",63"0/&@O )49.(# VOWFSJ fi FE /7*%*" &PT@O )49.(# 4",63" JOUFSOFU 4",63"0/&@O )49.(# VOWFSJ fi FE /7*%*" &PT@O )49.(# IUUQTNMDPNNPOTPSHCFODINBSLTUSBJOJOH3PVOEW͔ΒҰ෦ൈਮ ˞VOWFSJ fi FE͸.-$PNNPOTڠձʹ Αͬͯݕূ͞Ε͍ͯͳ͍݁ՌͰ͋Δɻ 3. LLM෼ࢄֶशͷϕϯνϚʔΫ 20

Slide 21

Slide 21 text

GPT-3事前学習（規模が近い他システム比較①） 0SHBOJ[BUJPO 4ZTUFN/BNF (16਺ .PEFM/BNF -BUFODZ NJO 4",63" JOUFSOFU 4",63"0/&@O )49.(# VOWFSJ fi FE /7*%*" &PT@O )49.(# (16਺ɺ(16Ϟσϧɺ/8ଳҬ෯͕ಉ৚݅Ͱͷൺֱ &PT@Oʹରͯ͠ɺ4",63"0/&@O͸ͷֶश࣌ؒͱͳͬͨ 3. LLM෼ࢄֶशͷϕϯνϚʔΫ 21

Slide 22

Slide 22 text

GPT-3事前学習（規模が近い他システム比較②） (16਺͕ۙ͘͠ಉҰϞσϧɺ/8ଳҬ෯ಉҰͰͷൺֱ 0SHBOJ[BUJPO 4ZTUFN/BNF (16਺ .PEFM/BNF -BUFODZ NJO 4",63" JOUFSOFU 4",63"0/&@O )49.(# VOWFSJ fi FE /7*%*" &PT@O )49.(# &PT@OΛԾʹϊʔυͱ͢Δͱཧ૝׵ࢉͰ NJO ͱͳΓɺ 4",63"0/&@O͸ͷֶश࣌ؒ ˞4",63"0/&ʹ͸ෆརͳ৚݅Ͱͷൺֱ ྆ऀ1PEʢ46ʣ ԣஅ௨৴͋Γ 3. LLM෼ࢄֶशͷϕϯνϚʔΫ 22

Slide 23

Slide 23 text

分散学習の代表的な目標性能指標 εϧʔϓοτ ܭࢉޮ཰ .'6 .PEFM'MPQT6UJMJ[BUJPO Ϟσϧ͕ཧ࿦తʹ࢖༻͢Δ'-014 ϋʔυ΢ΣΞͷϐʔΫ'-014 ֶशεϧʔϓοτɹUPLFOTTFD TBNQMFTTFD ԋࢉεϧʔϓοτɹ'-014ʢ'MPBUJOHQPJOU0QFSBUJPOT1FS4FDPOEʣ ϨΠςϯγ 5JNFUP5SBJOɹֶश։͔࢝Β׬ྃ·Ͱͷ࣌ؒ 3. LLM෼ࢄֶशͷϕϯνϚʔΫ 23

Slide 24

Slide 24 text

GPT-3事前学習（さくらONEスケーリング評価） ϊʔυ਺ 5JNFUP5SBJO ʢNJOʣ .'6 5'-014(16 5PLFOTTFD(16 ֶश࣌ؒ୹ॖ཰ɹɹഒ ϊʔυ਺͕ഒʹରͯ͠ )'1ࠞ߹ਫ਼౓Ͱͷԋࢉޮ཰ʢ.'6ʣͷ૬৔͸ʢr5'-014HQVʣ ԋࢉޮ཰(16ɹɹɹ ରཧ૝εέʔϦϯά ˞ৄࡉ͸෇࿥εϥΠυΛࢀর 3. LLM෼ࢄֶशͷϕϯνϚʔΫ 24

Slide 25

Slide 25 text

GPT-3事前学習（パラメータの組み合せ） 51 11 %1 (MPCBM #4 .JDSP #4 '-014 (16 5JNFUP5SBJO ʢNJOʣ /PEBUB 51ςϯιϧฒྻ౓ 11ύΠϓϥΠϯฒྻ౓ %1σʔλฒྻ౓ (MPCBM#4άϩʔόϧόοναΠζ .JDSP#4ϚΠΫϩόοναΠζ 96ノード શମͰݸͷύϥϝʔλͷ͏ͪ୅දతͳ΋ͷΛൈਮ ςϯιϧฒྻͷ ௨৴Λαʔό಺ /8Ͱ׬݁ͤͨ͞ ͍ͨΊ51 73".ʹऩ·Δൣ ғͰ%1Λ্͛Ε ͹͍͍ͱࢥ͍ͬͯ ͕ͨҙ֎ͱͦ͏Ͱ ΋ͳ͍ εΩοϓ 3. LLM෼ࢄֶशͷϕϯνϚʔΫ 25

Slide 26

Slide 26 text

GPT-3事前学習の結果の考察 • さくらONEでは相場の範囲内の演算効率を達成できている。 • インターコネクト通信が十分高速。分散学習のチューニングも相場レベル。 • 一方で、さくらONEはEOSと32ノード比較で-8.3%、96ノード換算比較で-20.7%の性能となった。 • 要因の可能性：Ethernet(RoCEv2)対In fi niband、あるいは単にチューニング不足 • インターコネクトのトポロジ構成（Rail Optimized）は同一のはず • ソフトウェアスタックはOSとカーネルモジュール（ドライバなど）以外のバージョンは同一のはず 3. LLM෼ࢄֶशͷϕϯνϚʔΫ 26

Slide 27

Slide 27 text

苦労したこと • MLPerf公式のリファレンス実装より、過去のラウンドで投稿・公開された実装のほうが整理されている。リファレンス実装から始めてしまった。 • コンテナでバージョンが固定されていても、物理構成の微妙な差異によって動かない設定やコードはいくつかあり、修正の必要あり • 分散学習の各種概念（3D並列、集団通信など）やソフトウェア（Slurm、 NeMo、Megatron）を新規に学ぶ必要があった • ベンチマーク期間は限られるため、寝る前にジョブを複数個投入して朝結果をみる生活をしていた ˞IUUQTHJUIVCDPNNMDPNNPOTUSBJOJOH@SFTVMUT@WUSFFNBJO/7*%*" ˞ 27 3. LLM෼ࢄֶशͷϕϯνϚʔΫ

Slide 28

Slide 28 text

4. まとめ

Slide 29

Slide 29 text

本講演のまとめ • LLM学習で必要とされる基本的な並列化技術やNW技術、クラスタ構成を簡単に解説した。 • さくらインターネットではクラスタ管理がマネージド化されたスパコン「さくら ONE」を開発し、TOP500でオープンなNW技術の範疇で49位を達成した。 • さくらONEでGPT-3の事前学習ベンチマークを実施し、相場の範囲内の演算効率を達成。チューニングに課題の余地あり。 • （時間都合で割愛）Llama2ファインチューニングではベンチマーク参加企業らと同等程度の性能を達成した。 29 4. ·ͱΊ

Slide 30

Slide 30 text

今後の課題 • トップダウンアプローチ初手でパラメータ設定を変えず、モデルアーキテクチャからメモリ量や通信量を推定し、最適なパラメータの仮説を立てる • 自動チューニングにより負荷試験の試行錯誤を高速化 • DeepSpeed-Autotuning,Galvatron,Merak • FixstarsさんがAI Boosterを提供 • オブザーバビリティの高度化によるチューニングの効率化 ˞ϑΟοΫελʔζɺ͘͞ΒΠϯλʔωοτ͕ఏڙ͢ΔʮߴՐྗ1):ʯͷ࠷৽(16౥ࡌػΛ"*#PPTUFSͰύϑΥʔϚϯε࠷େԽ IUUQTOFXT fi YTUBSTDPN 0CTFSWBCJMJUZ$POGFSFODF5PLZPʢʣʹͯߨԋ༧ఆ ˞ εΩοϓ 30 4. ·ͱΊ

Slide 31

Slide 31 text

さくらインターネット関連資料 IUUQTTQFBLFSEFDLDPNTPOJDTPOJDEFHPV[IVZVO ZPOHTVSVTIFOHDIFOHBJYJBOH LFQBCVSJUVLVLVSBVEPOFUVUPXBLV IUUQTXXXKBOPHHSKQNFFUJOH KBOPHDBCMFEFTJHO 31 4. ·ͱΊ

Slide 32

Slide 32 text

（宣伝）さくらインターネットの高火力サービス高火力 PHY 高火力 VRT 高火力 DOK さくらONE （提供予定）ベアメタル仮想マシンコンテナ IUUQTHQVTBLVSBBEKQHQVDMPVETFSWJDF େن໛ খن໛ (V100, H100) (V100, H100) (H100,H200 B200) 32 4. ·ͱΊ

Slide 33

Slide 33 text

参考文献 • Yuichiro Ueno, PFNにおけるアクセラレータ間通信の実際, MPLS Japan 2024, https:// speakerdeck.com/pfn/mpls-japan-2024 . • Kazuki Fujii, GENIAC: 172B 事前学習知見 , 2024 https://zenn.dev/tokyotech_lm/articles/ deb8012251bb68. • NVIDIA Corporation, NVIDIA DGX SuperPOD: Next GenerationScalable Infrastructure for AI Leadership, 2023. • NVIDIA Corporation, NVIDIA NeMo Framework User Guide. • Casey, Analysis of NVIDIA ’ s Latest Hardware: B100/B200/GH200/NVL72/SuperPod, https://www. fi bermall.com/blog/nvidia-b100-b200-gh200-nvl72-superpod.htm • その他本文スライド中に引用した論文など 33

Slide 34

Slide 34 text

Appendix

Slide 35

Slide 35 text

本講演で触れていないこと • GPUそのもののアーキテクチャや処理系、低精度/半精度/混合精度計算 • 集団通信やRingアルゴリズムの詳細 • RDMA、GPUDirect RDMA、ECN/PFC/DCQCNなどインターコネクトネットワークの技術 • Zero-1/2/3, Activation Checkpointing, FlashAttentionなどのメモリ使用量削減法 • ストレージの構成とその用途 • ソフトウェアスタックにおける各要素の詳細 • モニタリング・オブザーバビリティ • … 35 Appendix

Slide 36

Slide 36 text

GPUメモリ上の代表的なデータ ύϥϝʔλʢXFJHIUTʣ ΦϓςΟϚΠβঢ়ଶ (1673".ۭؒ Ϟσϧঢ়ଶʢֶशεςοϓΛԣஅʣ Ұ࣌σʔλʢεςοϓ಺ͷΈʣ ೖྗϛχόον தؒ׆ੑԽʢBDUJWBUJPOTʣ ॏΈߦྻͱόΠΞεͳͲ '1ϚελॏΈɺޯ഑ͷ ཤྺɾ෼෍౷ܭྔͳͲ ಛ௃ྔɾϥϕϧͳͲ ॱ఻ൖͷ૚͝ͱͷܭࢉ݁Ռ ޯ഑ʢHSBEJFOUTʣ ٯ఻ൖͰܭࢉ͞ΕΔ݁Ռ େن໛Ϟσϧ͸ ̍(16ϝϞϦ ʹ৐Γ੾Βͳ͍ 36 Appendix

Slide 37

Slide 37 text

AIスパコンのソフトウェアスタック例多層に折り重なった複雑な構成 εέδϡʔϥ 4MVSN ,VCFSOFUFT ίϯςφ /7*%*"$POUBJOFS5PPMLJU &OSPPU1ZYJT 4JOHVSBMJUZ ෼ࢄֶशϑϨʔϜϫʔΫ .FHBUSPO-. %FFQ4QFFE 1ZUPSDI'4%1 /F.P ֶशϑϨʔϜϫʔΫ 1Z5PSDI 5FOTPS fl PX +"9 ूஂ௨৴ϥΠϒϥϦ /$$- 3$$- 3%."ϥΠϒϥϦ JCWFSCT SENBDPSF ܭࢉߴ଎ԽϥΠϒϥϦ DV#-"4DV#-"4-U DV%// 5SBOTGPSNFS&OHJOF ϥϯλΠϜυϥΠό $6%" OWJEJBESJWFST ˞IUUQTEPDTOWJEJBDPNOFNPGSBNFXPSLVTFSHVJEFMBUFTUTPGUXBSFDPNQPOFOUWFSTJPOTIUNM Ϣʔβʔ͕ ֶशδϣϒΛൃߦ 37 Appendix

Slide 38

Slide 38 text

TOP500 (ISC2025) 世界49位国内9位 3BOL 4ZTUFN 0SHBOJ[BUJPO 3NBY 1'MPQT 'VHBLV 3*,&/$FOUFSGPS$PNQVUBUJPOBM 4DJFODF "#$* "*45 $)*& 4PGU#BOL$PSQ $)*& 4PGU#BOL$PSQ "#$*2 "*45 '15"*'BDUPSZ+BQBO '15"*'BDUPSZ+BQBO .JZBCJ( +PJOU$FOUFSGPS"EWBODFE)JHI 1FSGPSNBODF$PNQVUJOH 546#".& $** *OTUJUVUFPG4DJFODF5PLZP 4",63"0/& 4",63"*OUFSOFU*OD 1SVOVT4PMVUJPOT*OD ࠃ಺γεςϜ্ҐͷΈൈਮ IUUQTUPQPSHMJTUTUPQ 38 Appendix

Slide 39

Slide 39 text

H100 BF16/FP8混合精度 MFU • ピークFLOPSとして、文献では1,979 TFLOPS を採用されている • FP8 Tensor Coreは 3,958 TFLOPS（※1）だが、Sparseなしなら1,979 ˞/7*%*")5FOTPS$PSF(16%BUBTIFFUIUUQTSFTPVSDFTOWJEJBDPNFOVTIPQQFSBSDIJUFDUVSFOWJEJBUFOTPSDPSFHQV EBUBTIFFU ˞IUUQTDBUBMPHOHDOWJEJBDPNPSHTOWJEJBUFBNTEHYDCFODINBSLJOHSFTPVSDFTMMBNBCEHYDCFODINBSLJOHD ˞ -MBNB# .'6d ˞ ˞IUUQTTFNJBOBMZTJTDPNIDMVTUFSTQPXFSOFUXPSL .'6 ˞ USJMMJPOQBSBNFUFSUSBJOJOH -MBNB# ˞IUUQTTFNJBOBMZTJTDPNIWTHCOWMUSBJOJOHCFODINBSLT .'6 ˞ ˞IUUQTXXXEBUBCSJDLTDPNKQCMPHUVSCPDIBSHFEUSBJOJOHPQUJNJ[JOHEBUBCSJDLTNPTBJDBJTUBDLGQ .15CdC .'6d ˞ 39 Appendix

Slide 40

Slide 40 text

はじめて分散学習やスパコンに触れた所感クラウドオペレーター視点 • クラウド（足りなければ即スケールアウト） vs HPC（現状リソース使い切り） • Webアプリに比べカスタムのロジックが少ない。フレームワーク層で吸収され、ユーザーは設定に関するコーディングにのみ注力する • フレームワーク設定の一つ一つが論文で提案されたものが多いため奥深い • オブザーバビリティが不足しがち。集団通信のトレーシングをやってみたくなる 40 Appendix