Slide 1

Slide 1 text

坪内 佑樹 (@yuuk1t) さくらインターネット研究所 AIスパコン「さくらONE」の LLM学習ベンチマークによる性能評価 Cloud Operator Days Tokyo 2025 Closing Event Keynote 2025/09/05 

Slide 2

Slide 2 text

プロフィール さくらインターネット研究所 上級研究員 博 士 (情報学) 2013-2018 2 株式会社はてな   Webオペレーションエンジニア/SRE ͘͞ΒΠϯλʔωοτɹ 2019-ݱࡏ 坪内 佑樹 @yuuk1t 2020-2023 ژ౎େֶେֶӃ ৘ใֶݚڀՊ ത࢜ޙظ՝ఔ ςϨϝτϦʔ/AIOpsͷݚڀ 京都市在住

Slide 3

Slide 3 text

本講演の趣旨 • SREがはじめてスパコンを使ってLLMの分散学習ジョブを流して性能評価 してみた • 数百基のGPUを 用 いたLLM学習のPerformance Engineeringってどんな 感じなんだろう?に応える 3

Slide 4

Slide 4 text

1. 分散学習とインフラの基本 

Slide 5

Slide 5 text

深層学習の処理の流れ 反復構造をもつ Webアプリケーションのようなトランザク ション型ではなく、バッチ型のワークロード ॱ఻ൖ ޡࠩ ٯ఻ൖ ύϥϝʔλ ߋ৽ ޡࠩࢉग़ ޯ഑ ֶशσʔλ ॱ఻ൖ ʜ ֶशσʔλ ΦϓςΟϚΠβ ޡࠩΛখ͘͢͞Δ ύϥϝʔλࢉग़ ൓෮̍ ൓෮̎ 1. ෼ࢄֶशͱΠϯϑϥͷجຊ --.։ൃͰ͸ֶशδϣϒΛԿճ ΋౤ೖͯ͠ࢼߦࡨޡ͢ΔͨΊɺ δϣϒ࣮ߦΛߴ଎Խ͍ͨ͠ 5

Slide 6

Slide 6 text

分散深層学習 - データ並列(DP) モデルをGPUごとに複製し、データを分割して並列処理 ॱ఻ൖ ٯ఻ൖ ύϥϝʔλ ߋ৽ ॱ఻ൖ ٯ఻ൖ ύϥϝʔλ ߋ৽ ॱ఻ൖ ٯ఻ൖ ύϥϝʔλ ߋ৽  "MM3FEVDF ʢ૯࿨ʣ (16 (16 (16 ֤(16ϝϞϦ্ͷܭࢉ݁ՌΛू໿ԋࢉ ͠ɺ֤(16্ͷϝϞϦ΁݁ՌΛ഑෍ ूஂ௨৴ 6 1. ෼ࢄֶशͱΠϯϑϥͷجຊ

Slide 7

Slide 7 text

モデルのパラメータ数増 大 メモリの壁(Memory Wall) (IPMBNJ "NJS FUBM "JBOE.FNPSZ8BMMz *&&&.JDSP 'JH B ΑΓసࡌ Ϟσϧύϥϝʔλ਺͕ ೥Ͱഒ "*ΞΫηϥϨʔλʢ(16 516ʣͷϝϞϦྔ͸೥Ͱഒ 7 1. ෼ࢄֶशͱΠϯϑϥͷجຊ

Slide 8

Slide 8 text

分散深層学習 - モデル並列 モデルを分割する ςϯιϧฒྻʢ51ʣ ॱ ߋ৽ ( 1 6  ٯ ύΠϓϥΠϯฒྻʢ11ʣ ॱ ॱ ॱ ٯ ٯ ٯ ߋ৽ ( 1 6  Ϟσϧͷ૚Λ࿈ଓͨ͠εςʔδʹ෼ׂ ૚ ૚ ݸʑͷ૚಺ͷςϯιϧʢߦྻʣΛ෼ׂ ߋ৽ ߋ৽ ॱ ॱ ٯ ٯ ूஂ௨৴ ूஂ௨৴ (16 (16 8 1. ෼ࢄֶशͱΠϯϑϥͷجຊ

Slide 9

Slide 9 text

演算より通信がボトルネックへ ˞4BQJP "NFEFP FUBM4DBMJOHEJTUSJCVUFENBDIJOFMFBSOJOHXJUI*O/FUXPSLBHHSFHBUJPO/4%*  ˞,MFOL #FOKBNJO FUBM"OJOOFUXPSLBSDIJUFDUVSFGPSBDDFMFSBUJOHTIBSFENFNPSZ NVMUJQSPDFTTPSDPMMFDUJWFTz *4$"  ਂ૚ֶशͷֶश࣌ؒʹ઎ΊΔ"MMSFEVDFͷׂ߹ਪఆ͸ɺ ˞ ˞ (16ͷුಈখ਺఺ੑೳ͸೥Ͱഒ৳ͼͨɻҰํͰωοτϫʔΫଳ Ҭͷഒ৳௕ʹ͸໿೥Λཁͨ͠ ˞ (CQTωοτϫʔΫͰ໿ (CQTωοτϫʔΫͰr 9 1. ෼ࢄֶशͱΠϯϑϥͷجຊ

Slide 10

Slide 10 text

3%." ʢ04ΧʔωϧόΠύεʹΑΓ$16 ͱ%3".Λܦ༝ͤͣʹ௚઀సૹʣ *O fi OJCBOE /*$ʹϝϞϦసૹΦϑϩʔυ 3%."ΛωΠςΟϒ αϙʔτͨ͠ઐ༻ωο τϫʔΫ૬ޓ઀ଓٕज़ 3P$&W *1ϧʔςΟϯάՄೳͳ6%1ϕʔε3%." ϩεϨε ϑϩʔ੍ޚ΍᫔᫓੍ޚʹΑΓύέοτϩεΛθϩʹ͚ۙͮΔ ˞-J 8FOYVF FUBM 6OEFSTUBOEJOHDPNNVOJDBUJPODIBSBDUFSJTUJDTPGEJTUSJCVUFEUSBJOJOHz "1/FU  ˞'JHVSF B ΑΓసࡌ ネットワーク通信の 高 速化技術 10 1. ෼ࢄֶशͱΠϯϑϥͷجຊ

Slide 11

Slide 11 text

AIスパコンのクラスタ構成例 ,PLPMJT "QPTUPMPT FUBM 3FWJTJUJOH3FMJBCJMJUZJO-BSHFTDBMF.BDIJOF -FBSOJOH3FTFBSDI$MVTUFSTz )1$" 'JHΑΓసࡌ ʢετϨʔδؔ࿈লུʣ αʔόɾϥοΫɾ1PEؒ ΠϯλʔίωΫτωοτϫʔΫ d(CQT αʔό಺ΠϯλʔίωΫτ (#T 11 1. ෼ࢄֶशͱΠϯϑϥͷجຊ

Slide 12

Slide 12 text

2. さくらONE 

Slide 13

Slide 13 text

さくらONEとは 2. ͘͞ΒONE LLMの開発 用 にさくらインターネットで 自 社構築したマネージドHPCクラスタ 501 )1--*/1"$, ੈքҐ )1$( )1$਺஋ԋࢉΞϓϦέʔγϣϯ ੈքҐ )1-.Y1 "*޲͚ͷ୯ਫ਼౓΍൒ਫ਼౓ԋࢉੑೳ ੈքҐ *0 ετϨʔδ*0ੑೳ ੈքҐ インターコネクトネットワークは、 TOP500の上位100位以内では唯 一 ベンダー中 立 でオープンな技術を採 用 ISC2025にてスパコン性能ランキングTOP500 世界49位を獲得 SONiC OSと800 GbE Ethernet 13

Slide 14

Slide 14 text

さくらONEの システム概要 ',POJTIJ4",63"0/&&NQPXFSJOH5SBOTQBSFOUBOE0QFO"* 1MBUGPSNTUISPVHI1SJWBUF4FDUPS)1$*OWFTUNFOUJO+BQBOBS9JW  OPEFT  $16DPSFT (16T /*$T (C&  (C&/8 (C&4UPSBHF/8 1#4UPSBHF 2. ͘͞ΒONE 14

Slide 15

Slide 15 text

さくらONEのクラスタ構成 4QJOF -FBG 7FOEPS40/J$3P$&W ',POJTIJ4",63"0/&&NQPXFSJOH5SBOTQBSFOUBOE 0QFO"*1MBUGPSNTUISPVHI1SJWBUF4FDUPS)1$*OWFTUNFOU JO+BQBOBS9JW  ૚ͷ-FBG4QJOFߏ੒ /*$ ʜʜ (C& (C& (16 (16 (16 (16 /748*5$) (16 (16 (16 (16 3BJM0QUJNJ[FEτϙϩδ ϑϧόΠηΫγϣϯ ܭࢉ ϊʔυ /*$ ʜʜ ετϨʔδγεςϜ ετϨʔδ༻/*$ %%/&4/79/%3 ʜʜ ʜʜ 15

Slide 16

Slide 16 text

,POJTIJ 'VNJLB[V4",63"0/&&NQPXFSJOH 5SBOTQBSFOUBOE0QFO"*1MBUGPSNTUISPVHI 1SJWBUF4FDUPS)1$*OWFTUNFOUJO+BQBO BS9JWQSFQSJOUBS9JW   さくらONEの ホワイトペーパー 2. ͘͞ΒONE 16

Slide 17

Slide 17 text

3. LLM分散学習ベンチマーク 

Slide 18

Slide 18 text

分散学習ベンチマーク実施の動機 • TOP500におけるベンチマークは 一 般の計算機性能を計測するものである • さくらONEがフォーカスするLLM学習における性能を計測したい • 業界の標準的なベンチマークとしてMLPerfに着 目 した • MLPerfベンチマークスイート:Training/Inference/Storageなど11種 • Trainingのうち、さくらONEの想定ユースケースに近しい、GPT-3 175B事 前学習とLlama2ファインチューニングを選択 ຊߨԋͷର৅ 3. LLM෼ࢄֶशͷϕϯνϚʔΫ 18

Slide 19

Slide 19 text

MLPerf Training • スコアは学習開始から学習終了までの実時間(min) • 層数や学習率、シーケンス 長 などの学習関連のハイパーパラメータは固定 • 学習データセットは 用 意されている • 損失が規定の閾値に達すると実 行 を停 止 (GPT-3ではLog Perplexityが2.69) • ある程度学習を進められた状態を保存したチェックポイントから学習開始 • 学習中のチェックポインティング(ストレージへの定期保存)はなし モデル側のパラメータ固定や学習終了条件の明 示 ˞$MPTFE%JWJTJPOͷ৔߹ 3. LLM෼ࢄֶशͷϕϯνϚʔΫ 19

Slide 20

Slide 20 text

GPT-3事前学習のスコア 0SHBOJ[BUJPO 4ZTUFN/BNF (16਺ .PEFM/BNF -BUFODZ NJO /7*%*" &PTEGX@O   )49.(#  0SBDMF Y#.(16)  )49.(#  0SBDMF Y#.(16)  )49.(#  4",63" JOUFSOFU 4",63"0/&@O  )49.(#  VOWFSJ fi FE /7*%*" &PT@O  )49.(#  4",63" JOUFSOFU 4",63"0/&@O  )49.(#  VOWFSJ fi FE /7*%*" &PT@O  )49.(#  IUUQTNMDPNNPOTPSHCFODINBSLTUSBJOJOH3PVOEW͔ΒҰ෦ൈਮ ˞VOWFSJ fi FE͸.-$PNNPOTڠձʹ Αͬͯݕূ͞Ε͍ͯͳ͍݁ՌͰ͋Δɻ 3. LLM෼ࢄֶशͷϕϯνϚʔΫ 20

Slide 21

Slide 21 text

GPT-3事前学習(規模が近い他システム 比 較①) 0SHBOJ[BUJPO 4ZTUFN/BNF (16਺ .PEFM/BNF -BUFODZ NJO 4",63" JOUFSOFU 4",63"0/&@O  )49.(#  VOWFSJ fi FE /7*%*" &PT@O  )49.(#  (16਺ɺ(16Ϟσϧɺ/8ଳҬ෯͕ಉ৚݅Ͱͷൺֱ &PT@Oʹରͯ͠ɺ4",63"0/&@O͸ͷֶश࣌ؒͱͳͬͨ 3. LLM෼ࢄֶशͷϕϯνϚʔΫ 21

Slide 22

Slide 22 text

GPT-3事前学習(規模が近い他システム 比 較②) (16਺͕ۙ͘͠ಉҰϞσϧɺ/8ଳҬ෯ಉҰͰͷൺֱ 0SHBOJ[BUJPO 4ZTUFN/BNF (16਺ .PEFM/BNF -BUFODZ NJO 4",63" JOUFSOFU 4",63"0/&@O  )49.(#  VOWFSJ fi FE /7*%*" &PT@O  )49.(#  &PT@OΛԾʹϊʔυͱ͢Δͱཧ૝׵ࢉͰ NJO ͱͳΓɺ 4",63"0/&@O͸ͷֶश࣌ؒ ˞4",63"0/&ʹ͸ෆརͳ৚݅Ͱͷൺֱ ྆ऀ1PEʢ46ʣ ԣஅ௨৴͋Γ 3. LLM෼ࢄֶशͷϕϯνϚʔΫ 22

Slide 23

Slide 23 text

分散学習の代表的な 目 標性能指標 εϧʔϓοτ ܭࢉޮ཰ .'6 .PEFM'MPQT6UJMJ[BUJPO  Ϟσϧ͕ཧ࿦తʹ࢖༻͢Δ'-014 ϋʔυ΢ΣΞͷϐʔΫ'-014 ֶशεϧʔϓοτɹUPLFOTTFD TBNQMFTTFD ԋࢉεϧʔϓοτɹ'-014ʢ'MPBUJOHQPJOU0QFSBUJPOT1FS4FDPOEʣ ϨΠςϯγ 5JNFUP5SBJOɹֶश։͔࢝Β׬ྃ·Ͱͷ࣌ؒ 3. LLM෼ࢄֶशͷϕϯνϚʔΫ 23

Slide 24

Slide 24 text

GPT-3事前学習(さくらONEスケーリング評価) ϊʔυ਺   5JNFUP5SBJO ʢNJOʣ   .'6    5'-014(16   5PLFOTTFD(16   ֶश࣌ؒ୹ॖ཰ɹɹഒ ϊʔυ਺͕ഒʹରͯ͠ )'1ࠞ߹ਫ਼౓Ͱͷԋࢉޮ཰ʢ.'6ʣͷ૬৔͸ʢr5'-014HQVʣ ԋࢉޮ཰(16ɹɹɹ ରཧ૝εέʔϦϯά ˞ৄࡉ͸෇࿥εϥΠυΛࢀর 3. LLM෼ࢄֶशͷϕϯνϚʔΫ 24

Slide 25

Slide 25 text

GPT-3事前学習(パラメータの組み合せ) 51 11 %1 (MPCBM #4 .JDSP #4 '-014 (16 5JNFUP5SBJO ʢNJOʣ      /PEBUB                       51ςϯιϧฒྻ౓ 11ύΠϓϥΠϯฒྻ౓ %1σʔλฒྻ౓ (MPCBM#4άϩʔόϧόοναΠζ .JDSP#4ϚΠΫϩόοναΠζ 96ノード શମͰݸͷύϥϝʔλͷ͏ͪ୅දతͳ΋ͷΛൈਮ ςϯιϧฒྻͷ ௨৴Λαʔό಺ /8Ͱ׬݁ͤͨ͞ ͍ͨΊ51 73".ʹऩ·Δൣ ғͰ%1Λ্͛Ε ͹͍͍ͱࢥ͍ͬͯ ͕ͨҙ֎ͱͦ͏Ͱ ΋ͳ͍ εΩοϓ 3. LLM෼ࢄֶशͷϕϯνϚʔΫ 25

Slide 26

Slide 26 text

GPT-3事前学習の結果の考察 • さくらONEでは相場の範囲内の演算効率を達成できている。 • インターコネクト通信が 十 分 高 速。分散学習のチューニングも相場レベル。 • 一方 で、さくらONEはEOSと32ノード 比 較で-8.3%、96ノード換算 比 較 で-20.7%の性能となった。 • 要因の可能性:Ethernet(RoCEv2)対In fi niband、あるいは単にチューニング不 足 • インターコネクトのトポロジ構成(Rail Optimized)は同 一 のはず • ソフトウェアスタックはOSとカーネルモジュール(ドライバなど)以外のバー ジョンは同 一 のはず 3. LLM෼ࢄֶशͷϕϯνϚʔΫ 26

Slide 27

Slide 27 text

苦労したこと • MLPerf公式のリファレンス実装より、過去のラウンドで投稿・公開された実装 のほうが整理されている。リファレンス実装から始めてしまった。 • コンテナでバージョンが固定されていても、物理構成の微妙な差異によって動 かない設定やコードはいくつかあり、修正の必要あり • 分散学習の各種概念(3D並列、集団通信など)やソフトウェア(Slurm、 NeMo、Megatron)を新規に学ぶ必要があった • ベンチマーク期間は限られるため、寝る前にジョブを複数個投 入 して朝結果を みる 生 活をしていた ˞IUUQTHJUIVCDPNNMDPNNPOTUSBJOJOH@SFTVMUT@WUSFFNBJO/7*%*" ˞ 27 3. LLM෼ࢄֶशͷϕϯνϚʔΫ

Slide 28

Slide 28 text

4. まとめ 

Slide 29

Slide 29 text

本講演のまとめ • LLM学習で必要とされる基本的な並列化技術やNW技術、クラスタ構成を簡単に 解説した。 • さくらインターネットではクラスタ管理がマネージド化されたスパコン「さくら ONE」を開発し、TOP500でオープンなNW技術の範疇で49位を達成した。 • さくらONEでGPT-3の事前学習ベンチマークを実施し、相場の範囲内の演算効率 を達成。チューニングに課題の余地あり。 • (時間都合で割愛)Llama2ファインチューニングではベンチマーク参加企業らと 同等程度の性能を達成した。 29 4. ·ͱΊ

Slide 30

Slide 30 text

今後の課題 • トップダウンアプローチ 初 手 でパラメータ設定を変えず、モデルアーキテ クチャからメモリ量や通信量を推定し、最適なパラメータの仮説を 立 てる • 自 動チューニングにより負荷試験の試 行 錯誤を 高 速化 • DeepSpeed-Autotuning,Galvatron,Merak • FixstarsさんがAI Boosterを提供 • オブザーバビリティの 高 度化によるチューニングの効率化 ˞ϑΟοΫελʔζɺ͘͞ΒΠϯλʔωοτ͕ఏڙ͢ΔʮߴՐྗ1):ʯͷ࠷৽(16౥ࡌػΛ"*#PPTUFSͰύϑΥʔϚϯε࠷େԽ  IUUQTOFXT fi YTUBSTDPN 0CTFSWBCJMJUZ$POGFSFODF5PLZPʢʣʹͯߨԋ༧ఆ ˞ εΩοϓ 30 4. ·ͱΊ

Slide 31

Slide 31 text

さくらインターネット 関連資料 IUUQTTQFBLFSEFDLDPNTPOJDTPOJDEFHPV[IVZVO ZPOHTVSVTIFOHDIFOHBJYJBOH LFQBCVSJUVLVLVSBVEPOFUVUPXBLV IUUQTXXXKBOPHHSKQNFFUJOH KBOPHDBCMFEFTJHO 31 4. ·ͱΊ

Slide 32

Slide 32 text

(宣伝)さくらインターネットの 高 火 力 サービス 高火力 PHY 高火力 VRT 高火力 DOK さくらONE (提供予定) ベアメタル 仮想マシン コンテナ IUUQTHQVTBLVSBBEKQHQVDMPVETFSWJDF େن໛ খن໛ (V100, H100) (V100, H100) (H100,H200 B200) 32 4. ·ͱΊ

Slide 33

Slide 33 text

参考 文 献 • Yuichiro Ueno, PFNにおけるアクセラレータ間通信の実際, MPLS Japan 2024, https:// speakerdeck.com/pfn/mpls-japan-2024 . • Kazuki Fujii, GENIAC: 172B 事前学習知 見 , 2024 https://zenn.dev/tokyotech_lm/articles/ deb8012251bb68. • NVIDIA Corporation, NVIDIA DGX SuperPOD: Next GenerationScalable Infrastructure for AI Leadership, 2023. • NVIDIA Corporation, NVIDIA NeMo Framework User Guide. • Casey, Analysis of NVIDIA ’ s Latest Hardware: B100/B200/GH200/NVL72/SuperPod, https://www. fi bermall.com/blog/nvidia-b100-b200-gh200-nvl72-superpod.htm • その他本 文 スライド中に引 用 した論 文 など 33

Slide 34

Slide 34 text

Appendix 

Slide 35

Slide 35 text

本講演で触れていないこと • GPUそのもののアーキテクチャや処理系、低精度/半精度/混合精度計算 • 集団通信やRingアルゴリズムの詳細 • RDMA、GPUDirect RDMA、ECN/PFC/DCQCNなどインターコネクトネットワークの技術 • Zero-1/2/3, Activation Checkpointing, FlashAttentionなどのメモリ使 用 量削減法 • ストレージの構成とその 用 途 • ソフトウェアスタックにおける各要素の詳細 • モニタリング・オブザーバビリティ • … 35 Appendix

Slide 36

Slide 36 text

GPUメモリ上の代表的なデータ ύϥϝʔλʢXFJHIUTʣ ΦϓςΟϚΠβঢ়ଶ (1673".ۭؒ Ϟσϧঢ়ଶʢֶशεςοϓΛԣஅʣ Ұ࣌σʔλʢεςοϓ಺ͷΈʣ ೖྗϛχόον தؒ׆ੑԽʢBDUJWBUJPOTʣ ॏΈߦྻͱόΠΞεͳͲ '1ϚελॏΈɺޯ഑ͷ ཤྺɾ෼෍౷ܭྔͳͲ ಛ௃ྔɾϥϕϧͳͲ ॱ఻ൖͷ૚͝ͱͷܭࢉ݁Ռ ޯ഑ʢHSBEJFOUTʣ ٯ఻ൖͰܭࢉ͞ΕΔ݁Ռ େن໛Ϟσϧ͸ ̍(16ϝϞϦ ʹ৐Γ੾Βͳ͍ 36 Appendix

Slide 37

Slide 37 text

AIスパコンのソフトウェアスタック例 多層に折り重なった複雑な構成 εέδϡʔϥ 4MVSN ,VCFSOFUFT ίϯςφ /7*%*"$POUBJOFS5PPMLJU &OSPPU 1ZYJT 4JOHVSBMJUZ ෼ࢄֶशϑϨʔϜϫʔΫ .FHBUSPO-. %FFQ4QFFE 1ZUPSDI'4%1 /F.P ֶशϑϨʔϜϫʔΫ 1Z5PSDI 5FOTPS fl PX +"9 ूஂ௨৴ϥΠϒϥϦ /$$- 3$$- 3%."ϥΠϒϥϦ JCWFSCT SENBDPSF ܭࢉߴ଎ԽϥΠϒϥϦ DV#-"4DV#-"4-U DV%// 5SBOTGPSNFS&OHJOF ϥϯλΠϜυϥΠό $6%" OWJEJBESJWFST ˞IUUQTEPDTOWJEJBDPNOFNPGSBNFXPSLVTFSHVJEFMBUFTUTPGUXBSFDPNQPOFOUWFSTJPOTIUNM Ϣʔβʔ͕ ֶशδϣϒΛൃߦ 37 Appendix

Slide 38

Slide 38 text

TOP500 (ISC2025) 世界49位 国内9位 3BOL 4ZTUFN 0SHBOJ[BUJPO 3NBY 1'MPQT  'VHBLV 3*,&/$FOUFSGPS$PNQVUBUJPOBM 4DJFODF   "#$* "*45   $)*& 4PGU#BOL$PSQ   $)*& 4PGU#BOL$PSQ   "#$*2 "*45   '15"*'BDUPSZ+BQBO '15"*'BDUPSZ+BQBO   .JZBCJ( +PJOU$FOUFSGPS"EWBODFE)JHI 1FSGPSNBODF$PNQVUJOH   546#".& $** *OTUJUVUFPG4DJFODF5PLZP   4",63"0/& 4",63"*OUFSOFU*OD 1SVOVT4PMVUJPOT*OD  ࠃ಺γεςϜ্ҐͷΈൈਮ IUUQTUPQPSHMJTUTUPQ 38 Appendix

Slide 39

Slide 39 text

H100 BF16/FP8混合精度 MFU • ピークFLOPSとして、 文 献では1,979 TFLOPS を採 用 されている • FP8 Tensor Coreは 3,958 TFLOPS(※1)だが、Sparseなしなら1,979 ˞/7*%*")5FOTPS$PSF(16%BUBTIFFUIUUQTSFTPVSDFTOWJEJBDPNFOVTIPQQFSBSDIJUFDUVSFOWJEJBUFOTPSDPSFHQV EBUBTIFFU ˞IUUQTDBUBMPHOHDOWJEJBDPNPSHTOWJEJBUFBNTEHYDCFODINBSLJOHSFTPVSDFTMMBNBCEHYDCFODINBSLJOHD ˞ -MBNB# .'6d ˞ ˞IUUQTTFNJBOBMZTJTDPNIDMVTUFSTQPXFSOFUXPSL .'6 ˞ USJMMJPOQBSBNFUFSUSBJOJOH -MBNB# ˞IUUQTTFNJBOBMZTJTDPNIWTHCOWMUSBJOJOHCFODINBSLT .'6 ˞ ˞IUUQTXXXEBUBCSJDLTDPNKQCMPHUVSCPDIBSHFEUSBJOJOHPQUJNJ[JOHEBUBCSJDLTNPTBJDBJTUBDLGQ .15CdC .'6d ˞ 39 Appendix

Slide 40

Slide 40 text

はじめて分散学習やスパコンに触れた所感 クラウドオペレーター視点 • クラウド( 足 りなければ即スケールアウト) vs HPC(現状リソース使い切り) • Webアプリに 比 べカスタムのロジックが少ない。フレームワーク層で吸収され、 ユーザーは設定に関するコーディングにのみ注 力 する • フレームワーク設定の 一 つ 一 つが論 文 で提案されたものが多いため奥深い • オブザーバビリティが不 足 しがち。集団通信のトレーシングをやってみたくなる 40 Appendix