AIスパコン「さくらONE」の オブザーバビリティ / Observability for AI Supercomputer SAKURAONE

by Yuuki Tsubouchi (yuuk1)

Slide 1

Slide 1 text

AIスパコン「さくらONE」のオブザーバビリティ Observability Conference Tokyo 2025 Yuuki Tsubouchi (@yuuk1t) さくらインターネット研究所

Slide 2

Slide 2 text

来歴 2 2013 2019 2020 2025 ݱࡏ ウェブオペレーション SRE さくらインターネット研究所はてな京都大学大学院情報学研究科博士（情報学）取得 AIOps AI Supercomputer eBPF TSDB

Slide 3

Slide 3 text

本講演の趣旨 w ͋Δ43&͕"*εύίϯͷΦϒβʔόϏϦςΟ޲্ʹऔΓ૊ΜͰΈͨ w Ϋϥ΢υωΠςΟϒ෼໺ͱൺ΂ɺݱঢ়ΦϒβʔόϏϦςΟ͕ෆ଍ͯ͠ ͍Δͱײ͡ΔʢΦϒβʔόϏϦςΟɾΪϟοϓʣ w ݚڀ։ൃͱͯ͠ɺΦϒβʔόϏϦςΟɾΪϟοϓΛղফ͍ͨ͠ 3 ೃછΈͷͳ͍γεςϜͷࣄྫΛఏڙ͠ɺٕज़޷ح৺ͷܹࢗ ΍ΦϒβʔόϏϦςΟࣗମͷཧղΛਂΊΔٞ࿦ͷػձ ࣋ͪؼΓ

Slide 4

Slide 4 text

4 アジェンダはじめにさくらONEのオブザーバビリティ現状オブザーバビリティ・ギャップまとめ

Slide 5

Slide 5 text

5 アジェンダはじめにさくらONEのオブザーバビリティ現状オブザーバビリティ・ギャップまとめ AIスパコンの前提知識

Slide 6

Slide 6 text

深層学習モデルの「学習」と「推論」 ֶश ਪ࿦ ΞϓϦέʔγϣϯ "1* σʔληοτ ֶशδϣϒ Ϟσϧͷத਎ʢॏΈͳͲʣΛ࡞Δ޻ఔ ϞσϧΛ࢖ͬͯ౴͑Λฦ͢޻ఔ (16 (16 (16 (16 (16 (16 ϞσϧαʔϏϯά νϟοτ΍ΤʔδΣϯτͳͲ ֶशࡁΈϞσϧ ॏΈύϥϝʔλͳͲ σϓϩΠ ຊߨԋͷର৅ 1. ͸͡Ίʹ 6

Slide 7

Slide 7 text

深層学習の処理の流れ反復構造をもつ ॱ఻ൖ ޡࠩ ٯ఻ൖ ύϥϝʔλ ߋ৽ ޡࠩࢉग़ ޯ഑ ֶशσʔλ ॱ఻ൖ ʜ ֶशσʔλ ΦϓςΟϚΠβ ޡࠩΛখ͘͢͞Δ ύϥϝʔλࢉग़ ΠςϨʔγϣϯ̍ ΠςϨʔγϣϯ̎ --.։ൃͰ͸ֶशδϣϒΛԿճ΋౤ೖͯ͠ࢼ ߦࡨޡ͢ΔͨΊɺδϣϒ࣮ߦΛߴ଎Խ͍ͨ͠ 7 1. ͸͡Ίʹ

Slide 8

Slide 8 text

分散深層学習 - データ並列データを分割する ॱ఻ൖ ٯ఻ൖ ύϥϝʔλ ߋ৽ ॱ఻ൖ ٯ఻ൖ ύϥϝʔλ ߋ৽ ॱ఻ൖ ٯ఻ൖ ύϥϝʔλ ߋ৽ "MM3FEVDF ʢ૯࿨ʣ (16 (16 (16 ֤(16ϝϞϦ্ͷܭࢉ݁ՌΛू໿ԋࢉ ͠ɺ֤(16্ͷϝϞϦ΁݁ՌΛ഑෍ ूஂ௨৴ 8 1. ͸͡Ίʹ

Slide 9

Slide 9 text

分散深層学習 - モデル並列モデルを分割する ςϯιϧฒྻ ॱ ߋ৽ ( 1 6 ٯ ύΠϓϥΠϯฒྻ ॱ ॱ ॱ ٯ ٯ ٯ ߋ৽ ( 1 6 Ϟσϧͷ૚Λ࿈ଓͨ͠εςʔδʹ෼ׂ ૚ ૚ ݸʑͷ૚಺ͷςϯιϧʢߦྻʣΛ෼ׂ ߋ৽ ߋ৽ ॱ ॱ ٯ ٯ ूஂ௨৴ ूஂ௨৴ (16 (16 9 1. ͸͡Ίʹ

Slide 10

Slide 10 text

AIモデル開発とGPU 1. ͸͡Ίʹ “I love the smell of GPUs melting” ˞IUUQTYDPNTBNBTUBUVT ΑΓҾ༻ʢଠࣈ෦෼͸վมʣ CZ4BN"MUNBO ˞ 'SBOL)FMNT l)PX"*8PSLMPBET4IBQF)BSEXBSF"SDIJUFDUVSFz l5IF)PU$IJQJTB3BDLz "*-JUFSBMMZ%FNBOETXF5IJOL0VUTJEFUIF#PY )PU$IJQTΑΓసࡌ (16Ϋϥελن໛͸ ೥Ͱ͔ΒL (16·Ͱ૿େ 10

Slide 11

Slide 11 text

AIスパコンのトポロジ例（Meta RSC-1） ,PLPMJT "QPTUPMPT FUBM 3FWJTJUJOH3FMJBCJMJUZJO-BSHFTDBMF.BDIJOF -FBSOJOH3FTFBSDI$MVTUFSTz )1$" 'JHΑΓసࡌ αʔόɾϥοΫɾ1PEؒ ΠϯλʔίωΫτωοτϫʔΫ d(CQT αʔό಺ΠϯλʔίωΫτ (#T 11 1. ͸͡Ίʹ

Slide 12

Slide 12 text

さくらONE IUUQTXXXTBLVSBBEKQTBLVSBPOF 1. ͸͡Ίʹ ͘͞ΒΠϯλʔωοτ ݚڀॴ͕ओװ マネージドGPUスパコンサービスを提供中 ˞(16ϕΞϝλϧαʔϏεߴՐྗ1):΋ఏڙத εύίϯੑೳϥϯΩϯά 501ੈքҐ֫ಘ ʢ*4$ʣ 12

Slide 13

Slide 13 text

さくらONEの構成 ',POJTIJ4",63"0/&&NQPXFSJOH5SBOTQBSFOUBOE0QFO"*1MBUGPSNTUISPVHI1SJWBUF4FDUPS )1$*OWFTUNFOUJO+BQBOBS9JW 13 1. ͸͡Ίʹ ʢ͜ΕҎ֎ͷ͘͞Β0/&Ϋϥελ΋͋Γʣ (16 /PEF (16 /PEF (16 /PEF (16 /PEF *OUFSDPOOFDU/FUXPSL 4UPSBHF/FUXPSL 4UPSBHF OPEFT $16DPSFT (16T ) /*$T (C& (C& (C& 1#

Slide 14

Slide 14 text

AIスパコンの利用（さくらONEの例） δϣϒ εέδϡʔϥ ʢ4MVSNʣ ϩάΠϯϊʔυ 44) ෼ࢄฒྻ ετϨʔδ IPNFҎԼΛ Ϛ΢ϯτ δϣϒ౤ߘ NPVOU NPVOU NPVOU εέδϡʔϥ͕Ϣʔβʔʹࢦఆ͞Εͨܭࢉϊʔυ܊Λ ֬อ͠ɺ֤ϊʔυ্ͰεΫϦϓτΛಉ࣌ىಈ͢Δ TMVSNDUME 1. ͸͡Ίʹ TMVSNE TDSJQU TMVSNE TDSJQU TMVSNE TMVSNE TDSJQU TDSJQU 14

Slide 15

Slide 15 text

ウェブアプリケーションとの対比（処理モデル） ΢ΣϒΞϓϦ ෼ࢄֶश 8PSLFS 8PSLFS 8PSLFS 8PSLFS 8PSLFS 8PSLFS #SPXTFST -# ܭࢉ ϊʔυ ϓʔϧ %# "QQ "QQ "QQ 4UPSBHF ϦΫΤετϨεϙϯε ঢ়ଶ͸֎෦ ʹӬଓԽ શ(16ϊʔυ͔Β ߴස౓ɾେ༰ྔ*0 ෼ࢄϝϞϦܕฒྻܭࢉ ಠཱͨ͠ଟ਺ͷ୹໋ϑϩʔॲཧ શϊʔυͰ଍ฒΈΛἧ͑Δόονॲཧ 1. ͸͡Ίʹ 15

Slide 16

Slide 16 text

ウェブアプリケーションとの対比（信頼性） 8PSLFS 8PSLFS 8PSLFS 8PSLFS 8PSLFS 8PSLFS #SPXTFST ܭࢉ ϊʔυ ϓʔϧ %# "QQ "QQ "QQ 4UPSBHF Մ༻ੑͷॏࢹ νΣοΫϙΠϯτ ఆظอଘɾ෮ݩ தஅޙͷ࠶։ੑΛॏࢹ QQϨΠςϯγ Τϥʔ཰ ओͳ໨తม਺ ओͳ໨తม਺ ֶशɾԋࢉεϧʔϓοτ τϥϯβΫ γϣϯʹΑ Δ"$*%อূ ̍୆ނো Ͱશఀࢭ -# ΢ΣϒΞϓϦ ෼ࢄֶश 1. ͸͡Ίʹ 16

Slide 17

Slide 17 text

17 アジェンダはじめにさくらONEのオブザーバビリティ現状オブザーバビリティ・ギャップまとめ

Slide 18

Slide 18 text

AIスパコンサービスのオブザーバビリティ要求 Ϣʔβʔ ϓϩόΠμʔ ֶशॲཧੑೳ ো֐ɾނো؅ཧ ໨ඪࢦඪ ਂ૚ֶशͷॲཧͷ಺༁ ֶशɾԋࢉεϧʔϓοτ ΞϓϦέʔγϣϯ σόΠε ঢ়ଶνΣοΫ ϦιʔεফඅྔɾΤϥʔ ܭࢉࢿݯͷར༻཰ ܭࢉࢿݯͷར༻཰ Ҽࢠ෼ղ ϫʔΫϩʔυ ෼ੳ Ϧιʔε ෼ੳ 2. ͘͞ΒONEͷΦϒβʔόϏϦςΟͷݱঢ় 18

Slide 19

Slide 19 text

責任境界による計装・収集の制約 Ϣʔβʔ ϓϩόΠμʔ 04 δϣϒ εέδϡʔϥ ੹೚ڥք σόΠε ΞϓϦέʔγϣϯ υϥΠό γεςϜϥΠϒϥϦ ΞϓϦέʔγϣϯ ϩάͷऩूෆՄ ΞϓϦέʔγϣϯ ίʔυͷܭ૷ෆՄ 2. ͘͞ΒONEͷΦϒβʔόϏϦςΟͷݱঢ় 19

Slide 20

Slide 20 text

まずはできるところからやる Ϧιʔε෼ੳͷͨΊͷςϨϝτϦʔऩू ϫʔΫϩʔυ ෼ੳ Ϧιʔε ෼ੳ 2. ͘͞ΒONEͷΦϒβʔόϏϦςΟͷݱঢ়

Slide 21

Slide 21 text

リソース分析の概観 Grafanaダッシュボードの構成 ۭؒϏϡʔ ࣌ܥྻϏϡʔ δϣϒϏϡʔ ࠓͳʹ͕ى͖͍ͯΔʁ աڈԿ͕ى͖͔ͨʁ ಛఆδϣϒʹண໨ ݸผ࣌ܥྻϏϡʔ ಛఆ(16ͳͲ %BUBMJOL %BUBMJOL 2. ͘͞ΒONEͷΦϒβʔόϏϦςΟͷݱঢ় 21

Slide 22

Slide 22 text

(16ిྗফඅɺԹ౓ɺϝϞϦ࢖༻ྔɺετϨʔδ࢖༻ྔ 空間ビュー：クラスタ統計 22

Slide 23

Slide 23 text

空間ビュー：パーティション別統計① ԋࢉεϧʔϓοτ ʢ%$(.ਪఆ஋ʣ (16࢖༻཰ ςϯιϧίΞ࢖༻཰ --.ֶशͰ͸͙ Β͍࢖͍͑ͯΔͱྑ͍ ˞7 "OESFJ FUBM 4:45&.!4$"-&"*0CTFSWBCJMJUZ IUUQTBUTDBMFDPOGFSFODFDPNTZTUFNTDBMFBJPCTFSWBCJMJUZ ˞ Ͱ͋ͬͯ΋(16ͷԋ ࢉޮ཰͕ߴ͍ͱ͸ݶΒͳ͍ 23

Slide 24

Slide 24 text

空間ビュー：パーティション別統計② (16ϝϞϦ࢖༻཰ (16ϝϞϦ ଳҬ෯࢖༻཰ (16ϝϞϦ ΞΫηε࢖༻཰ ͍ۙͱ͏· ͘࢖͍͑ͯΔ 24

Slide 25

Slide 25 text

空間ビュー：GPUグリッド表示 )1&$MVTUFSWJFX ˞IUUQTHSBGBOBDPNHSBGBOBQMVHJOTIQFIQDHSBGBOBDMVTUFSWJFXQBOFM ˞ ύωϧϓϥάΠϯ ϥοΫˠαʔόˠ(16 ͳͲͷೖΕࢠදݱՄ (16ిྗফඅྔͷྫ ࣾ಺ͷ)1$ઐ໳ Ոʹ޷ධ ೴಺Πϝʔδʹ ͍ۙϏϡʔ 25

Slide 26

Slide 26 text

空間ビュー：NVLink別グリッド表示 ܭࢉϊʔυ಺ (16ؒόεͷ ड৴εϧʔϓοτ 26

Slide 27

Slide 27 text

空間ビュー：NICグリッド表示 ̍ܭࢉϊʔυ͋ͨΓ ΠϯλʔίωΫτ༻/*$ຕ ετϨʔδ༻/*$ຕ /*$ͷड৴ εϧʔϓοτ 27

Slide 28

Slide 28 text

時系列ビュー① /*$ͷ εϧʔϓοτ ετϨʔδ εϧʔϓοτ νΣοΫϙΠϯτॻ͖ग़͠ͷ༷ࢠ 28

Slide 29

Slide 29 text

時系列ビュー② (16Ϋϥελͷۭ͖ঢ়گ͕ ͻͱ໨ͰΘ͔Δ (16ిྗফඅྔͷྫ ϓϩδΣΫτ"ͷ೥݄̏ͷσʔλ Λ΋ͱʹՄࢹԽ ۭ͖͕ଟ͍ͱ΋͍ͬͨͳ͍ 29

Slide 30

Slide 30 text

ジョブビュー　ガントチャート 4MVSNδϣϒͷώετϦʢ.BSJB%#ʹอଘʣΛݩʹՄࢹԽ 30

Slide 31

Slide 31 text

プロファイルの可視化 γϯϘϧະղܾͱͳΔؔ਺͕ଟ͍ ॱ఻ൖॲཧͷ಺༁͕Θ͔Δ ͨͩ͠$16UJNF 31

Slide 32

Slide 32 text

データパイプラインの構成（全体像） (16/PEFT -PHJO/PEFT *OUFSDPOOFDU4XJUDIFT #BDLFOET 05F-$PMMFDUPS (BUFXBZ 05F-$PMMFDUPS "HFOU 1ZSPTDPQF 7JDUPSJB.FUSJDT 7JDUPSJB-PHT .FUSJDT -PHT 1SP fi MFT 05-1 05-1 &YQPSUFST &YQPSUFST &YQPSUFST 4ZTMPH -PHT -PHT 4DSBQF ˠ͸σʔλͷྲྀΕΛද͢ 7JTVBMJ[BUJPO (SBGBOB 2. ͘͞ΒONEͷΦϒβʔόϏϦςΟͷݱঢ় 32

Slide 33

Slide 33 text

GPUノードの構成 (16/PEFT 05F-$PMMFDUPS "HFOU *1.*&YQPSUFS +PVSOBME 3%."&YQPSUFS /PEF&YQPSUFS %$(.&YQPSUFS -VTUSF&YQPSUFS 1SPDFTT&YQPSUFS 4DSBQF 1SPNFUIFVT 3FDFJWFS πʔϧ਺Λগͳ͘͢ΔͨΊʹ 05F-$PMMFDUPSओମͰऩू +PVSOBME 3FDFJWFS WBSMPHTMVSN 'JMF-PH 3FDFJWFS ʢࣗ࡞ʣ ˞HJUIVCDPNZVVLJSENB@FYQPSUFS ˞ PQFOUFMFNFUSZ FCQGQSP fi MFS (BUFXBZ 05-1 ˞HJUIVCDPN(4*)1$MVTUSF@FYQPSUFS ˞ 2. ͘͞ΒONEͷΦϒβʔόϏϦςΟͷݱঢ় 33

Slide 34

Slide 34 text

ログとプロファイルに関する所感まだ有効利用できていない w ཁ্݅ɺଟ͘ͷ৘ใؚ͕·ΕΔΞϓϦϩάΛऔಘෆՄ w ϓϥοτϑΥʔϜଆͰ؅ཧ͢Δϛυϧ΢ΣΞ͕গͳ͍ w εέδϡʔϥʔʢ4MVSNʣ΍ڞ༗ετϨʔδʢ-VTUSF'4PO%%/ʣͷΈ 2. ͘͞ΒONEͷΦϒβʔόϏϦςΟͷݱঢ় ϩά w (16΍3%."௨৴ΛؚΉϓϩϑΝΠϧΛऔಘͰ͖ͳ͍ w ෼ࢄτϨʔε͕ͳ͍ ϓϩϑΝΠϧ 34

Slide 35

Slide 35 text

͜͜·Ͱ͸ʮܭଌ͠΍͍͢͜ͱʯΛ΍͖ͬͯͨ はじめに AIスパコンの前提知識さくらONE のオブザーバビリティ現状オブザーバビリティ・ギャップまとめアジェンダ

Slide 36

Slide 36 text

Ϣʔβʔ オブザーバビリティ・ギャップ ΪϟοϓᶄɹΞϓϦ͔Πϯϑϥͷ໰୊੾Γ෼͚ ౤ࢿޮՌ؍఺ ϓϩόΠμʔ ੑೳ؍఺ ো֐ɾނো؍఺ ΪϟοϓᶃɹֶशॲཧੑೳͷϘτϧωοΫಛఆ ΪϟοϓᶅɹϚΠΫϩόʔετϞχλϦϯά ߨԋͰ͸εΩοϓ 3. ΦϒβʔόϏϦςΟɾΪϟοϓ 36

Slide 37

Slide 37 text

Ϣʔβʔ オブザーバビリティ・ギャップ ΪϟοϓᶄɹΞϓϦ͔Πϯϑϥͷ໰୊੾Γ෼͚ ౤ࢿޮՌ؍఺ ϓϩόΠμʔ ੑೳ؍఺ ো֐ɾނো؍఺ ΪϟοϓᶃɹֶशॲཧੑೳͷϘτϧωοΫಛఆ ΪϟοϓᶅɹϚΠΫϩόʔετϞχλϦϯά 3. ΦϒβʔόϏϦςΟɾΪϟοϓ ߨԋͰ͸εΩοϓ 37

Slide 38

Slide 38 text

深層学習の処理過程をトレースしたい ֶशδϣϒ ΤϙοΫ̍ ΠςϨʔγϣϯ̍ (16 (16 ΤϙοΫ̍ ΠςϨʔγϣϯ̍ ࣌ؒ ΠςϨʔγϣϯ ΤϙοΫ ΠςϨʔγϣϯ ΤϙοΫ ܭࢉͱ௨৴ͷΦʔόʔϥοϓ ֤εύϯͷܦա࣌ؒ΍ϦιʔεফඅྔΛܭଌ ूஂ௨৴ ॱ఻೻ ٯ఻೻ ύϥϝλ ߋ৽ ूஂ௨৴ ॱ఻೻ ٯ఻೻ ύϥϝλ ߋ৽ 3. ΦϒβʔόϏϦςΟɾΪϟοϓ 38

Slide 39

Slide 39 text

集団通信の処理過程をトレースしたい (16 (16 (16 (16 (16 (16 (16 / (16 / (16 / ࣌ؒ (16 (16 (16 / εΠον αʔό̍ αʔό αʔό/ 3JOHΞϧΰϦ ζϜͷҰྫ શ(16͕ಉ࣌ʹྡʹσʔλ Λૹ৴͠ଓ͚Ϧϯά্Λपճ αʔό/ -FBG /*$ /*$ /*$ /*$ -FBG 3. ΦϒβʔόϏϦςΟɾΪϟοϓ 39

Slide 40

Slide 40 text

GPUプロファイリング 40 MLPerf Training GPT-3のベンチマーク中に取得 Pytorch Pro fi lerの結果をPerfettoで可視化 NT ΠϯλʔίωΫτ௨৴ NT NT NT Ұൠతʹ͸ɺਂ૚'8಺ଂ΍/7*%*"͕ఏڙ͢ΔϓϩϑΝΠϥΛ࢖͏ $615* /TJHIU4ZTUFNT 1Z5PSI1SP fi MFS ,JOFUP 3. ΦϒβʔόϏϦςΟɾΪϟοϓ

Slide 41

Slide 41 text

ギャップ① 　現行 GPUプロファイラの課題 ˞&:PVTFG[BEFI"TM.JBOEPBC FUBM l1SP fi MJOHBOE.POJUPSJOH%FFQ-FBSOJOH5SBJOJOH5BTLTz &VSP.-4ZT Ϣʔβʔ؅ཧ ॏ͍Φʔόʔϔου Ϣʔβʔ͕༗ޮԽ͢Δඞཁ͕͋ΔͨΊɺ ϓϥοτϑΥʔϚʔཁ݅Λຬͨ͞ͳ͍ 1Z5PSDI1SP fi MFS͕ഒ஗ԆΛ૿Ճ ͤ͞Δใࠂ͋Γ˞ ΞϓϦέʔγϣϯʹରͯ͠ඇ৵ೖͳܗࣜͰ ௿Φʔόʔϔουͷ;FSP$PEFܭ૷Λ͍ͨ͠ 3. ΦϒβʔόϏϦςΟɾΪϟοϓ 41

Slide 42

Slide 42 text

ギャップ① 　 Zero Code計装 eBPFによるZero Code計装による分散トレーシング技術は確立しつつあるが… ˞IUUQTHJUIVCDPNHSBGBOBCFZMB ˞IUUQTEFFQ fl PXJP • GPUの内部処理はOSカーネル内からはみえない • GPU間通信はOSカーネルのNWスタックを経由しない ˞˞˞ ˞IUUQTPQFOUFMFNFUSZJPEPDT[FSPDPEFPCJ (16ݻ༗ͷ޻෉͕ඞཁ #FZMB %FFQ'MPX 0#*ͳͲ 3. ΦϒβʔόϏϦςΟɾΪϟοϓ ✘ 42

Slide 43

Slide 43 text

ギャップ① 　 GPUゼロコード計装の最先端 $6%""1*૚ (16υϥΠό૚ ˞zF#1'5VUPSJBM5SBDJOH$6%"(160QFSBUJPOTz IUUQTFVOPNJBEFWUVUPSJBMTDVEBFWFOUT ˞lF#1'5VUPSJBMCZ&YBNQMF.POJUPSJOH(16%SJWFS"DUJWJUZXJUI,FSOFM5SBDFQPJOUTz IUUQTFVOPNJBEFWUVUPSJBMTYQVHQVLFSOFMESJWFS ˞l8SJUFBOE3VOF#1'PO(16XJUICQGUJNFz IUUQTFVOPNJBEFWFOCQGUJNFEPDVNFOUTHQV VQSPCFT MJCDVEBSUTP (16΁ͷϝϞϦׂ౰ɾసૹɾಉظɺΧʔωϧىಈؔ਺ʹϑοΫ USBDFQPJOUT LQSPCFT ϥϯΩϡʔͷਂ͞΍9*%ΤϥʔΛܭଌՄೳ ˞ ˞ ˞ CQGUJNF ඇಉظ΍(16಺෦ͷৄࡉܭଌ͸ࠔ೉ Ϣʔβʔͷ1ZUIPOϓϩηεͱͷඥ͚ͮՄೳ 04ΧʔωϧͷൣᙝͳͷͰɺҰൠతͳLQSPCFTͳͲͰܭଌՄೳ ඇಉظͰ΋(16಺ج४Ͱͷ࣌ࠁ͕Θ͔Δ (16಺ͷϫʔϓ΍εϨου୯Ґཻ౓Ͱͷܭଌ 159ʢ(16தؒදݱʣίʔυ΁F#1'ίʔυΛ஫ೖ Ϣʔβʔۭؒ F#1'ϥϯλΠϜ <)%$4 F(16> <04%* CQGUJNF> 3. ΦϒβʔόϏϦςΟɾΪϟοϓ (16಺෦૚ 43

Slide 44

Slide 44 text

ギャップ①：GPUゼロコード計装の課題 $6%""1*૚ (16υϥΠό૚ (16಺෦૚ ਂ૚ֶश'8૚ʢ1ZUIPOʣ ෼ࢄτϨʔγϯά΁ͷؼணʹ͸ ֤૚ͷΠϕϯτΛ૬ؔͤ͞Δඞཁ͋Γ (16ϝϞϦؒ௨৴΋ ݪཧతʹ͸ܭଌͰ͖Δ͸ͣʜ 5SBDF*%ͷ఻ൖΛͲ͏΍Δ͔ʁʁ ݱঢ়͸·ͩͦͷΑ͏ͳ πʔϧ͸ͳ͍ ݚڀ։ൃͷྖҬ 3. ΦϒβʔόϏϦςΟɾΪϟοϓ 44

Slide 45

Slide 45 text

Ϣʔβʔ オブザーバビリティ・ギャップ ΪϟοϓᶄɹΞϓϦ͔Πϯϑϥͷ໰୊੾Γ෼͚ ౤ࢿޮՌ؍఺ ϓϩόΠμʔ ੑೳ؍఺ ো֐ɾނো؍఺ ΪϟοϓᶃɹֶशॲཧੑೳͷϘτϧωοΫಛఆ ΪϟοϓᶅɹϚΠΫϩόʔετϞχλϦϯά 3. ΦϒβʔόϏϦςΟɾΪϟοϓ ߨԋͰ͸εΩοϓ 45

Slide 46

Slide 46 text

ギャップ②：アプリかインフラの問題切り分け [Liu+,SIGCOMM24] ネットワークの問題か？切り分けが難しい ‣ アプリログには集合通信ライブラリ（NCCL）が”error code 12”がみえるが… ‣ 原因は、ホスト側の問題（GPUダウン・ハング・メモリ不足・NCCL誤設定）であることも 3. ΦϒβʔόϏϦςΟɾΪϟοϓ 46

Slide 47

Slide 47 text

ギャップ② 　 R-Pingmesh RNIC to RNICのアクティブプルービングによるRoCEネットワーク監視 47 ③ 継続的なプルービングによるRTT・パケットロスの常時計測 ②RoCEパケットによるプルービング ① サービストラフィックとは独立したRNIC 単位のプルービング 3. ΦϒβʔόϏϦςΟɾΪϟοϓ

Slide 48

Slide 48 text

IUUQTTQFBLFSEFDLDPNZVVLJUFCQGKBQBONFFUVQOVNCFS ギャップ② 　 R-Pingmeshの論文実装 ·࣮ͩ૷్தͷͨΊ ະσϓϩΠ IUUQTHJUIVCDPNZVVLJSQJOHNFTI MJCJCWFSCT (P DJMJVNFCQG H31$ 3RMJUF 0QFO5FMFNFUSZ4%, 3. ΦϒβʔόϏϦςΟɾΪϟοϓ 48

Slide 49

Slide 49 text

はじめに AIスパコンの前提知識さくらONE のオブザーバビリティ現状オブザーバビリティ・ギャップまとめアジェンダ

Slide 50

Slide 50 text

まとめ ݱঢ় 4. ·ͱΊ ੍໿ Ϊϟοϓ 05FM(SBGBOBͰϝτϦΫεɾϩάɾϓϩϑΝΠϧج൫Λߏஙͨ͠ɻ Ϧιʔε෼ੳ͸͏·͍͍ͬͯ͘Δ͕ɺϫʔΫϩʔυ෼ੳ͕ະୡɻ ΞϓϦέʔγϣϯϩάίʔυͷܭ૷ɾऩूෆՄ ᶃֶशॲཧաఔͷ෼ࢄτϨʔε ᶄΞϓϦ͔Πϯϑϥ͔ͷ੾Γ෼͚ ᶅϚΠΫϩόʔετ؂ࢹ AIスパコンサービスのオブザーバビリティの道はハードモード (16θϩίʔυܭ૷ʢF#1'Ͱ$6%"υϥΠό಺෦૚ͷΠϕϯτ૬ؔʣ ϝογϡঢ়ͷ3%."1JOHγεςϜͷ࣮૷ 50

Slide 51

Slide 51 text

LLMの分散学習のチューニングの詳細はこちら IUUQTTQFBLFSEFDLDPNZVVLJUTBLVSBPOFMMNUSBJOJOHCFODINBSLJOH 4. ·ͱΊ 51

Slide 52

Slide 52 text

,POJTIJ 'VNJLB[V4",63"0/&&NQPXFSJOH 5SBOTQBSFOUBOE0QFO"*1MBUGPSNTUISPVHI 1SJWBUF4FDUPS)1$*OWFTUNFOUJO+BQBO BS9JWQSFQSJOUBS9JW さくらONEのホワイトペーパー 52 4. ·ͱΊ

Slide 53

Slide 53 text

さくらインターネット関連資料① IUUQTXXXKBOPHHSKQNFFUJOHKBOPHDBCMFEFTJHO 53 IUUQTXXXKBOPHHSKQNFFUJOHKBOPHTBLVSB 4. ·ͱΊ

Slide 54

Slide 54 text

さくらインターネット関連資料② IUUQTTQFBLFSEFDLDPNNBSLVOFUBJJOIVSBXPLBPFSV IUUQTTQFBLFSEFDLDPNTPOJDTPOJDEFHPV[IVZVOZPOH TVSVTIFOHDIFOHBJYJBOHLFQBCVSJUVLVLVSBVEPOFUVUPXBLV 4. ·ͱΊ

Slide 55

Slide 55 text

（宣伝）さくらインターネットの高火力サービス IUUQTHQVTBLVSBBEKQHQVDMPVETFSWJDF 55 4. ·ͱΊ

Slide 56

Slide 56 text

References • Jiangfei Duan, et al., “Ef fi cient Training of Large Language Models on Distributed Infrastructures: A Survey”, arXiv, 2024. • Qian Ding, “Transformers in SRE Land:Evolving to Manage AI Infrastructure”, USENIX SREcon25 America, 2025. • Deepak Narayanan, et al., “Ef fi cient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM”, the International Conference for High Performance Computing, Networking, Storage, and Analysis (SC), 2021. • Yusheng Zheng, et al., “Extending Applications Safely and Ef fi ciently”, USENIX OSDI, 2025. • Yiwei Yang, et al., “eGPU: Extending eBPF Programmability and Observability to GPUs”, Workshop on Heterogeneous Composable and Disaggregated Systems (HCDS), 2025. 4. ·ͱΊ 56

Slide 57

Slide 57 text

A. 付録

Slide 58

Slide 58 text

テレメトリーの統計値など *OHFTUJPOSBUF "DUJWFTFSJFT.JM A. ෇࿥ 05F-$PMMFDUPS 4DSBQFJOUFSWBMT /PEF&YQPSUFSTFD ,EBUBQPJOUTTFD %$(.&YQPSUFSTFD -VTUSF&YQPSUFSTFD 3%."&YQPSUFSTFD *1.*&YQPSUFSTFD 1SPDFTT&YQPSUFSTFD 7JDUPSJB.FUSJDT 58

Slide 59

Slide 59 text

$MJDLIPVTF オフラインの長期分析インフラ投資効果の検証 4MVSNͷδϣϒཤྺ (16΍ωοτϫʔΫͷϦιʔεΛɺϢʔβʔ͕௕ظؒͰͲͷఔ౓࢖༻͔ͨ͠ Λ౷ܭ෼ੳ ϝτϦΫε ෼ੳ༻%# A. ෇࿥ 59

Slide 60

Slide 60 text

観察１ ϓϩδΣΫτ"ͷ࣮ࡍͷδϣϒཤྺΑΓूܭ খن໛δϣϒ͕େଟ਺Λ઎ΊΔҰํɺେن໛δϣϒ͕ (16Ϧιʔε઎༗࣌ؒͷେ෦෼Λফඅ͍ͯ͠Δ A. ෇࿥ 60

Slide 61

Slide 61 text

ಎ࡯ɿδϣϒͷଟ͘͸୹࣌ؒͰऴྃ͢Δ͕ɺେن໛ δϣϒͰ͸࣮ߦ࣌ؒͷ෼෍ͷ੄͕௕͍ ϓϩδΣΫτ"ͷ࣮ࡍͷ δϣϒཤྺΑΓूܭ δϣϒ࣮ߦ࣌ؒͷྦྷੵ෼෍ 観察２ A. ෇࿥ 61

Slide 62

Slide 62 text

AIOps for AI Supercomputers • [Deng+, NSDI2025] Minder: Faulty Machine Detection for Large-scale Distributed Model Training • [Xu+, IWQoS2025] eACGM: Non-instrumented Performance Tracing and Anomaly Detection towards Machine Learning Systems • [Jiang+, FSE2025] L4: Diagnosing Large-scale LLM Training Failures via Automated Log Analysis • [Jiang+, DSN2025] LLMPrism: Black-box Performance Diagnosis for Production LLM Training Platforms • [Cui+, arXiv2025] XPUTimer: Anomaly Diagnostics for Divergent LLM Training in GPU Clusters of Thousand-Plus Scale • [Dong+, NSDI2025] Evolution of Aegis: Fault Diagnosis for AI Model Training Service in Production 62