AIスパコン「さくらONE」の オブザーバビリティ / Observability for AI Supercomputer SAKURAONE

AIスパコン「さくらONE」のオブザーバビリティ Observability Conference Tokyo 2025 Yuuki Tsubouchi (@yuuk1t) さくらインターネット研究所

来歴 2 2013 2019 2020 2025 ݱࡏ ウェブオペレーション SRE
さくらインターネット研究所はてな京都大学大学院情報学研究科博士（情報学）取得 AIOps AI Supercomputer eBPF TSDB

本講演の趣旨 w ͋Δ43&͕"*εύίϯͷΦϒβʔόϏϦςΟ޲্ʹऔΓ૊ΜͰΈͨ w Ϋϥ΢υωΠςΟϒ෼໺ͱൺ΂ɺݱঢ়ΦϒβʔόϏϦςΟ͕ෆ଍ͯ͠ ͍Δͱײ͡ΔʢΦϒβʔόϏϦςΟɾΪϟοϓʣ w ݚڀ։ൃͱͯ͠ɺΦϒβʔόϏϦςΟɾΪϟοϓΛղফ͍ͨ͠ 3 ೃછΈͷͳ͍γεςϜͷࣄྫΛఏڙ͠ɺٕज़޷ح৺ͷܹࢗ
΍ΦϒβʔόϏϦςΟࣗମͷཧղΛਂΊΔٞ࿦ͷػձ ࣋ͪؼΓ

4 アジェンダはじめにさくらONEのオブザーバビリティ現状
オブザーバビリティ・ギャップまとめ

5 アジェンダはじめにさくらONEのオブザーバビリティ現状
オブザーバビリティ・ギャップまとめ AIスパコンの前提知識

深層学習モデルの「学習」と「推論」 ֶश ਪ࿦ ΞϓϦέʔγϣϯ "1* σʔληοτ ֶशδϣϒ Ϟσϧͷத਎ʢॏΈͳͲʣΛ࡞Δ޻ఔ ϞσϧΛ࢖ͬͯ౴͑Λฦ͢޻ఔ (16
(16 (16 (16 (16 (16 ϞσϧαʔϏϯά νϟοτ΍ΤʔδΣϯτͳͲ ֶशࡁΈϞσϧ ॏΈύϥϝʔλͳͲ σϓϩΠ ຊߨԋͷର৅ 1. ͸͡Ίʹ 6

深層学習の処理の流れ反復構造をもつ ॱ఻ൖ ޡࠩ ٯ఻ൖ ύϥϝʔλ ߋ৽ ޡࠩࢉग़ ޯ഑ ֶशσʔλ
ॱ఻ൖ ʜ ֶशσʔλ ΦϓςΟϚΠβ ޡࠩΛখ͘͢͞Δ ύϥϝʔλࢉग़ ΠςϨʔγϣϯ̍ ΠςϨʔγϣϯ̎ --.։ൃͰ͸ֶशδϣϒΛԿճ΋౤ೖͯ͠ࢼ ߦࡨޡ͢ΔͨΊɺδϣϒ࣮ߦΛߴ଎Խ͍ͨ͠ 7 1. ͸͡Ίʹ

分散深層学習 - データ並列データを分割する ॱ఻ൖ ٯ఻ൖ ύϥϝʔλ ߋ৽ ॱ఻ൖ ٯ఻ൖ
ύϥϝʔλ ߋ৽ ॱ఻ൖ ٯ఻ൖ ύϥϝʔλ ߋ৽ "MM3FEVDF ʢ૯࿨ʣ (16 (16 (16 ֤(16ϝϞϦ্ͷܭࢉ݁ՌΛू໿ԋࢉ ͠ɺ֤(16্ͷϝϞϦ΁݁ՌΛ഑෍ ूஂ௨৴ 8 1. ͸͡Ίʹ

分散深層学習 - モデル並列モデルを分割する ςϯιϧฒྻ ॱ ߋ৽ ( 1 6
ٯ ύΠϓϥΠϯฒྻ ॱ ॱ ॱ ٯ ٯ ٯ ߋ৽ ( 1 6 Ϟσϧͷ૚Λ࿈ଓͨ͠εςʔδʹ෼ׂ ૚ ૚ ݸʑͷ૚಺ͷςϯιϧʢߦྻʣΛ෼ׂ ߋ৽ ߋ৽ ॱ ॱ ٯ ٯ ूஂ௨৴ ूஂ௨৴ (16 (16 9 1. ͸͡Ίʹ

AIモデル開発とGPU 1. ͸͡Ίʹ “I love the smell of GPUs melting”
˞IUUQTYDPNTBNBTUBUVT ΑΓҾ༻ʢଠࣈ෦෼͸վมʣ CZ4BN"MUNBO ˞ 'SBOL)FMNT l)PX"*8PSLMPBET4IBQF)BSEXBSF"SDIJUFDUVSFz l5IF)PU$IJQJTB3BDLz "*-JUFSBMMZ%FNBOETXF5IJOL0VUTJEFUIF#PY )PU$IJQTΑΓసࡌ (16Ϋϥελن໛͸ ೥Ͱ͔ΒL (16·Ͱ૿େ 10

AIスパコンのトポロジ例（Meta RSC-1） ,PLPMJT "QPTUPMPT FUBM 3FWJTJUJOH3FMJBCJMJUZJO-BSHFTDBMF.BDIJOF -FBSOJOH3FTFBSDI$MVTUFSTz )1$" 'JHΑΓసࡌ αʔόɾϥοΫɾ1PEؒ
ΠϯλʔίωΫτωοτϫʔΫ d(CQT αʔό಺ΠϯλʔίωΫτ (#T 11 1. ͸͡Ίʹ

さくらONE IUUQTXXXTBLVSBBEKQTBLVSBPOF 1. ͸͡Ίʹ ͘͞ΒΠϯλʔωοτ ݚڀॴ͕ओװ マネージドGPUスパコンサービスを提供中 ˞(16ϕΞϝλϧαʔϏεߴՐྗ1):΋ఏڙத εύίϯੑೳϥϯΩϯά 501ੈքҐ֫ಘ
ʢ*4$ʣ 12

さくらONEの構成 ',POJTIJ4",63"0/&&NQPXFSJOH5SBOTQBSFOUBOE0QFO"*1MBUGPSNTUISPVHI1SJWBUF4FDUPS )1$*OWFTUNFOUJO+BQBOBS9JW 13 1. ͸͡Ίʹ ʢ͜ΕҎ֎ͷ͘͞Β0/&Ϋϥελ΋͋Γʣ (16 /PEF
(16 /PEF (16 /PEF (16 /PEF *OUFSDPOOFDU/FUXPSL 4UPSBHF/FUXPSL 4UPSBHF OPEFT $16DPSFT (16T ) /*$T (C& (C& (C& 1#

AIスパコンの利用（さくらONEの例） δϣϒ εέδϡʔϥ ʢ4MVSNʣ ϩάΠϯϊʔυ 44) ෼ࢄฒྻ ετϨʔδ
IPNFҎԼΛ Ϛ΢ϯτ δϣϒ౤ߘ NPVOU NPVOU NPVOU εέδϡʔϥ͕Ϣʔβʔʹࢦఆ͞Εͨܭࢉϊʔυ܊Λ ֬อ͠ɺ֤ϊʔυ্ͰεΫϦϓτΛಉ࣌ىಈ͢Δ TMVSNDUME 1. ͸͡Ίʹ TMVSNE TDSJQU TMVSNE TDSJQU TMVSNE TMVSNE TDSJQU TDSJQU 14

ウェブアプリケーションとの対比（処理モデル） ΢ΣϒΞϓϦ ෼ࢄֶश 8PSLFS 8PSLFS 8PSLFS 8PSLFS 8PSLFS
8PSLFS #SPXTFST -# ܭࢉ ϊʔυ ϓʔϧ %# "QQ "QQ "QQ 4UPSBHF ϦΫΤετϨεϙϯε ঢ়ଶ͸֎෦ ʹӬଓԽ શ(16ϊʔυ͔Β ߴස౓ɾେ༰ྔ*0 ෼ࢄϝϞϦܕฒྻܭࢉ ಠཱͨ͠ଟ਺ͷ୹໋ϑϩʔॲཧ શϊʔυͰ଍ฒΈΛἧ͑Δόονॲཧ 1. ͸͡Ίʹ 15

ウェブアプリケーションとの対比（信頼性） 8PSLFS 8PSLFS 8PSLFS 8PSLFS 8PSLFS 8PSLFS #SPXTFST
ܭࢉ ϊʔυ ϓʔϧ %# "QQ "QQ "QQ 4UPSBHF Մ༻ੑͷॏࢹ νΣοΫϙΠϯτ ఆظอଘɾ෮ݩ தஅޙͷ࠶։ੑΛॏࢹ QQϨΠςϯγ Τϥʔ཰ ओͳ໨తม਺ ओͳ໨తม਺ ֶशɾԋࢉεϧʔϓοτ τϥϯβΫ γϣϯʹΑ Δ"$*%อূ ̍୆ނো Ͱશఀࢭ -# ΢ΣϒΞϓϦ ෼ࢄֶश 1. ͸͡Ίʹ 16

17 アジェンダはじめにさくらONEのオブザーバビリティ現状オブザーバビリ
ティ・ギャップまとめ

AIスパコンサービスのオブザーバビリティ要求 Ϣʔβʔ ϓϩόΠμʔ ֶशॲཧੑೳ ো֐ɾނো؅ཧ ໨ඪࢦඪ ਂ૚ֶशͷॲཧͷ಺༁ ֶशɾԋࢉεϧʔϓοτ ΞϓϦέʔγϣϯ σόΠε
ঢ়ଶνΣοΫ ϦιʔεফඅྔɾΤϥʔ ܭࢉࢿݯͷར༻཰ ܭࢉࢿݯͷར༻཰ Ҽࢠ෼ղ ϫʔΫϩʔυ ෼ੳ Ϧιʔε ෼ੳ 2. ͘͞ΒONEͷΦϒβʔόϏϦςΟͷݱঢ় 18

責任境界による計装・収集の制約 Ϣʔβʔ ϓϩόΠμʔ 04 δϣϒ εέδϡʔϥ ੹೚ڥք σόΠε ΞϓϦέʔγϣϯ υϥΠό
γεςϜϥΠϒϥϦ ΞϓϦέʔγϣϯ ϩάͷऩूෆՄ ΞϓϦέʔγϣϯ ίʔυͷܭ૷ෆՄ 2. ͘͞ΒONEͷΦϒβʔόϏϦςΟͷݱঢ় 19

まずはできるところからやる Ϧιʔε෼ੳͷͨΊͷςϨϝτϦʔऩू ϫʔΫϩʔυ ෼ੳ Ϧιʔε ෼ੳ 2. ͘͞ΒONEͷΦϒβʔόϏϦςΟͷݱঢ়

リソース分析の概観 Grafanaダッシュボードの構成 ۭؒϏϡʔ ࣌ܥྻϏϡʔ δϣϒϏϡʔ ࠓͳʹ͕ى͖͍ͯΔʁ աڈԿ͕ى͖͔ͨʁ ಛఆδϣϒʹண໨ ݸผ࣌ܥྻϏϡʔ ಛఆ(16ͳͲ
%BUBMJOL %BUBMJOL 2. ͘͞ΒONEͷΦϒβʔόϏϦςΟͷݱঢ় 21

(16ిྗফඅɺԹ౓ɺϝϞϦ࢖༻ྔɺετϨʔδ࢖༻ྔ 空間ビュー：クラスタ統計 22

空間ビュー：パーティション別統計① ԋࢉεϧʔϓοτ ʢ%$(.ਪఆ஋ʣ (16࢖༻཰ ςϯιϧίΞ࢖༻཰ --.ֶशͰ͸͙ Β͍࢖͍͑ͯΔͱྑ͍ ˞7 "OESFJ FUBM
4:45&.!4$"-&"*0CTFSWBCJMJUZ IUUQTBUTDBMFDPOGFSFODFDPNTZTUFNTDBMFBJPCTFSWBCJMJUZ ˞ Ͱ͋ͬͯ΋(16ͷԋ ࢉޮ཰͕ߴ͍ͱ͸ݶΒͳ͍ 23

空間ビュー：パーティション別統計② (16ϝϞϦ࢖༻཰ (16ϝϞϦ ଳҬ෯࢖༻཰ (16ϝϞϦ ΞΫηε࢖༻཰ ͍ۙͱ͏· ͘࢖͍͑ͯΔ 24

空間ビュー：GPUグリッド表示 )1&$MVTUFSWJFX ˞IUUQTHSBGBOBDPNHSBGBOBQMVHJOTIQFIQDHSBGBOBDMVTUFSWJFXQBOFM ˞ ύωϧϓϥάΠϯ ϥοΫˠαʔόˠ(16 ͳͲͷೖΕࢠදݱՄ (16ిྗফඅྔͷྫ ࣾ಺ͷ)1$ઐ໳
Ոʹ޷ධ ೴಺Πϝʔδʹ ͍ۙϏϡʔ 25

空間ビュー：NVLink別グリッド表示 ܭࢉϊʔυ಺ (16ؒόεͷ ड৴εϧʔϓοτ 26

空間ビュー：NICグリッド表示 ̍ܭࢉϊʔυ͋ͨΓ ΠϯλʔίωΫτ༻/*$ຕ ετϨʔδ༻/*$ຕ /*$ͷड৴ εϧʔϓοτ 27

時系列ビュー① /*$ͷ εϧʔϓοτ ετϨʔδ εϧʔϓοτ νΣοΫϙΠϯτॻ͖ग़͠ͷ༷ࢠ 28

時系列ビュー② (16Ϋϥελͷۭ͖ঢ়گ͕ ͻͱ໨ͰΘ͔Δ (16ిྗফඅྔͷྫ ϓϩδΣΫτ"ͷ೥݄̏ͷσʔλ Λ΋ͱʹՄࢹԽ ۭ͖͕ଟ͍ͱ΋͍ͬͨͳ͍ 29

ジョブビュー　ガントチャート 4MVSNδϣϒͷώετϦʢ.BSJB%#ʹอଘʣΛݩʹՄࢹԽ 30

プロファイルの可視化 γϯϘϧະղܾͱͳΔؔ਺͕ଟ͍ ॱ఻ൖॲཧͷ಺༁͕Θ͔Δ ͨͩ͠$16UJNF 31

データパイプラインの構成（全体像） (16/PEFT -PHJO/PEFT *OUFSDPOOFDU4XJUDIFT #BDLFOET 05F-$PMMFDUPS (BUFXBZ 05F-$PMMFDUPS
"HFOU 1ZSPTDPQF 7JDUPSJB.FUSJDT 7JDUPSJB-PHT .FUSJDT -PHT 1SP fi MFT 05-1 05-1 &YQPSUFST &YQPSUFST &YQPSUFST 4ZTMPH -PHT -PHT 4DSBQF ˠ͸σʔλͷྲྀΕΛද͢ 7JTVBMJ[BUJPO (SBGBOB 2. ͘͞ΒONEͷΦϒβʔόϏϦςΟͷݱঢ় 32

GPUノードの構成 (16/PEFT 05F-$PMMFDUPS "HFOU *1.*&YQPSUFS +PVSOBME 3%."&YQPSUFS /PEF&YQPSUFS %$(.&YQPSUFS
-VTUSF&YQPSUFS 1SPDFTT&YQPSUFS 4DSBQF 1SPNFUIFVT 3FDFJWFS πʔϧ਺Λগͳ͘͢ΔͨΊʹ 05F-$PMMFDUPSओମͰऩू +PVSOBME 3FDFJWFS WBSMPHTMVSN 'JMF-PH 3FDFJWFS ʢࣗ࡞ʣ ˞HJUIVCDPNZVVLJSENB@FYQPSUFS ˞ PQFOUFMFNFUSZ FCQGQSP fi MFS (BUFXBZ 05-1 ˞HJUIVCDPN(4*)1$MVTUSF@FYQPSUFS ˞ 2. ͘͞ΒONEͷΦϒβʔόϏϦςΟͷݱঢ় 33

ログとプロファイルに関する所感まだ有効利用できていない w ཁ্݅ɺଟ͘ͷ৘ใؚ͕·ΕΔΞϓϦϩάΛऔಘෆՄ w ϓϥοτϑΥʔϜଆͰ؅ཧ͢Δϛυϧ΢ΣΞ͕গͳ͍ w εέδϡʔϥʔʢ4MVSNʣ΍ڞ༗ετϨʔδʢ-VTUSF'4PO%%/ʣͷΈ
2. ͘͞ΒONEͷΦϒβʔόϏϦςΟͷݱঢ় ϩά w (16΍3%."௨৴ΛؚΉϓϩϑΝΠϧΛऔಘͰ͖ͳ͍ w ෼ࢄτϨʔε͕ͳ͍ ϓϩϑΝΠϧ 34

͜͜·Ͱ͸ʮܭଌ͠΍͍͢͜ͱʯΛ΍͖ͬͯͨ はじめに AIスパコンの前提知識さくらONE のオブザーバ
ビリティ現状オブザーバビリティ・ギャップまとめアジェンダ

Ϣʔβʔ オブザーバビリティ・ギャップ ΪϟοϓᶄɹΞϓϦ͔Πϯϑϥͷ໰୊੾Γ෼͚ ౤ࢿޮՌ؍఺ ϓϩόΠμʔ ੑೳ؍఺ ো֐ɾނো؍఺ ΪϟοϓᶃɹֶशॲཧੑೳͷϘτϧωοΫಛఆ ΪϟοϓᶅɹϚΠΫϩόʔετϞχλϦϯά ߨԋͰ͸εΩοϓ
3. ΦϒβʔόϏϦςΟɾΪϟοϓ 36

Ϣʔβʔ オブザーバビリティ・ギャップ ΪϟοϓᶄɹΞϓϦ͔Πϯϑϥͷ໰୊੾Γ෼͚ ౤ࢿޮՌ؍఺ ϓϩόΠμʔ ੑೳ؍఺ ো֐ɾނো؍఺ ΪϟοϓᶃɹֶशॲཧੑೳͷϘτϧωοΫಛఆ ΪϟοϓᶅɹϚΠΫϩόʔετϞχλϦϯά 3.
ΦϒβʔόϏϦςΟɾΪϟοϓ ߨԋͰ͸εΩοϓ 37

深層学習の処理過程をトレースしたい ֶशδϣϒ ΤϙοΫ̍ ΠςϨʔγϣϯ̍ (16 (16 ΤϙοΫ̍ ΠςϨʔγϣϯ̍ ࣌ؒ ΠςϨʔγϣϯ
ΤϙοΫ ΠςϨʔγϣϯ ΤϙοΫ ܭࢉͱ௨৴ͷΦʔόʔϥοϓ ֤εύϯͷܦա࣌ؒ΍ϦιʔεফඅྔΛܭଌ ूஂ௨৴ ॱ఻೻ ٯ఻೻ ύϥϝλ ߋ৽ ूஂ௨৴ ॱ఻೻ ٯ఻೻ ύϥϝλ ߋ৽ 3. ΦϒβʔόϏϦςΟɾΪϟοϓ 38

集団通信の処理過程をトレースしたい (16 (16 (16 (16 (16
(16 (16 / (16 / (16 / ࣌ؒ (16 (16 (16 / εΠον αʔό̍ αʔό αʔό/ 3JOHΞϧΰϦ ζϜͷҰྫ શ(16͕ಉ࣌ʹྡʹσʔλ Λૹ৴͠ଓ͚Ϧϯά্Λपճ αʔό/ -FBG /*$ /*$ /*$ /*$ -FBG 3. ΦϒβʔόϏϦςΟɾΪϟοϓ 39

GPUプロファイリング 40 MLPerf Training GPT-3のベンチマーク中に取得 Pytorch Pro fi lerの結果をPerfettoで可視化 NT
ΠϯλʔίωΫτ௨৴ NT NT NT Ұൠతʹ͸ɺਂ૚'8಺ଂ΍/7*%*"͕ఏڙ͢ΔϓϩϑΝΠϥΛ࢖͏ $615* /TJHIU4ZTUFNT 1Z5PSI1SP fi MFS ,JOFUP 3. ΦϒβʔόϏϦςΟɾΪϟοϓ

ギャップ① 　現行 GPUプロファイラの課題 ˞&:PVTFG[BEFI"TM.JBOEPBC FUBM l1SP fi MJOHBOE.POJUPSJOH%FFQ-FBSOJOH5SBJOJOH5BTLTz
&VSP.-4ZT Ϣʔβʔ؅ཧ ॏ͍Φʔόʔϔου Ϣʔβʔ͕༗ޮԽ͢Δඞཁ͕͋ΔͨΊɺ ϓϥοτϑΥʔϚʔཁ݅Λຬͨ͞ͳ͍ 1Z5PSDI1SP fi MFS͕ഒ஗ԆΛ૿Ճ ͤ͞Δใࠂ͋Γ˞ ΞϓϦέʔγϣϯʹରͯ͠ඇ৵ೖͳܗࣜͰ ௿Φʔόʔϔουͷ;FSP$PEFܭ૷Λ͍ͨ͠ 3. ΦϒβʔόϏϦςΟɾΪϟοϓ 41

ギャップ① 　 Zero Code計装 eBPFによるZero Code計装による分散トレーシング技術は確立しつつあるが… ˞IUUQTHJUIVCDPNHSBGBOBCFZMB ˞IUUQTEFFQ
fl PXJP • GPUの内部処理はOSカーネル内からはみえない • GPU間通信はOSカーネルのNWスタックを経由しない ˞˞˞ ˞IUUQTPQFOUFMFNFUSZJPEPDT[FSPDPEFPCJ (16ݻ༗ͷ޻෉͕ඞཁ #FZMB %FFQ'MPX 0#*ͳͲ 3. ΦϒβʔόϏϦςΟɾΪϟοϓ ✘ 42

ギャップ① 　 GPUゼロコード計装の最先端 $6%""1*૚ (16υϥΠό૚ ˞zF#1'5VUPSJBM5SBDJOH$6%"(160QFSBUJPOTz IUUQTFVOPNJBEFWUVUPSJBMTDVEBFWFOUT ˞lF#1'5VUPSJBMCZ&YBNQMF.POJUPSJOH(16%SJWFS"DUJWJUZXJUI,FSOFM5SBDFQPJOUTz IUUQTFVOPNJBEFWUVUPSJBMTYQVHQVLFSOFMESJWFS ˞l8SJUFBOE3VOF#1'PO(16XJUICQGUJNFz
IUUQTFVOPNJBEFWFOCQGUJNFEPDVNFOUTHQV VQSPCFT MJCDVEBSUTP (16΁ͷϝϞϦׂ౰ɾసૹɾಉظɺΧʔωϧىಈؔ਺ʹϑοΫ USBDFQPJOUT LQSPCFT ϥϯΩϡʔͷਂ͞΍9*%ΤϥʔΛܭଌՄೳ ˞ ˞ ˞ CQGUJNF ඇಉظ΍(16಺෦ͷৄࡉܭଌ͸ࠔ೉ Ϣʔβʔͷ1ZUIPOϓϩηεͱͷඥ͚ͮՄೳ 04ΧʔωϧͷൣᙝͳͷͰɺҰൠతͳLQSPCFTͳͲͰܭଌՄೳ ඇಉظͰ΋(16಺ج४Ͱͷ࣌ࠁ͕Θ͔Δ (16಺ͷϫʔϓ΍εϨου୯Ґཻ౓Ͱͷܭଌ 159ʢ(16தؒදݱʣίʔυ΁F#1'ίʔυΛ஫ೖ Ϣʔβʔۭؒ F#1'ϥϯλΠϜ <)%$4 F(16> <04%* CQGUJNF> 3. ΦϒβʔόϏϦςΟɾΪϟοϓ (16಺෦૚ 43

ギャップ①：GPUゼロコード計装の課題 $6%""1*૚ (16υϥΠό૚ (16಺෦૚ ਂ૚ֶश'8૚ʢ1ZUIPOʣ ෼ࢄτϨʔγϯά΁ͷؼணʹ͸ ֤૚ͷΠϕϯτΛ૬ؔͤ͞Δඞཁ͋Γ (16ϝϞϦؒ௨৴΋ ݪཧతʹ͸ܭଌͰ͖Δ͸ͣʜ
5SBDF*%ͷ఻ൖΛͲ͏΍Δ͔ʁʁ ݱঢ়͸·ͩͦͷΑ͏ͳ πʔϧ͸ͳ͍ ݚڀ։ൃͷྖҬ 3. ΦϒβʔόϏϦςΟɾΪϟοϓ 44

Ϣʔβʔ オブザーバビリティ・ギャップ ΪϟοϓᶄɹΞϓϦ͔Πϯϑϥͷ໰୊੾Γ෼͚ ౤ࢿޮՌ؍఺ ϓϩόΠμʔ ੑೳ؍఺ ো֐ɾނো؍఺ ΪϟοϓᶃɹֶशॲཧੑೳͷϘτϧωοΫಛఆ ΪϟοϓᶅɹϚΠΫϩόʔετϞχλϦϯά 3.
ΦϒβʔόϏϦςΟɾΪϟοϓ ߨԋͰ͸εΩοϓ 45

ギャップ②：アプリかインフラの問題切り分け [Liu+,SIGCOMM24] ネットワークの問題か？切り分けが難しい ‣ アプリログには集合通信ライブラリ（NCCL）が”error code 12”がみえるが… ‣ 原因は、ホスト側の問題（GPUダウン・ハング・メモリ不足
・NCCL誤設定）であることも 3. ΦϒβʔόϏϦςΟɾΪϟοϓ 46

ギャップ② 　 R-Pingmesh RNIC to RNICのアクティブプルービングによるRoCEネットワーク監視 47 ③ 継続的なプルービングによるRTT・パケッ
トロスの常時計測 ②RoCEパケットによるプルービング ① サービストラフィックとは独立したRNIC 単位のプルービング 3. ΦϒβʔόϏϦςΟɾΪϟοϓ

IUUQTTQFBLFSEFDLDPNZVVLJUFCQGKBQBONFFUVQOVNCFS ギャップ② 　 R-Pingmeshの論文実装 ·࣮ͩ૷్தͷͨΊ ະσϓϩΠ IUUQTHJUIVCDPNZVVLJSQJOHNFTI MJCJCWFSCT
(P DJMJVNFCQG H31$ 3RMJUF 0QFO5FMFNFUSZ4%, 3. ΦϒβʔόϏϦςΟɾΪϟοϓ 48

はじめに AIスパコンの前提知識さくらONE のオブザーバビリティ現状
オブザーバビリティ・ギャップまとめアジェンダ

まとめ ݱঢ় 4. ·ͱΊ ੍໿ Ϊϟοϓ 05FM (SBGBOBͰϝτϦΫεɾϩάɾϓϩϑΝΠϧج൫Λߏஙͨ͠ɻ Ϧιʔε෼ੳ͸͏·͍͍ͬͯ͘Δ͕ɺϫʔΫϩʔυ෼ੳ͕ະୡɻ ΞϓϦέʔγϣϯϩάίʔυͷܭ૷ɾऩूෆՄ
ᶃֶशॲཧաఔͷ෼ࢄτϨʔε ᶄΞϓϦ͔Πϯϑϥ͔ͷ੾Γ෼͚ ᶅϚΠΫϩόʔετ؂ࢹ AIスパコンサービスのオブザーバビリティの道はハードモード (16θϩίʔυܭ૷ʢF#1'Ͱ$6%"υϥΠό಺෦૚ͷΠϕϯτ૬ؔʣ ϝογϡঢ়ͷ3%."1JOHγεςϜͷ࣮૷ 50

LLMの分散学習のチューニングの詳細はこちら IUUQTTQFBLFSEFDLDPNZVVLJUTBLVSBPOFMMNUSBJOJOHCFODINBSLJOH 4. ·ͱΊ 51

,POJTIJ 'VNJLB[V4",63"0/&&NQPXFSJOH 5SBOTQBSFOUBOE0QFO"*1MBUGPSNTUISPVHI 1SJWBUF4FDUPS)1$*OWFTUNFOUJO+BQBO BS9JWQSFQSJOUBS9JW さくらONEのホワイトペーパー 52
4. ·ͱΊ

さくらインターネット関連資料① IUUQTXXXKBOPHHSKQNFFUJOHKBOPHDBCMFEFTJHO 53 IUUQTXXXKBOPHHSKQNFFUJOHKBOPHTBLVSB 4. ·ͱΊ

さくらインターネット関連資料② IUUQTTQFBLFSEFDLDPNNBSLVOFUBJJOIVSBXPLBPFSV IUUQTTQFBLFSEFDLDPNTPOJDTPOJDEFHPV[IVZVOZPOH TVSVTIFOHDIFOHBJYJBOHLFQBCVSJUVLVLVSBVEPOFUVUPXBLV 4. ·ͱΊ

（宣伝）さくらインターネットの高火力サービス IUUQTHQVTBLVSBBEKQHQVDMPVETFSWJDF 55 4. ·ͱΊ

References • Jiangfei Duan, et al., “Ef fi cient Training
of Large Language Models on Distributed Infrastructures: A Survey”, arXiv, 2024. • Qian Ding, “Transformers in SRE Land:Evolving to Manage AI Infrastructure”, USENIX SREcon25 America, 2025. • Deepak Narayanan, et al., “Ef fi cient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM”, the International Conference for High Performance Computing, Networking, Storage, and Analysis (SC), 2021. • Yusheng Zheng, et al., “Extending Applications Safely and Ef fi ciently”, USENIX OSDI, 2025. • Yiwei Yang, et al., “eGPU: Extending eBPF Programmability and Observability to GPUs”, Workshop on Heterogeneous Composable and Disaggregated Systems (HCDS), 2025. 4. ·ͱΊ 56

A. 付録

テレメトリーの統計値など *OHFTUJPOSBUF "DUJWFTFSJFT.JM A. ෇࿥ 05F-$PMMFDUPS 4DSBQFJOUFSWBMT /PEF&YQPSUFSTFD ,EBUBQPJOUTTFD %$(.&YQPSUFSTFD
-VTUSF&YQPSUFSTFD 3%."&YQPSUFSTFD *1.*&YQPSUFSTFD 1SPDFTT&YQPSUFSTFD 7JDUPSJB.FUSJDT 58

$MJDLIPVTF オフラインの長期分析インフラ投資効果の検証 4MVSNͷδϣϒཤྺ (16΍ωοτϫʔΫͷϦιʔεΛɺϢʔβʔ͕௕ظؒͰͲͷఔ౓࢖༻͔ͨ͠ Λ౷ܭ෼ੳ ϝτϦΫε ෼ੳ༻%#
A. ෇࿥ 59

観察１ ϓϩδΣΫτ"ͷ࣮ࡍͷδϣϒཤྺΑΓूܭ খن໛δϣϒ͕େଟ਺Λ઎ΊΔҰํɺେن໛δϣϒ͕ (16Ϧιʔε઎༗࣌ؒͷେ෦෼Λফඅ͍ͯ͠Δ A. ෇࿥ 60

ಎ࡯ɿδϣϒͷଟ͘͸୹࣌ؒͰऴྃ͢Δ͕ɺେن໛ δϣϒͰ͸࣮ߦ࣌ؒͷ෼෍ͷ੄͕௕͍ ϓϩδΣΫτ"ͷ࣮ࡍͷ δϣϒཤྺΑΓूܭ δϣϒ࣮ߦ࣌ؒͷྦྷੵ෼෍ 観察２ A. ෇࿥ 61

AIOps for AI Supercomputers • [Deng+, NSDI2025] Minder: Faulty Machine
Detection for Large-scale Distributed Model Training • [Xu+, IWQoS2025] eACGM: Non-instrumented Performance Tracing and Anomaly Detection towards Machine Learning Systems • [Jiang+, FSE2025] L4: Diagnosing Large-scale LLM Training Failures via Automated Log Analysis • [Jiang+, DSN2025] LLMPrism: Black-box Performance Diagnosis for Production LLM Training Platforms • [Cui+, arXiv2025] XPUTimer: Anomaly Diagnostics for Divergent LLM Training in GPU Clusters of Thousand-Plus Scale • [Dong+, NSDI2025] Evolution of Aegis: Fault Diagnosis for AI Model Training Service in Production 62

AIスパコン「さくらONE」の オブザーバビリティ / Observability for A...

AIスパコン「さくらONE」の オブザーバビリティ / Observability for AI Supercomputer SAKURAONE

More Decks by Yuuki Tsubouchi (yuuk1)

Other Decks in Research

Featured

Transcript

AIスパコン「さくらONE」の オブザーバビリティ / Observability for A...

AIスパコン「さくらONE」の オブザーバビリティ / Observability for AI Supercomputer SAKURAONE