Slide 1

Slide 1 text

AIスパコン「さくらONE」の オブザーバビリティ Observability Conference Tokyo 2025 Yuuki Tsubouchi (@yuuk1t) さくらインターネット研究所

Slide 2

Slide 2 text

来歴 2 2013 2019 2020 2025 ݱࡏ ウェブ オペレーション SRE さくら インターネット 研究所 はてな 京都 大 学 大 学院 情報学研究科 博 士 (情報学) 取得 AIOps AI Supercomputer eBPF TSDB

Slide 3

Slide 3 text

本講演の趣旨 w ͋Δ43&͕"*εύίϯͷΦϒβʔόϏϦςΟ޲্ʹऔΓ૊ΜͰΈͨ w Ϋϥ΢υωΠςΟϒ෼໺ͱൺ΂ɺݱঢ়ΦϒβʔόϏϦςΟ͕ෆ଍ͯ͠ ͍Δͱײ͡ΔʢΦϒβʔόϏϦςΟɾΪϟοϓʣ w ݚڀ։ൃͱͯ͠ɺΦϒβʔόϏϦςΟɾΪϟοϓΛղফ͍ͨ͠ 3 ೃછΈͷͳ͍γεςϜͷࣄྫΛఏڙ͠ɺٕज़޷ح৺ͷܹࢗ ΍ΦϒβʔόϏϦςΟࣗମͷཧղΛਂΊΔٞ࿦ͷػձ ࣋ͪؼΓ

Slide 4

Slide 4 text

 4 アジェンダ    はじめに さくらONEの オブザーバビリ ティ現状 オブザーバビリ ティ・ギャップ  まとめ

Slide 5

Slide 5 text

 5 アジェンダ    はじめに さくらONEの オブザーバビリ ティ現状 オブザーバビリ ティ・ギャップ まとめ  AIスパコンの前提知識

Slide 6

Slide 6 text

深層学習モデルの「学習」と「推論」 ֶश ਪ࿦ ΞϓϦέʔγϣϯ "1* σʔληοτ ֶशδϣϒ Ϟσϧͷத਎ʢॏΈͳͲʣΛ࡞Δ޻ఔ ϞσϧΛ࢖ͬͯ౴͑Λฦ͢޻ఔ (16 (16 (16 (16 (16 (16 ϞσϧαʔϏϯά νϟοτ΍ΤʔδΣϯτͳͲ ֶशࡁΈϞσϧ ॏΈύϥϝʔλͳͲ σϓϩΠ ຊߨԋͷର৅ 1. ͸͡Ίʹ 6

Slide 7

Slide 7 text

深層学習の処理の流れ 反復構造をもつ ॱ఻ൖ ޡࠩ ٯ఻ൖ ύϥϝʔλ ߋ৽ ޡࠩࢉग़ ޯ഑ ֶशσʔλ ॱ఻ൖ ʜ ֶशσʔλ ΦϓςΟϚΠβ ޡࠩΛখ͘͢͞Δ ύϥϝʔλࢉग़ ΠςϨʔγϣϯ̍ ΠςϨʔγϣϯ̎ --.։ൃͰ͸ֶशδϣϒΛԿճ΋౤ೖͯ͠ࢼ ߦࡨޡ͢ΔͨΊɺδϣϒ࣮ߦΛߴ଎Խ͍ͨ͠ 7 1. ͸͡Ίʹ

Slide 8

Slide 8 text

分散深層学習 - データ並列 データを分割する ॱ఻ൖ ٯ఻ൖ ύϥϝʔλ ߋ৽ ॱ఻ൖ ٯ఻ൖ ύϥϝʔλ ߋ৽ ॱ఻ൖ ٯ఻ൖ ύϥϝʔλ ߋ৽  "MM3FEVDF ʢ૯࿨ʣ (16 (16 (16 ֤(16ϝϞϦ্ͷܭࢉ݁ՌΛू໿ԋࢉ ͠ɺ֤(16্ͷϝϞϦ΁݁ՌΛ഑෍ ूஂ௨৴ 8 1. ͸͡Ίʹ

Slide 9

Slide 9 text

分散深層学習 - モデル並列 モデルを分割する ςϯιϧฒྻ ॱ ߋ৽ ( 1 6  ٯ ύΠϓϥΠϯฒྻ ॱ ॱ ॱ ٯ ٯ ٯ ߋ৽ ( 1 6  Ϟσϧͷ૚Λ࿈ଓͨ͠εςʔδʹ෼ׂ ૚ ૚ ݸʑͷ૚಺ͷςϯιϧʢߦྻʣΛ෼ׂ ߋ৽ ߋ৽ ॱ ॱ ٯ ٯ ूஂ௨৴ ूஂ௨৴ (16 (16 9 1. ͸͡Ίʹ

Slide 10

Slide 10 text

AIモデル開発とGPU 1. ͸͡Ίʹ “I love the smell of GPUs melting” ˞IUUQTYDPNTBNBTUBUVT    ΑΓҾ༻ʢଠࣈ෦෼͸վมʣ CZ4BN"MUNBO ˞ 'SBOL)FMNT l)PX"*8PSLMPBET4IBQF)BSEXBSF"SDIJUFDUVSFz l5IF)PU$IJQJTB3BDLz "*-JUFSBMMZ%FNBOETXF5IJOL0VUTJEFUIF#PY )PU$IJQTΑΓసࡌ (16Ϋϥελن໛͸ ೥Ͱ͔ΒL (16·Ͱ૿େ 10

Slide 11

Slide 11 text

AIスパコンのトポロジ例(Meta RSC-1) ,PLPMJT "QPTUPMPT FUBM 3FWJTJUJOH3FMJBCJMJUZJO-BSHFTDBMF.BDIJOF -FBSOJOH3FTFBSDI$MVTUFSTz )1$" 'JHΑΓసࡌ αʔόɾϥοΫɾ1PEؒ ΠϯλʔίωΫτωοτϫʔΫ d(CQT αʔό಺ΠϯλʔίωΫτ (#T 11 1. ͸͡Ίʹ

Slide 12

Slide 12 text

さくらONE IUUQTXXXTBLVSBBEKQTBLVSBPOF 1. ͸͡Ίʹ ͘͞ΒΠϯλʔωοτ ݚڀॴ͕ओװ マネージドGPUスパコンサービスを提供中 ˞(16ϕΞϝλϧαʔϏεߴՐྗ1):΋ఏڙத εύίϯੑೳϥϯΩϯά 501ੈքҐ֫ಘ ʢ*4$ʣ 12

Slide 13

Slide 13 text

さくらONEの構成 ',POJTIJ4",63"0/&&NQPXFSJOH5SBOTQBSFOUBOE0QFO"*1MBUGPSNTUISPVHI1SJWBUF4FDUPS )1$*OWFTUNFOUJO+BQBOBS9JW  13 1. ͸͡Ίʹ ʢ͜ΕҎ֎ͷ͘͞Β0/&Ϋϥελ΋͋Γʣ (16 /PEF (16 /PEF (16 /PEF (16 /PEF *OUFSDPOOFDU/FUXPSL 4UPSBHF/FUXPSL 4UPSBHF  OPEFT  $16DPSFT (16T )  /*$T (C& (C& (C& 1#

Slide 14

Slide 14 text

AIスパコンの利 用 (さくらONEの例) δϣϒ εέδϡʔϥ ʢ4MVSNʣ ϩάΠϯϊʔυ 44) ෼ࢄฒྻ ετϨʔδ IPNFҎԼΛ Ϛ΢ϯτ δϣϒ౤ߘ NPVOU NPVOU NPVOU εέδϡʔϥ͕Ϣʔβʔʹࢦఆ͞Εͨܭࢉϊʔυ܊Λ ֬อ͠ɺ֤ϊʔυ্ͰεΫϦϓτΛಉ࣌ىಈ͢Δ TMVSNDUME 1. ͸͡Ίʹ TMVSNE TDSJQU TMVSNE TDSJQU TMVSNE TMVSNE TDSJQU TDSJQU 14

Slide 15

Slide 15 text

ウェブアプリケーションとの対 比 (処理モデル) ΢ΣϒΞϓϦ ෼ࢄֶश 8PSLFS 8PSLFS 8PSLFS 8PSLFS 8PSLFS 8PSLFS #SPXTFST -# ܭࢉ ϊʔυ ϓʔϧ %# "QQ "QQ "QQ 4UPSBHF ϦΫΤετϨεϙϯε ঢ়ଶ͸֎෦ ʹӬଓԽ શ(16ϊʔυ͔Β ߴස౓ɾେ༰ྔ*0 ෼ࢄϝϞϦܕฒྻܭࢉ ಠཱͨ͠ଟ਺ͷ୹໋ϑϩʔॲཧ શϊʔυͰ଍ฒΈΛἧ͑Δόονॲཧ 1. ͸͡Ίʹ 15

Slide 16

Slide 16 text

ウェブアプリケーションとの対 比 (信頼性) 8PSLFS 8PSLFS 8PSLFS 8PSLFS 8PSLFS 8PSLFS #SPXTFST ܭࢉ ϊʔυ ϓʔϧ %# "QQ "QQ "QQ 4UPSBHF Մ༻ੑͷॏࢹ νΣοΫϙΠϯτ ఆظอଘɾ෮ݩ தஅޙͷ࠶։ੑΛॏࢹ QQϨΠςϯγ Τϥʔ཰ ओͳ໨తม਺ ओͳ໨తม਺ ֶशɾԋࢉεϧʔϓοτ τϥϯβΫ γϣϯʹΑ Δ"$*%อূ ̍୆ނো Ͱશఀࢭ -# ΢ΣϒΞϓϦ ෼ࢄֶश 1. ͸͡Ίʹ 16

Slide 17

Slide 17 text

 17 アジェンダ   はじめに さくらONEの オブザーバビリ ティ現状 オブザーバビリ ティ・ギャップ  まとめ 

Slide 18

Slide 18 text

AIスパコンサービスのオブザーバビリティ要求 Ϣʔβʔ ϓϩόΠμʔ ֶशॲཧੑೳ ো֐ɾނো؅ཧ ໨ඪࢦඪ ਂ૚ֶशͷॲཧͷ಺༁ ֶशɾԋࢉεϧʔϓοτ ΞϓϦέʔγϣϯ σόΠε ঢ়ଶνΣοΫ ϦιʔεফඅྔɾΤϥʔ ܭࢉࢿݯͷར༻཰ ܭࢉࢿݯͷར༻཰ Ҽࢠ෼ղ ϫʔΫϩʔυ ෼ੳ Ϧιʔε ෼ੳ 2. ͘͞ΒONEͷΦϒβʔόϏϦςΟͷݱঢ় 18

Slide 19

Slide 19 text

責任境界による計装・収集の制約 Ϣʔβʔ ϓϩόΠμʔ 04 δϣϒ εέδϡʔϥ ੹೚ڥք σόΠε ΞϓϦέʔγϣϯ υϥΠό γεςϜϥΠϒϥϦ ΞϓϦέʔγϣϯ ϩάͷऩूෆՄ ΞϓϦέʔγϣϯ ίʔυͷܭ૷ෆՄ 2. ͘͞ΒONEͷΦϒβʔόϏϦςΟͷݱঢ় 19

Slide 20

Slide 20 text

まずはできるところ からやる Ϧιʔε෼ੳͷͨΊͷςϨϝτϦʔऩू ϫʔΫϩʔυ ෼ੳ Ϧιʔε ෼ੳ 2. ͘͞ΒONEͷΦϒβʔόϏϦςΟͷݱঢ় 

Slide 21

Slide 21 text

リソース分析の概観 Grafanaダッシュボードの構成 ۭؒϏϡʔ ࣌ܥྻϏϡʔ δϣϒϏϡʔ ࠓͳʹ͕ى͖͍ͯΔʁ աڈԿ͕ى͖͔ͨʁ ಛఆδϣϒʹண໨ ݸผ࣌ܥྻϏϡʔ ಛఆ(16ͳͲ %BUBMJOL %BUBMJOL 2. ͘͞ΒONEͷΦϒβʔόϏϦςΟͷݱঢ় 21

Slide 22

Slide 22 text

(16ిྗফඅɺԹ౓ɺϝϞϦ࢖༻ྔɺετϨʔδ࢖༻ྔ 空間ビュー:クラスタ統計 22

Slide 23

Slide 23 text

空間ビュー:パーティション別統計① ԋࢉεϧʔϓοτ ʢ%$(.ਪఆ஋ʣ (16࢖༻཰ ςϯιϧίΞ࢖༻཰ --.ֶशͰ͸͙ Β͍࢖͍͑ͯΔͱྑ͍ ˞7 "OESFJ FUBM 4:45&.!4$"-&"*0CTFSWBCJMJUZ IUUQTBUTDBMFDPOGFSFODFDPNTZTUFNTDBMFBJPCTFSWBCJMJUZ  ˞ Ͱ͋ͬͯ΋(16ͷԋ ࢉޮ཰͕ߴ͍ͱ͸ݶΒͳ͍ 23

Slide 24

Slide 24 text

空間ビュー:パーティション別統計② (16ϝϞϦ࢖༻཰ (16ϝϞϦ ଳҬ෯࢖༻཰ (16ϝϞϦ ΞΫηε࢖༻཰ ͍ۙͱ͏· ͘࢖͍͑ͯΔ 24

Slide 25

Slide 25 text

空間ビュー:GPUグリッド表 示 )1&$MVTUFSWJFX ˞IUUQTHSBGBOBDPNHSBGBOBQMVHJOTIQFIQDHSBGBOBDMVTUFSWJFXQBOFM ˞ ύωϧϓϥάΠϯ ϥοΫˠαʔόˠ(16 ͳͲͷೖΕࢠදݱՄ (16ిྗফඅྔͷྫ ࣾ಺ͷ)1$ઐ໳ Ոʹ޷ධ ೴಺Πϝʔδʹ ͍ۙϏϡʔ 25

Slide 26

Slide 26 text

空間ビュー:NVLink別グリッド表 示 ܭࢉϊʔυ಺ (16ؒόεͷ ड৴εϧʔϓοτ 26

Slide 27

Slide 27 text

空間ビュー:NICグリッド表 示 ̍ܭࢉϊʔυ͋ͨΓ ΠϯλʔίωΫτ༻/*$ຕ ετϨʔδ༻/*$ຕ /*$ͷड৴ εϧʔϓοτ 27

Slide 28

Slide 28 text

時系列ビュー① /*$ͷ εϧʔϓοτ ετϨʔδ εϧʔϓοτ νΣοΫϙΠϯτॻ͖ग़͠ͷ༷ࢠ 28

Slide 29

Slide 29 text

時系列ビュー② (16Ϋϥελͷۭ͖ঢ়گ͕ ͻͱ໨ͰΘ͔Δ (16ిྗফඅྔͷྫ ϓϩδΣΫτ"ͷ೥—݄̏ͷσʔλ Λ΋ͱʹՄࢹԽ ۭ͖͕ଟ͍ͱ΋͍ͬͨͳ͍ 29

Slide 30

Slide 30 text

ジョブビュー   ガントチャート 4MVSNδϣϒͷώετϦʢ.BSJB%#ʹอଘʣΛݩʹՄࢹԽ 30

Slide 31

Slide 31 text

プロファイルの可視化 γϯϘϧະղܾͱͳΔؔ਺͕ଟ͍ ॱ఻ൖॲཧͷ಺༁͕Θ͔Δ ͨͩ͠$16UJNF 31

Slide 32

Slide 32 text

データパイプラインの構成(全体像) (16/PEFT  -PHJO/PEFT  *OUFSDPOOFDU4XJUDIFT #BDLFOET 05F-$PMMFDUPS (BUFXBZ 05F-$PMMFDUPS "HFOU 1ZSPTDPQF 7JDUPSJB.FUSJDT 7JDUPSJB-PHT .FUSJDT -PHT 1SP fi MFT 05-1 05-1 &YQPSUFST &YQPSUFST &YQPSUFST 4ZTMPH -PHT -PHT 4DSBQF ˠ͸σʔλͷྲྀΕΛද͢ 7JTVBMJ[BUJPO (SBGBOB 2. ͘͞ΒONEͷΦϒβʔόϏϦςΟͷݱঢ় 32

Slide 33

Slide 33 text

GPUノードの構成 (16/PEFT  05F-$PMMFDUPS "HFOU *1.*&YQPSUFS +PVSOBME 3%."&YQPSUFS /PEF&YQPSUFS %$(.&YQPSUFS -VTUSF&YQPSUFS 1SPDFTT&YQPSUFS 4DSBQF 1SPNFUIFVT 3FDFJWFS πʔϧ਺Λগͳ͘͢ΔͨΊʹ 05F-$PMMFDUPSओମͰऩू +PVSOBME 3FDFJWFS WBSMPHTMVSN 'JMF-PH 3FDFJWFS ʢࣗ࡞ʣ ˞HJUIVCDPNZVVLJSENB@FYQPSUFS ˞ PQFOUFMFNFUSZ FCQGQSP fi MFS (BUFXBZ 05-1 ˞HJUIVCDPN(4*)1$MVTUSF@FYQPSUFS ˞ 2. ͘͞ΒONEͷΦϒβʔόϏϦςΟͷݱঢ় 33

Slide 34

Slide 34 text

ログとプロファイルに関する所感 まだ有効利 用 できていない w ཁ্݅ɺଟ͘ͷ৘ใؚ͕·ΕΔΞϓϦϩάΛऔಘෆՄ w ϓϥοτϑΥʔϜଆͰ؅ཧ͢Δϛυϧ΢ΣΞ͕গͳ͍ w εέδϡʔϥʔʢ4MVSNʣ΍ڞ༗ετϨʔδʢ-VTUSF'4PO%%/ʣͷΈ 2. ͘͞ΒONEͷΦϒβʔόϏϦςΟͷݱঢ় ϩά w (16΍3%."௨৴ΛؚΉϓϩϑΝΠϧΛऔಘͰ͖ͳ͍ w ෼ࢄτϨʔε͕ͳ͍ ϓϩϑΝΠϧ 34

Slide 35

Slide 35 text

 ͜͜·Ͱ͸ʮܭଌ͠΍͍͢͜ͱʯΛ΍͖ͬͯͨ    はじめに AIスパコン の前提知識 さくらONE のオブザーバ ビリティ現状 オブザー バビリティ ・ギャップ   まとめ アジェンダ

Slide 36

Slide 36 text

Ϣʔβʔ オブザーバビリティ・ギャップ ΪϟοϓᶄɹΞϓϦ͔Πϯϑϥͷ໰୊੾Γ෼͚ ౤ࢿޮՌ؍఺ ϓϩόΠμʔ ੑೳ؍఺ ো֐ɾނো؍఺ ΪϟοϓᶃɹֶशॲཧੑೳͷϘτϧωοΫಛఆ ΪϟοϓᶅɹϚΠΫϩόʔετϞχλϦϯά ߨԋͰ͸εΩοϓ 3. ΦϒβʔόϏϦςΟɾΪϟοϓ 36

Slide 37

Slide 37 text

Ϣʔβʔ オブザーバビリティ・ギャップ ΪϟοϓᶄɹΞϓϦ͔Πϯϑϥͷ໰୊੾Γ෼͚ ౤ࢿޮՌ؍఺ ϓϩόΠμʔ ੑೳ؍఺ ো֐ɾނো؍఺ ΪϟοϓᶃɹֶशॲཧੑೳͷϘτϧωοΫಛఆ ΪϟοϓᶅɹϚΠΫϩόʔετϞχλϦϯά 3. ΦϒβʔόϏϦςΟɾΪϟοϓ ߨԋͰ͸εΩοϓ 37

Slide 38

Slide 38 text

深層学習の処理過程をトレースしたい ֶशδϣϒ ΤϙοΫ̍ ΠςϨʔγϣϯ̍ (16 (16 ΤϙοΫ̍ ΠςϨʔγϣϯ̍ ࣌ؒ ΠςϨʔγϣϯ ΤϙοΫ ΠςϨʔγϣϯ ΤϙοΫ ܭࢉͱ௨৴ͷΦʔόʔϥοϓ ֤εύϯͷܦա࣌ؒ΍ϦιʔεফඅྔΛܭଌ ूஂ௨৴ ॱ఻೻ ٯ఻೻ ύϥϝλ ߋ৽ ूஂ௨৴ ॱ఻೻ ٯ఻೻ ύϥϝλ ߋ৽ 3. ΦϒβʔόϏϦςΟɾΪϟοϓ 38

Slide 39

Slide 39 text

集団通信の処理過程をトレースしたい (16  (16  (16  (16  (16  (16  (16 / (16 / (16 / ࣌ؒ (16  (16  (16 / εΠον αʔό̍ αʔό αʔό/ 3JOHΞϧΰϦ ζϜͷҰྫ શ(16͕ಉ࣌ʹྡʹσʔλ Λૹ৴͠ଓ͚Ϧϯά্Λपճ αʔό/ -FBG /*$  /*$  /*$  /*$  -FBG 3. ΦϒβʔόϏϦςΟɾΪϟοϓ 39

Slide 40

Slide 40 text

GPUプロファイリング 40 MLPerf Training GPT-3のベンチマーク中に取得 Pytorch Pro fi lerの結果をPerfettoで可視化 NT ΠϯλʔίωΫτ௨৴ NT NT NT Ұൠతʹ͸ɺਂ૚'8಺ଂ΍/7*%*"͕ఏڙ͢ΔϓϩϑΝΠϥΛ࢖͏ $615* /TJHIU4ZTUFNT 1Z5PSI1SP fi MFS ,JOFUP 3. ΦϒβʔόϏϦςΟɾΪϟοϓ

Slide 41

Slide 41 text

ギャップ①   現 行 GPUプロファイラの課題 ˞&:PVTFG[BEFI"TM.JBOEPBC FUBM l1SP fi MJOHBOE.POJUPSJOH%FFQ-FBSOJOH5SBJOJOH5BTLTz  &VSP.-4ZT  Ϣʔβʔ؅ཧ ॏ͍Φʔόʔϔου Ϣʔβʔ͕༗ޮԽ͢Δඞཁ͕͋ΔͨΊɺ ϓϥοτϑΥʔϚʔཁ݅Λຬͨ͞ͳ͍ 1Z5PSDI1SP fi MFS͕ഒ஗ԆΛ૿Ճ ͤ͞Δใࠂ͋Γ˞ ΞϓϦέʔγϣϯʹରͯ͠ඇ৵ೖͳܗࣜͰ ௿Φʔόʔϔουͷ;FSP$PEFܭ૷Λ͍ͨ͠ 3. ΦϒβʔόϏϦςΟɾΪϟοϓ 41

Slide 42

Slide 42 text

ギャップ①   Zero Code計装 eBPFによるZero Code計装による分散トレーシング技術は確 立 しつつあるが… ˞IUUQTHJUIVCDPNHSBGBOBCFZMB ˞IUUQTEFFQ fl PXJP • GPUの内部処理はOSカーネル内からはみえない • GPU間通信はOSカーネルのNWスタックを経由しない ˞˞˞ ˞IUUQTPQFOUFMFNFUSZJPEPDT[FSPDPEFPCJ (16ݻ༗ͷ޻෉͕ඞཁ #FZMB %FFQ'MPX 0#*ͳͲ 3. ΦϒβʔόϏϦςΟɾΪϟοϓ ✘ 42

Slide 43

Slide 43 text

ギャップ①   GPUゼロコード計装の最先端 $6%""1*૚ (16υϥΠό૚ ˞zF#1'5VUPSJBM5SBDJOH$6%"(160QFSBUJPOTz IUUQTFVOPNJBEFWUVUPSJBMTDVEBFWFOUT ˞lF#1'5VUPSJBMCZ&YBNQMF.POJUPSJOH(16%SJWFS"DUJWJUZXJUI,FSOFM5SBDFQPJOUTz IUUQTFVOPNJBEFWUVUPSJBMTYQVHQVLFSOFMESJWFS ˞l8SJUFBOE3VOF#1'PO(16XJUICQGUJNFz IUUQTFVOPNJBEFWFOCQGUJNFEPDVNFOUTHQV VQSPCFT MJCDVEBSUTP (16΁ͷϝϞϦׂ౰ɾసૹɾಉظɺΧʔωϧىಈؔ਺ʹϑοΫ USBDFQPJOUT LQSPCFT ϥϯΩϡʔͷਂ͞΍9*%ΤϥʔΛܭଌՄೳ ˞ ˞ ˞ CQGUJNF ඇಉظ΍(16಺෦ͷৄࡉܭଌ͸ࠔ೉ Ϣʔβʔͷ1ZUIPOϓϩηεͱͷඥ͚ͮՄೳ 04ΧʔωϧͷൣᙝͳͷͰɺҰൠతͳLQSPCFTͳͲͰܭଌՄೳ ඇಉظͰ΋(16಺ج४Ͱͷ࣌ࠁ͕Θ͔Δ (16಺ͷϫʔϓ΍εϨου୯Ґཻ౓Ͱͷܭଌ 159ʢ(16தؒදݱʣίʔυ΁F#1'ίʔυΛ஫ೖ Ϣʔβʔۭؒ F#1'ϥϯλΠϜ <)%$4 F(16> <04%* CQGUJNF> 3. ΦϒβʔόϏϦςΟɾΪϟοϓ (16಺෦૚ 43

Slide 44

Slide 44 text

ギャップ①:GPUゼロコード計装の課題 $6%""1*૚ (16υϥΠό૚ (16಺෦૚ ਂ૚ֶश'8૚ʢ1ZUIPOʣ ෼ࢄτϨʔγϯά΁ͷؼணʹ͸ ֤૚ͷΠϕϯτΛ૬ؔͤ͞Δඞཁ͋Γ (16ϝϞϦؒ௨৴΋ ݪཧతʹ͸ܭଌͰ͖Δ͸ͣʜ  5SBDF*%ͷ఻ൖΛͲ͏΍Δ͔ʁʁ ݱঢ়͸·ͩͦͷΑ͏ͳ πʔϧ͸ͳ͍ ݚڀ։ൃͷྖҬ 3. ΦϒβʔόϏϦςΟɾΪϟοϓ 44

Slide 45

Slide 45 text

Ϣʔβʔ オブザーバビリティ・ギャップ ΪϟοϓᶄɹΞϓϦ͔Πϯϑϥͷ໰୊੾Γ෼͚ ౤ࢿޮՌ؍఺ ϓϩόΠμʔ ੑೳ؍఺ ো֐ɾނো؍఺ ΪϟοϓᶃɹֶशॲཧੑೳͷϘτϧωοΫಛఆ ΪϟοϓᶅɹϚΠΫϩόʔετϞχλϦϯά 3. ΦϒβʔόϏϦςΟɾΪϟοϓ ߨԋͰ͸εΩοϓ 45

Slide 46

Slide 46 text

ギャップ②:アプリかインフラの問題切り分け [Liu+,SIGCOMM24] ネットワークの問題か?切り分けが難しい ‣ アプリログには集合通信ライブラリ(NCCL)が”error code 12”がみえるが… ‣ 原因は、ホスト側の問題(GPUダウン・ハング・メモリ不 足 ・NCCL誤設定) であることも 3. ΦϒβʔόϏϦςΟɾΪϟοϓ 46

Slide 47

Slide 47 text

ギャップ②   R-Pingmesh RNIC to RNICのアクティブプルービングによるRoCEネットワーク監視 47 ③ 継続的なプルービン グによるRTT・パケッ トロスの常時計測 ②RoCEパケットに よるプルービング ① サービストラフィッ クとは独 立 したRNIC 単位のプルービング 3. ΦϒβʔόϏϦςΟɾΪϟοϓ

Slide 48

Slide 48 text

IUUQTTQFBLFSEFDLDPNZVVLJUFCQGKBQBONFFUVQOVNCFS ギャップ②   R-Pingmeshの論 文 実装 ·࣮ͩ૷్தͷͨΊ ະσϓϩΠ IUUQTHJUIVCDPNZVVLJSQJOHNFTI MJCJCWFSCT (P DJMJVNFCQG H31$ 3RMJUF 0QFO5FMFNFUSZ4%, 3. ΦϒβʔόϏϦςΟɾΪϟοϓ 48

Slide 49

Slide 49 text

    はじめに AIスパコン の前提知識 さくらONE のオブザーバ ビリティ現状 オブザー バビリティ ・ギャップ   まとめ アジェンダ

Slide 50

Slide 50 text

まとめ ݱঢ় 4. ·ͱΊ ੍໿ Ϊϟοϓ 05FM (SBGBOBͰϝτϦΫεɾϩάɾϓϩϑΝΠϧج൫Λߏஙͨ͠ɻ Ϧιʔε෼ੳ͸͏·͍͍ͬͯ͘Δ͕ɺϫʔΫϩʔυ෼ੳ͕ະୡɻ ΞϓϦέʔγϣϯϩάίʔυͷܭ૷ɾऩूෆՄ ᶃֶशॲཧաఔͷ෼ࢄτϨʔε ᶄΞϓϦ͔Πϯϑϥ͔ͷ੾Γ෼͚ ᶅϚΠΫϩόʔετ؂ࢹ AIスパコンサービスのオブザーバビリティの道は ハードモード (16θϩίʔυܭ૷ʢF#1'Ͱ$6%"υϥΠό಺෦૚ͷΠϕϯτ૬ؔʣ ϝογϡঢ়ͷ3%."1JOHγεςϜͷ࣮૷ 50

Slide 51

Slide 51 text

LLMの分散学習のチューニングの詳細はこちら IUUQTTQFBLFSEFDLDPNZVVLJUTBLVSBPOFMMNUSBJOJOHCFODINBSLJOH 4. ·ͱΊ 51

Slide 52

Slide 52 text

,POJTIJ 'VNJLB[V4",63"0/&&NQPXFSJOH 5SBOTQBSFOUBOE0QFO"*1MBUGPSNTUISPVHI 1SJWBUF4FDUPS)1$*OWFTUNFOUJO+BQBO BS9JWQSFQSJOUBS9JW   さくらONEの ホワイトペーパー 52 4. ·ͱΊ

Slide 53

Slide 53 text

さくらインターネット 関連資料① IUUQTXXXKBOPHHSKQNFFUJOHKBOPHDBCMFEFTJHO 53 IUUQTXXXKBOPHHSKQNFFUJOHKBOPHTBLVSB 4. ·ͱΊ

Slide 54

Slide 54 text

さくらインターネット 関連資料② IUUQTTQFBLFSEFDLDPNNBSLVOFUBJJOIVSBXPLBPFSV IUUQTTQFBLFSEFDLDPNTPOJDTPOJDEFHPV[IVZVOZPOH TVSVTIFOHDIFOHBJYJBOHLFQBCVSJUVLVLVSBVEPOFUVUPXBLV 4. ·ͱΊ

Slide 55

Slide 55 text

(宣伝)さくらインターネットの 高 火 力 サービス IUUQTHQVTBLVSBBEKQHQVDMPVETFSWJDF 55 4. ·ͱΊ

Slide 56

Slide 56 text

References • Jiangfei Duan, et al., “Ef fi cient Training of Large Language Models on Distributed Infrastructures: A Survey”, arXiv, 2024. • Qian Ding, “Transformers in SRE Land:Evolving to Manage AI Infrastructure”, USENIX SREcon25 America, 2025. • Deepak Narayanan, et al., “Ef fi cient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM”, the International Conference for High Performance Computing, Networking, Storage, and Analysis (SC), 2021. • Yusheng Zheng, et al., “Extending Applications Safely and Ef fi ciently”, USENIX OSDI, 2025. • Yiwei Yang, et al., “eGPU: Extending eBPF Programmability and Observability to GPUs”, Workshop on Heterogeneous Composable and Disaggregated Systems (HCDS), 2025. 4. ·ͱΊ 56

Slide 57

Slide 57 text

A. 付録 

Slide 58

Slide 58 text

テレメトリーの統計値など *OHFTUJPOSBUF "DUJWFTFSJFT.JM A. ෇࿥ 05F-$PMMFDUPS 4DSBQFJOUFSWBMT /PEF&YQPSUFSTFD ,EBUBQPJOUTTFD %$(.&YQPSUFSTFD -VTUSF&YQPSUFSTFD 3%."&YQPSUFSTFD *1.*&YQPSUFSTFD 1SPDFTT&YQPSUFSTFD 7JDUPSJB.FUSJDT 58

Slide 59

Slide 59 text

$MJDLIPVTF オフラインの 長 期分析 インフラ投資効果の検証 4MVSNͷδϣϒཤྺ (16΍ωοτϫʔΫͷϦιʔεΛɺϢʔβʔ͕௕ظؒͰͲͷఔ౓࢖༻͔ͨ͠ Λ౷ܭ෼ੳ ϝτϦΫε ෼ੳ༻%# A. ෇࿥ 59

Slide 60

Slide 60 text

観察1 ϓϩδΣΫτ"ͷ࣮ࡍͷδϣϒཤྺΑΓूܭ খن໛δϣϒ͕େଟ਺Λ઎ΊΔҰํɺେن໛δϣϒ͕ (16Ϧιʔε઎༗࣌ؒͷେ෦෼Λফඅ͍ͯ͠Δ A. ෇࿥ 60

Slide 61

Slide 61 text

ಎ࡯ɿδϣϒͷଟ͘͸୹࣌ؒͰऴྃ͢Δ͕ɺେن໛ δϣϒͰ͸࣮ߦ࣌ؒͷ෼෍ͷ੄͕௕͍ ϓϩδΣΫτ"ͷ࣮ࡍͷ δϣϒཤྺΑΓूܭ δϣϒ࣮ߦ࣌ؒͷྦྷੵ෼෍ 観察2 A. ෇࿥ 61

Slide 62

Slide 62 text

AIOps for AI Supercomputers • [Deng+, NSDI2025] Minder: Faulty Machine Detection for Large-scale Distributed Model Training • [Xu+, IWQoS2025] eACGM: Non-instrumented Performance Tracing and Anomaly Detection towards Machine Learning Systems • [Jiang+, FSE2025] L4: Diagnosing Large-scale LLM Training Failures via Automated Log Analysis • [Jiang+, DSN2025] LLMPrism: Black-box Performance Diagnosis for Production LLM Training Platforms • [Cui+, arXiv2025] XPUTimer: Anomaly Diagnostics for Divergent LLM Training in GPU Clusters of Thousand-Plus Scale • [Dong+, NSDI2025] Evolution of Aegis: Fault Diagnosis for AI Model Training Service in Production 62