$30 off During Our Annual Pro Sale. View Details »

AIスーパーコンピュータにおけるLLM学習処理性能の計測と可観測性 / AI Supercom...

AIスーパーコンピュータにおけるLLM学習処理性能の計測と可観測性 / AI Supercomputer LLM Benchmarking and Observability

https://www.ipsj-chugoku.jp/kouenkai/2025-20251222.html

+ 演題:
AIスーパーコンピュータにおけるLLM学習処理性能の計測と可観測性

+ 講師:
坪内 佑樹 氏(さくらインターネット株式会社 さくらインターネット研究所 上級研究員)

+ 講演概要:
LLMに代表される大規模なAI基盤モデルの学習には、数百から数万基の高性能GPU、高帯域・低遅延のネットワークや分散ストレージを統合した高性能計算基盤(AIスパコン)が不可欠である。AIスパコンでは、ハードウェアの故障・劣化やソフトウェア設定の不備により、学習ジョブの停止や性能劣化、非効率な実行が引き起こされるが、数多くの異種デバイスが協調して動作することから、原因やボトルネックの特定はときに困難である。そのため、システム内部の観測性向上やテレメトリーデータを機械学習で分析する手法が近年研究されている。本講演では、AIモデル学習のワークロード、AIスパコンの計算機アーキテクチャ、信頼性の基本概念と最新の研究動向を解説する。さらに、さくらインターネットが提供するAIスパコンサービス「さくらONE」を事例に、MLPerfベンチマークによる性能計測と可観測性向上の取り組みを紹介する。

Avatar for Yuuki Tsubouchi (yuuk1)

Yuuki Tsubouchi (yuuk1)

December 22, 2025
Tweet

More Decks by Yuuki Tsubouchi (yuuk1)

Other Decks in Research

Transcript

  1. 坪内 佑樹 2013 2019 2020 2025 ݱࡏ Monitoring SaaS SRE

    さくら インターネット 研究所 はてな 京都 大 学 大 学院 情報学研究科 博 士 後期課程 博 士 (情報学) 取得 AIOps AI Supercomputer eBPF 大 阪 大 学 大 学院 情報科学 研究科 (中途退学)
  2. 深層学習モデルの「学習」と「推論」 ֶश ਪ࿦ ΞϓϦέʔγϣϯ "1* σʔληοτ ֶशδϣϒ Ϟσϧͷத਎ʢॏΈͳͲʣΛ࡞Δ޻ఔ ϞσϧΛ࢖ͬͯ౴͑Λฦ͢޻ఔ (16

    (16 (16 (16 (16 (16 ϞσϧαʔϏϯά νϟοτ΍ΤʔδΣϯτͳͲ ֶशࡁΈϞσϧ ॏΈύϥϝʔλͳͲ σϓϩΠ ຊߨԋͷର৅ 14
  3. 深層学習の処理の流れ 反復構造をもつ ॱ఻ൖ ޡࠩ ٯ఻ൖ ॏΈߋ৽ ޡࠩࢉग़ ޯ഑ ֶशσʔλ ॱ఻ൖ

    ʜ ֶशσʔλ ΦϓςΟϚΠβ ޡࠩΛখ͘͢͞Δ ύϥϝʔλࢉग़ ΠςϨʔγϣϯ̍ ΠςϨʔγϣϯ̎ ΠςϨʔγϣϯ਺͸਺ສ͔Β਺ඦສʹ ΋ٴͿͨΊɺ࣮ߦΛߴ଎Խ͍ͨ͠ 15 (16Λ࢖͏
  4. Transformerにおける 行 列積和演算 -BZFS/PSN -BZFS/PSN %SPQPVU -JOFBS -JOFBS -JOFBS 4FMG

    "UUFOUJPO 9 : %SPQPVU (F-6 ॱ఻ൖ ٯ఻ൖ "UUFOUJPO .-1 5SBOTGPSNFS-BZFS Yl ଛࣦ ೖྗຒΊࠐΈʢτʔΫϯͳͲʣ O(Bsh2) O(Bs2h + Bsh2) O(Bsh2) ɿγʔέϯε௕ s ɿӅΕ૚ͷ࣍ݩ਺ h ɿόοναΠζ B <>/BSBZBOBO %FFQBL FUBM& ff i DJFOUMBSHFTDBMFMBOHVBHFNPEFMUSBJOJOHPOHQVDMVTUFST VTJOHNFHBUSPO-. 4$ ܭࢉྔ͸<>Λ جʹΦʔμʔ දهʹม׵ O(Bsh2) ɿॏΈύϥϝʔλ਺ͷ ࢧ഑߲ lh2
  5. LLMの重みパラメータ数と層数 Ϟσϧ ॳग़ ॏΈύϥϝʔλ਺ ૚਺ (15  #  -MBNB

     #  -MBNB  #  %FFQ4FFL7  #  2XFO  #  2XFO  #  2XFO$PEFS  #  --.KQ  #  l
  6. AIモデル開発とGPU “I love the smell of GPUs melting” ˞IUUQTYDPNTBNBTUBUVT 

      ΑΓҾ༻ʢଠࣈ෦෼͸վมʣ CZ4BN"MUNBO ˞ 'SBOL)FMNT l)PX"*8PSLMPBET4IBQF)BSEXBSF"SDIJUFDUVSFz l5IF)PU$IJQJTB3BDLz "*-JUFSBMMZ%FNBOETXF5IJOL0VUTJEFUIF#PY )PU$IJQTΑΓసࡌ (16Ϋϥελن໛͸ ೥Ͱ͔ΒL (16·Ͱ૿େ 19
  7. Transformerの計算とGPUの適合性 5SBOTGPSNFSͷܭࢉಛੑ • 大 規模な 行 列積和演算 • 並列性が 高

    い (トークンの計算の独 立 性) • メモリアクセスが頻繁 • 超並列処理 • 数千コアによる同時演算実 行 • 専 用 Tensor Core • 高 いメモリ帯域幅(HBM) (16ΞʔΩςΫνϟ
  8. 分散深層学習 - データ並列(DP) モデルをGPUごとに複製し、データを分割して並列処理 ॱ఻ൖ ٯ఻ൖ ύϥϝʔλ ߋ৽ ॱ఻ൖ ٯ఻ൖ

    ύϥϝʔλ ߋ৽ ॱ఻ൖ ٯ఻ൖ ύϥϝʔλ ߋ৽  ʢ૯࿨ʣ (16 (16 (16 ֤(16͔ΒಘΒΕͨޯ഑Λू໿ԋࢉ͠ɺ ֤(16্ͷϝϞϦ΁݁ՌΛڞ༗ ूஂ௨৴ 24
  9. モデルのパラメータ数増 大 メモリの壁(Memory Wall) (IPMBNJ "NJS FUBM "JBOE.FNPSZ8BMMz *&&&.JDSP 'JH

    B ΑΓసࡌ Ϟσϧύϥϝʔλ਺͕ ೥Ͱഒ "*ΞΫηϥϨʔλʢ(16 516ʣͷϝϞϦྔ͸೥Ͱഒ 28
  10. GPUメモリ上の代表的なデータ ύϥϝʔλʢXFJHIUTʣ ΦϓςΟϚΠβঢ়ଶ (1673".ۭؒ Ϟσϧঢ়ଶʢֶशεςοϓΛԣஅʣ Ұ࣌σʔλʢΠςϨʔγϣϯ಺ͷΈʣ ϛχόον தؒ׆ੑԽʢBDUJWBUJPOTʣ ॏΈߦྻͳͲ '1ϚελॏΈɺޯ഑ͷ

    ཤྺɾ෼෍౷ܭྔͳͲ ಛ௃ྔɾϥϕϧͳͲ ॱ఻ൖͷ૚͝ͱͷܭࢉ݁Ռ ޯ഑ʢHSBEJFOUTʣ ٯ఻ൖͰܭࢉ͞ΕΔ݁Ռ େن໛Ϟσϧ͸ ̍(16ϝϞϦ ʹ৐Γ੾Βͳ͍ 29
  11. 分散深層学習 - モデル並列 モデルを分割する ςϯιϧฒྻʢ51ʣ ॱ ߋ৽ ( 1 6

     ٯ ύΠϓϥΠϯฒྻʢ11ʣ ॱ ॱ ॱ ٯ ٯ ٯ ߋ৽ ( 1 6  Ϟσϧͷ૚Λ࿈ଓͨ͠εςʔδʹ෼ׂ ૚ ૚ ݸʑͷ૚಺ͷςϯιϧʢߦྻʣΛ෼ׂ ߋ৽ ߋ৽ ॱ ॱ ٯ ٯ ूஂ௨৴ ूஂ௨৴ (16 (16 30 ௨৴ͷස౓͸௿͍ ௨৴ͷස౓͸ߴ͍ 11
  12. パイプライン並列 ー Naive Model Parallel <>/BSBZBOBO %FFQBL FUBM1JQF%SFBN(FOFSBMJ[FEQJQFMJOFQBSBMMFMJTNGPS%//USBJOJOH  04%*

    <>'JHVSFΑΓసࡌ ಉ࣌ʹύΠϓϥΠϯ಺ʹଘࡏͰ͖Δೖྗ͕ݸ͚ͩͳͷͰɺ΄ͱΜͲͷεςʔ δ͕଴ͨ͞Εɺ(16ར༻཰͕ඇৗʹ௿͍ɻ ύΠϓϥΠϯ εςʔδ਺ɿ 5SBOTGPSNFSͷ૚਺ ͕ͳΒ͹ MBZFSTTUBHF ٯ఻ൖ͕Ϛεଓ͘ͷ͸ߦྻੵ࿨ԋࢉͷίετΛදݱ͍ͯ͠Δ
  13. 3次元並列(ハイブリッド並列) <>%VBO +JBOHGFJ FUBM& ff i DJFOU5SBJOJOHPG-BSHF-BOHVBHF.PEFMTPO%JTUSJCVUFE*OGSBTUSVDUVSFT "4VSWFZBS9JW <>'JHΛղ૾౓ ͱΞεϖΫτൺΛ

    มߋͯ͠࡞੒ σʔλฒྻʢ%1ʣ ύΠϓϥΠϯฒྻʢ11ʣ ςϯιϧฒྻʢ51ʣͷ̏ͭ Λಉ࣌ʹ૊Έ߹Θͤͯɺ(16܈Λ࣍ݩͷ֨ࢠͱͯ͠ѻ͏ɻ
  14. AIスパコンの基本構成 37 (16 /PEF (16 /PEF (16 /PEF (16 /PEF

    *OUFSDPOOFDU/FUXPSL 4UPSBHF/FUXPSL 4UPSBHF #BDLFOE/FUXPSLͱ΋ݺ͹ΕΔ 3%."εΠονͱ/*$ʹجͮ͘ (16ؒ௨৴༻ωοτϫʔΫ ετϨʔδ༻ωοτϫʔΫ ΠϯλʔίωΫτωοτϫʔΫͱ ڞ༗ʹͳΔέʔε΋͋Δ ฒྻ෼ࢄετϨʔδ ֶशσʔλ΍νΣοΫϙΠϯτ͕ อଘ͞ΕΔ
  15. ノード内通信とノード間通信 • 同 一 サーバ内の複数のGPU間の通信 • 高 速なバス通信技術(例:NVLink) • 数百GB/s級

    • 異なるサーバ間のGPU通信 • RDMAによる 高 速ネットワーク技術 • 数百Gbps級
  16. ノード間通信がボトルネックへ <>4BQJP "NFEFP FUBM4DBMJOHEJTUSJCVUFENBDIJOFMFBSOJOHXJUI*O/FUXPSLBHHSFHBUJPO/4%*  <>,MFOL #FOKBNJO FUBM"OJOOFUXPSLBSDIJUFDUVSFGPSBDDFMFSBUJOHTIBSFENFNPSZ NVMUJQSPDFTTPSDPMMFDUJWFTz *4$"

     ਂ૚ֶशͷֶश࣌ؒʹ઎ΊΔ"MMSFEVDFͷׂ߹ਪఆ͸ɺ <> <> (CQTωοτϫʔΫͰ໿ (CQTωοτϫʔΫͰr 41 (16ͷුಈখ਺఺ੑೳ͸೥Ͱഒ৳ͼͨɻ ҰํͰωοτϫʔΫଳҬͷഒ৳௕ʹ͸໿೥Λཁͨ͠ɻ<>
  17. 3%." ʢ04ΧʔωϧόΠύεʹΑΓ$16 ͱ%3".Λܦ༝ͤͣʹ௚઀సૹʣ *O fi OJCBOE /*$ʹϝϞϦసૹΦϑϩʔυ 3%."ΛωΠςΟϒ αϙʔτͨ͠ઐ༻ωο τϫʔΫ૬ޓ઀ଓٕज़

    3P$&W *1ϧʔςΟϯάՄೳͳ6%1ϕʔε3%." ϩεϨε ϑϩʔ੍ޚ΍᫔᫓੍ޚʹΑΓύέοτϩεΛθϩʹ͚ۙͮΔ <>-J 8FOYVF FUBM 6OEFSTUBOEJOHDPNNVOJDBUJPODIBSBDUFSJTUJDTPGEJTUSJCVUFEUSBJOJOHz "1/FU  <>'JHVSF B ΑΓసࡌ RDMA 43
  18. AIモデル学習におけるストレージのユースケース ϞσϧνΣοΫϙΠ ϯςΟϯά ֶशσʔληοτ ͷಡΈग़͠ w ֶश్தͷঢ়ଶΛอଘ͠ɺো֐࣌ʹ࠶։ ͢ΔͨΊͷఆظνΣοΫϙΠϯςΟϯά w ਺෼ʙ਺े෼ʹҰ౓όʔετॻ͖ࠐΈ

    w #ͷ--.Ͱ͸νΣοΫϙΠϯταΠζ ͸5#΄ͲʹͳΔ w ߴεϧʔϓοτͰͷಡΈॻ͖ w ਺ඦ਺ઍϊʔυن໛Ͱͷฒྻอଘɾฒྻ ಡΈग़͠εέʔϥϏϦςΟ w --B."͸ஹҎ্ͷτʔΫϯͰֶ श͞Εɺ͓Αͦ5#ͷσʔλʹ૬౰ w ଟ਺ͷ(16ϊʔυ͔Βฒྻγʔέϯ γϟϧಡΈग़͠ w લॲཧ΍ΫϦʔχϯάͰ͸ɺϥϯμϜ Ϧʔυ΍খϑΝΠϧಡΈग़͠΋ࠞࡏ εΩοϓ
  19. AIスパコンのソフトウェアスタック例 多層に折り重なった複雑な構成 εέδϡʔϥ 4MVSN ,VCFSOFUFT ίϯςφ /7*%*"$POUBJOFS5PPMLJU &OSPPU 1ZYJT 4JOHVSBMJUZ

    ෼ࢄֶशϑϨʔϜϫʔΫ .FHBUSPO-. %FFQ4QFFE 1ZUPSDI'4%1 /F.P ֶशϑϨʔϜϫʔΫ 1Z5PSDI 5FOTPS fl PX +"9 ूஂ௨৴ϥΠϒϥϦ /$$- 3$$- 3%."ϥΠϒϥϦ JCWFSCT SENBDPSF ܭࢉߴ଎ԽϥΠϒϥϦ DV#-"4DV#-"4-U DV%// 5SBOTGPSNFS&OHJOF ϥϯλΠϜυϥΠό $6%" OWJEJBESJWFST ˞IUUQTEPDTOWJEJBDPNOFNPGSBNFXPSLVTFSHVJEFMBUFTUTPGUXBSFDPNQPOFOUWFSTJPOTIUNM Ϣʔβʔ͕ ֶशδϣϒΛൃߦ 50
  20. TOP500(ISC2025 June, 2025) 501 )1--*/1"$, ੈքҐ )1$( )1$਺஋ԋࢉΞϓϦέʔγϣϯ ੈքҐ )1-.Y1

    "*޲͚ͷ୯ਫ਼౓΍൒ਫ਼౓ԋࢉੑೳ ੈքҐ *0 ετϨʔδ*0ੑೳ ੈքҐ ΠϯλʔίωΫτωοτϫʔΫ͸ɺ্ҐҐҎ಺Ͱ͸།ҰϕϯμʔதཱͰ Φʔϓϯͳٕज़Λ࠾༻ *4$ʹͯεύίϯੑೳϥϯΩϯά501ੈքҐΛ֫ಘ 40/J$04ͱ(C&&UIFSOFU 54
  21. TOP500 (ISC2025) 世界49位 国内9位 3BOL 4ZTUFN 0SHBOJ[BUJPO 3NBY 1'MPQT 

    'VHBLV 3*,&/$FOUFSGPS$PNQVUBUJPOBM 4DJFODF   "#$* "*45   $)*& 4PGU#BOL$PSQ   $)*& 4PGU#BOL$PSQ   "#$*2 "*45   '15"*'BDUPSZ+BQBO '15"*'BDUPSZ+BQBO   .JZBCJ( +PJOU$FOUFSGPS"EWBODFE)JHI 1FSGPSNBODF$PNQVUJOH   546#".& $** *OTUJUVUFPG4DJFODF5PLZP   4",63"0/& 4",63"*OUFSOFU*OD 1SVOVT4PMVUJPOT*OD  ࠃ಺γεςϜ্ҐͷΈൈਮ IUUQTUPQPSHMJTUTUPQ 55
  22. TOP500(SC2025 November, 2025) 3BOL 4ZTUFN 0SHBOJ[BUJPO 3NBY 1'MPQT  4",63"0/&

    4",63"*OUFSOFU*OD 1SVOVT4PMVUJPOT*OD   4",63"0/& $:$ 4",63"*OUFSOFU*OD 1SVOVT4PMVUJPOT*OD   4",63"0/& $:# 4",63"*OUFSOFU*OD 1SVOVT4PMVUJPOT*OD  IUUQTXXXUPQPSHMJTUTUPQMJTU $:$ͱ$:#ͱݺ͹ΕΔͭͷΫϥελΛ৽نʹ௥Ճɻ
  23. さくらONEの3つのクラスタ ୈҰΫϥελ ୈೋΫϥελʢ$:$ʣ ୈࡾΫϥελʢ$:#ʣ ܭࢉϊʔυ਺    (16 /7*%*")

    49.(# /7*%*") 49.(# /7*%*"# 49.(# $16 *OUFM9FPO1MBUJOVN  º$16 DPSFT  *OUFM9FPO1MBUJOVN  º$16 DPSFT  *OUFM9FPO1º $16 DPSFT ϝϞϦ %%35# %%35# %%35# ϩʔΧϧετ Ϩʔδ (#Y 5#º 5#º ڞ༗ετϨʔδ -VTUSF1# -VTUSF5# -VTUSF5# ΠϯλʔίωΫ τωοτϫʔΫ (C&º (C&º (C&º IUUQTXXXTBLVSBBEKQTBLVSBPOF
  24. さくらONE 第 一 クラスタの構成 ',POJTIJ4",63"0/&&NQPXFSJOH5SBOTQBSFOUBOE0QFO"*1MBUGPSNTUISPVHI1SJWBUF4FDUPS )1$*OWFTUNFOUJO+BQBOBS9JW  58 (16 /PEF

    (16 /PEF (16 /PEF (16 /PEF *OUFSDPOOFDU/FUXPSL 4UPSBHF/FUXPSL 4UPSBHF  OPEFT  $16DPSFT (16T )  /*$T (C& 40/*$04(C& (C& 1# %%/&YBTDBMFS
  25. AIスパコンの利 用 (さくらONEの例) δϣϒ εέδϡʔϥ ʢ4MVSNʣ ϩάΠϯϊʔυ 44) ฒྻ෼ࢄ ετϨʔδ

    IPNFҎԼΛ Ϛ΢ϯτ δϣϒ౤ߘ NPVOU NPVOU NPVOU εέδϡʔϥ͕Ϣʔβʔʹࢦఆ͞Εͨ(16ϊʔυΛ ֬อ͠ɺ֤ϊʔυ্ͰεΫϦϓτΛಉ࣌ىಈ͢Δ TMVSNDUME TMVSNE TDSJQU TMVSNE TDSJQU TMVSNE TMVSNE TDSJQU TDSJQU 61
  26. MLPerf Training w είΞ͸ֶश։͔࢝Βֶशऴྃ·Ͱͷ࣮࣌ؒʢNJOʣ w ૚਺΍ֶश཰ɺγʔέϯε௕ͳͲͷֶशؔ࿈ͷϋΠύʔύϥϝʔλ͸ݻఆ w ֶशσʔληοτ͸༻ҙ͞Ε͍ͯΔ w ଛࣦ͕نఆͷᮢ஋ʹୡ͢Δͱ࣮ߦΛఀࢭʢ(15Ͱ͸-PH1FSQMFYJUZ͕ʣ

    w ͋Δఔ౓ֶशΛਐΊΒΕͨঢ়ଶΛอଘͨ͠νΣοΫϙΠϯτ͔Βֶश։࢝ w ֶशதͷνΣοΫϙΠϯςΟϯάʢετϨʔδ΁ͷఆظอଘʣ͸ͳ͠ モデル側のパラメータ固定や学習終了条件の明 示 ˞$MPTFE%JWJTJPOͷ৔߹ 73
  27. GPT-3事前学習のスコア 0SHBOJ[BUJPO 4ZTUFN/BNF (16਺ .PEFM/BNF -BUFODZ NJO /7*%*" &PTEGX@O 

     )49.(#  0SBDMF Y#.(16)  )49.(#  0SBDMF Y#.(16)  )49.(#  4",63" JOUFSOFU 4",63"0/&@O  )49.(#  VOWFSJ fi FE /7*%*" &PT@O  )49.(#  4",63" JOUFSOFU 4",63"0/&@O  )49.(#  VOWFSJ fi FE /7*%*" &PT@O  )49.(#  IUUQTNMDPNNPOTPSHCFODINBSLTUSBJOJOH3PVOEW͔ΒҰ෦ൈਮ ˞VOWFSJ fi FE͸.-$PNNPOTڠձʹ Αͬͯݕূ͞Ε͍ͯͳ͍݁ՌͰ͋Δɻ 74
  28. GPT-3事前学習(規模が近い他システム 比 較①) 0SHBOJ[BUJPO 4ZTUFN/BNF (16਺ .PEFM/BNF -BUFODZ NJO 4",63"

    JOUFSOFU 4",63"0/&@O  )49.(#  VOWFSJ fi FE /7*%*" &PT@O  )49.(#  (16਺ɺ(16Ϟσϧɺ/8ଳҬ෯͕ಉ৚݅Ͱͷൺֱ &PT@Oʹରͯ͠ɺ4",63"0/&@O͸ͷֶश࣌ؒͱͳͬͨ 75
  29. GPT-3事前学習(規模が近い他システム 比 較②) (16਺͕ۙ͘͠ಉҰϞσϧɺ/8ଳҬ෯ಉҰͰͷൺֱ 0SHBOJ[BUJPO 4ZTUFN/BNF (16਺ .PEFM/BNF -BUFODZ NJO

    4",63" JOUFSOFU 4",63"0/&@O  )49.(#  VOWFSJ fi FE /7*%*" &PT@O  )49.(#  &PT@OΛԾʹϊʔυͱ͢Δͱཧ૝׵ࢉͰ NJO ͱͳΓɺ 4",63"0/&@O͸ͷֶश࣌ؒ ˞4",63"0/&ʹ͸ෆརͳ৚݅Ͱͷൺֱ ྆ऀ1PEʢ46ʣ ԣஅ௨৴͋Γ 76
  30. 学習ワークロードの代表的な 目 標性能指標 εϧʔϓοτ ܭࢉޮ཰ .'6 .PEFM'MPQT6UJMJ[BUJPO  Ϟσϧ͕ཧ࿦తʹ࢖༻͢Δ '-014ͷ࣮ଌ஋

    ϋʔυ΢ΣΞͷϐʔΫ'-014 ֶशεϧʔϓοτɹUPLFOTTFD TBNQMFTTFD ԋࢉεϧʔϓοτɹ'-014ʢ'MPBUJOHQPJOU0QFSBUJPOT1FS4FDPOEʣ ϨΠςϯγ 5JNFUP5SBJOɹֶश։͔࢝Β׬ྃ·Ͱͷ࣌ؒ 77
  31. GPT-3事前学習(さくらONEスケーリング評価) ϊʔυ਺   5JNFUP5SBJO ʢNJOʣ   .'6 

      5'-014(16   5PLFOTTFD(16   ֶश࣌ؒ୹ॖ཰ɹɹഒ ϊʔυ਺͕ഒʹରͯ͠ )'1ࠞ߹ਫ਼౓Ͱͷԋࢉޮ཰ʢ.'6ʣͷ૬৔͸ ԋࢉޮ཰(16ɹɹɹ ରཧ૝εέʔϦϯά 78 ʢԋࢉεϧʔϓοτͷ૬৔͸r5'-014(16ʣ
  32. H100 BF16/FP8混合精度 MFU w ϐʔΫ'-014ͱͯ͠ɺจݙͰ͸ 5'-014Λ࠾༻͞Ε͍ͯΔ w '15FOTPS$PSF͸ 5'-014ʢ˞ʣ͕ͩɺ4QBSTFͳ͠ͳΒ 

    ˞/7*%*")5FOTPS$PSF(16%BUBTIFFUIUUQTSFTPVSDFTOWJEJBDPNFOVTIPQQFSBSDIJUFDUVSFOWJEJBUFOTPSDPSFHQV EBUBTIFFU ˞IUUQTDBUBMPHOHDOWJEJBDPNPSHTOWJEJBUFBNTEHYDCFODINBSLJOHSFTPVSDFTMMBNBCEHYDCFODINBSLJOHD ˞ -MBNB# .'6d ˞ ˞IUUQTTFNJBOBMZTJTDPNIDMVTUFSTQPXFSOFUXPSL .'6 ˞ USJMMJPOQBSBNFUFSUSBJOJOH -MBNB# ˞IUUQTTFNJBOBMZTJTDPNIWTHCOWMUSBJOJOHCFODINBSLT .'6 ˞ ˞IUUQTXXXEBUBCSJDLTDPNKQCMPHUVSCPDIBSHFEUSBJOJOHPQUJNJ[JOHEBUBCSJDLTNPTBJDBJTUBDLGQ .15CdC .'6d ˞ 79
  33. GPT-3事前学習(パラメータの組み合せ) 51 11 %1 (MPCBM #4 .JDSP #4 '-014 (16

    5JNFUP5SBJO ʢNJOʣ      /PEBUB                       51ςϯιϧฒྻ౓ 11ύΠϓϥΠϯฒྻ౓ %1σʔλฒྻ౓ (MPCBM#4άϩʔόϧόοναΠζ .JDSP#4ϚΠΫϩόοναΠζ 96ノード શମͰݸͷύϥϝʔλͷ͏ͪ୅දతͳ΋ͷΛൈਮ ςϯιϧฒྻͷ ௨৴Λαʔό಺ /8Ͱ׬݁ͤͨ͞ ͍ͨΊ51 73".ʹऩ·Δൣ ғͰ%1Λ্͛Ε ͹͍͍ͱࢥ͍ͬͯ ͕ͨҙ֎ͱͦ͏Ͱ ΋ͳ͍ 80
  34. GPT-3事前学習の結果の考察 w ͘͞Β0/&Ͱ͸૬৔ͷൣғ಺ͷԋࢉޮ཰Λୡ੒Ͱ͖͍ͯΔɻ w ΠϯλʔίωΫτ௨৴͕े෼ߴ଎ɻ෼ࢄֶशͷνϡʔχϯά΋૬৔Ϩϕϧɻ w ҰํͰɺ͘͞Β0/&͸&04ͱϊʔυൺֱͰɺϊʔυ׵ࢉൺֱ Ͱͷੑೳͱͳͬͨɻ w ཁҼͷՄೳੑɿ&UIFSOFU

    3P$&W ର*O fi OJCBOEɺ͋Δ͍͸୯ʹνϡʔχϯάෆ଍ w ΠϯλʔίωΫτͷτϙϩδߏ੒ʢ3BJM0QUJNJ[FEʣ͸ಉҰͷ͸ͣ w ιϑτ΢ΣΞελοΫ͸04ͱΧʔωϧϞδϡʔϧʢυϥΠόͳͲʣҎ֎ͷόʔ δϣϯ͸ಉҰͷ͸ͣ 81
  35. 責任境界による計装・収集の制約 Ϣʔβʔ ϓϩόΠμʔ 04 δϣϒ εέδϡʔϥ ੹೚ڥք σόΠε ΞϓϦέʔγϣϯ υϥΠό

    γεςϜϥΠϒϥϦ ΞϓϦέʔγϣϯ ϩάͷऔಘෆՄ ΞϓϦέʔγϣϯ ίʔυͷܭ૷ෆՄ 86
  36. 空間ビュー:パーティション別統計① ԋࢉεϧʔϓοτ ʢ%$(.ਪఆ஋ʣ (16࢖༻཰ ςϯιϧίΞ࢖༻཰ --.ֶशͰ͸͙ Β͍࢖͍͑ͯΔͱྑ͍ ˞7 "OESFJ FUBM

    4:45&.!4$"-&"*0CTFSWBCJMJUZ IUUQTBUTDBMFDPOGFSFODFDPNTZTUFNTDBMFBJPCTFSWBCJMJUZ  ˞ Ͱ͋ͬͯ΋(16ͷԋ ࢉޮ཰͕ߴ͍ͱ͸ݶΒͳ͍ 90
  37. データパイプラインの構成(全体像) (16/PEFT  -PHJO/PEFT  *OUFSDPOOFDU4XJUDIFT #BDLFOET 05F-$PMMFDUPS (BUFXBZ 05F-$PMMFDUPS

    "HFOU 1ZSPTDPQF 7JDUPSJB.FUSJDT 7JDUPSJB-PHT .FUSJDT -PHT 1SP fi MFT 05-1 05-1 &YQPSUFST &YQPSUFST &YQPSUFST 4ZTMPH -PHT -PHT 4DSBQF ˠ͸σʔλͷྲྀΕΛද͢ 7JTVBMJ[BUJPO (SBGBOB 99
  38. GPUノードの構成 (16/PEFT  05F-$PMMFDUPS "HFOU *1.*&YQPSUFS +PVSOBME 3%."&YQPSUFS /PEF&YQPSUFS %$(.&YQPSUFS

    -VTUSF&YQPSUFS 1SPDFTT&YQPSUFS 4DSBQF 1SPNFUIFVT 3FDFJWFS πʔϧ਺Λগͳ͘͢ΔͨΊʹ 05F-$PMMFDUPSओମͰऩू +PVSOBME 3FDFJWFS WBSMPHTMVSN 'JMF-PH 3FDFJWFS ʢࣗ࡞ʣ ˞HJUIVCDPNZVVLJSENB@FYQPSUFS ˞ PQFOUFMFNFUSZ FCQGQSP fi MFS (BUFXBZ 05-1 ˞HJUIVCDPN(4*)1$MVTUSF@FYQPSUFS ˞ 100
  39. 深層学習の処理過程をトレースしたい ֶशδϣϒ ΤϙοΫ̍ ΠςϨʔγϣϯ̍ (16 (16 ΤϙοΫ̍ ΠςϨʔγϣϯ̍ ࣌ؒ ΠςϨʔγϣϯ

    ΤϙοΫ ΠςϨʔγϣϯ ΤϙοΫ ܭࢉͱ௨৴ͷΦʔόʔϥοϓ ֤εύϯͷܦա࣌ؒ΍ϦιʔεফඅྔΛܭଌ ूஂ௨৴ ॱ఻೻ ٯ఻೻ ॏΈ ߋ৽ ूஂ௨৴ ॱ఻೻ ٯ఻೻ ॏΈ ߋ৽ 105
  40. 集団通信の処理過程をトレースしたい (16  (16  (16  (16  (16

     (16  (16 / (16 / (16 / ࣌ؒ (16  (16  (16 / εΠον αʔό̍ αʔό αʔό/ 3JOHΞϧΰϦ ζϜͷҰྫ શ(16͕ಉ࣌ʹྡʹσʔλ Λૹ৴͠ଓ͚Ϧϯά্Λपճ αʔό/ -FBG /*$  /*$  /*$  /*$  -FBG 106
  41. GPUプロファイリング 107 MLPerf Training GPT-3のベンチマーク中に取得 Pytorch Pro fi lerの結果をPerfettoで可視化 NT

    ΠϯλʔίωΫτ௨৴ NT NT NT Ұൠతʹ͸ɺਂ૚'8಺ଂ΍/7*%*"͕ఏڙ͢ΔϓϩϑΝΠϥΛ࢖͏ $615* /TJHIU4ZTUFNT 1Z5PSI1SP fi MFS ,JOFUP
  42. ギャップ①   現 行 GPUプロファイラの課題 ˞&:PVTFG[BEFI"TM.JBOEPBC FUBM l1SP fi MJOHBOE.POJUPSJOH%FFQ-FBSOJOH5SBJOJOH5BTLTz

     &VSP.-4ZT  Ϣʔβʔ؅ཧ ॏ͍Φʔόʔϔου Ϣʔβʔ͕༗ޮԽ͢Δඞཁ͕͋ΔͨΊɺ ϓϥοτϑΥʔϚʔཁ݅Λຬͨ͞ͳ͍ 1Z5PSDI1SP fi MFS͕ഒ஗ԆΛ૿Ճ ͤ͞Δใࠂ͋Γ˞ ΞϓϦέʔγϣϯʹରͯ͠ඇ৵ೖͳܗࣜͰ ௿Φʔόʔϔουͷ;FSP$PEFܭ૷Λ͍ͨ͠ 108
  43. ギャップ①   Zero Code計装 eBPFによるZero Code計装による分散トレーシング技術は確 立 しつつあるが… ˞IUUQTHJUIVCDPNHSBGBOBCFZMB ˞IUUQTEFFQ

    fl PXJP • GPUの内部処理はOSカーネル内からはみえない • GPU間通信はOSカーネルのNWスタックを経由しない ˞˞˞ ˞IUUQTPQFOUFMFNFUSZJPEPDT[FSPDPEFPCJ (16ݻ༗ͷ޻෉͕ඞཁ #FZMB %FFQ'MPX 0#*ͳͲ ✘ 109
  44. ギャップ①   GPUゼロコード計装の最先端 $6%""1*૚ (16υϥΠό૚ ˞zF#1'5VUPSJBM5SBDJOH$6%"(160QFSBUJPOTz IUUQTFVOPNJBEFWUVUPSJBMTDVEBFWFOUT ˞lF#1'5VUPSJBMCZ&YBNQMF.POJUPSJOH(16%SJWFS"DUJWJUZXJUI,FSOFM5SBDFQPJOUTz IUUQTFVOPNJBEFWUVUPSJBMTYQVHQVLFSOFMESJWFS ˞l8SJUFBOE3VOF#1'PO(16XJUICQGUJNFz

    IUUQTFVOPNJBEFWFOCQGUJNFEPDVNFOUTHQV VQSPCFT MJCDVEBSUTP (16΁ͷϝϞϦׂ౰ɾసૹɾಉظɺΧʔωϧىಈؔ਺ʹϑοΫ USBDFQPJOUT LQSPCFT ϥϯΩϡʔͷਂ͞΍9*%ΤϥʔΛܭଌՄೳ ˞ ˞ ˞ CQGUJNF ඇಉظ΍(16಺෦ͷৄࡉܭଌ͸ࠔ೉ Ϣʔβʔͷ1ZUIPOϓϩηεͱͷඥ͚ͮՄೳ 04ΧʔωϧͷൣᙝͳͷͰɺҰൠతͳLQSPCFTͳͲͰܭଌՄೳ ඇಉظͰ΋(16಺ج४Ͱͷ࣌ࠁ͕Θ͔Δ (16಺ͷϫʔϓ΍εϨου୯Ґཻ౓Ͱͷܭଌ 159ʢ(16தؒදݱʣίʔυ΁F#1'ίʔυΛ஫ೖ Ϣʔβʔۭؒ F#1'ϥϯλΠϜ <)%$4 F(16> <04%* CQGUJNF> (16಺෦૚ 110
  45. ギャップ②   R-Pingmesh RNIC to RNICのアクティブプルービングによるRoCEネットワーク監視 114 ③ 継続的なプルービン グによるRTT・パケッ

    トロスの常時計測 ②RoCEパケットに よるプルービング ① サービストラフィッ クとは独 立 したRNIC 単位のプルービング
  46. R-Pingmeshのシステム全体像 115 <-JV 4*($0..>'JHVSF31JOHNFTI'SBNFXPSLΛجʹվมͯ͠ܝࡌ 1. Agentが登録処理 2. ControllerからPinglistが届く 3. PinglistからProberがプルー

    ブを送信 4. RTTなどを記録しAnalyzerへ 1. eBPFでサービスジョブの通 信の5-tupleを監視 2. 専 用 のPinglistへ追加
  47. yuuki/rpingmeshの技術スタック 116 • 言 語:Go • RoCE通信:libibverbs • eBPF Kprobe,

    cillium/ebpf • 要素間通信:gRPC • Registry: Rqlite • 計装:OpenTelemetry
  48. 5章 まとめ ݱঢ় ੍໿ Ϊϟοϓ 05FM (SBGBOBͰϝτϦΫεɾϩάɾϓϩϑΝΠϧج൫Λߏஙͨ͠ɻ Ϧιʔε෼ੳ͸͏·͍͍ͬͯ͘Δ͕ɺϫʔΫϩʔυ෼ੳ͕ະୡɻ ΞϓϦέʔγϣϯϩάίʔυͷܭ૷ɾऩूෆՄ ᶃֶशॲཧաఔͷ෼ࢄτϨʔε

    ᶄΞϓϦ͔Πϯϑϥ͔ͷ੾Γ෼͚ ᶅϚΠΫϩόʔετ؂ࢹ (16θϩίʔυܭ૷ʢF#1'Ͱ$6%"υϥΠό಺෦૚ͷΠϕϯτ૬ؔʣ ϝογϡঢ়ͷ3%."1JOHγεςϜͷ࣮૷ 119
  49. σʔλۦಈΞϓϩʔν ߏ଄తΞϓϩʔν ܭࢉϊʔυҎ֎΁ͷண໨ .JOEFS - F"$(. --.1SJTN "FHJT 9165JNFS 4LFMFUPO)VOUFS

    1"$& طଘͷςϨϝτϦʔσʔλʹର ͠ʮڭࢣͳֶ͠शʯΛద༻͠ɺ ෳࡶͳҟৗΛࣗಈݕ஌͢Δɻ ෼ࢄֶशಛ༗ͷ௨৴ύλʔϯʢಉ ظɺू߹௨৴ʣͱ͍͏ʮυϝΠϯ஌ ࣝʯΛ׆༻͠ɺϒϥοΫϘοΫε ͱͳΔڍಈΛղ໌͢Δɻ ܭࢉϊʔυҎ֎ͷΠϯϑϥʢίϯςφωοτϫʔΫɺϑΝγϦςΟʣͷෳࡶ ੑ΁য఺Λ౰ͯΔɻ ෼ੳख๏ ػցֶश׆༻ υϝΠϯ஌ࣝ׆༻ ϗετɾ ΞϓϦ ಺෦ ωοτ ϫʔΫɾ Πϯϑϥ ؍ଌ఺ 主要な研究トレンド
  50. 切り 口 ① 観測点 ーどこからシステムを観測するか "ωοτϫʔΫத৺ #࣮ߦτϨʔεɾ಺෦ঢ়ଶத৺ $ϊʔυத৺ %ͦͷଞʢϑΝγϦςΟɾ༧ଌʣ εΠον΍௨৴ϑϩʔʹண໨ɻ

    ιϑτ΢ΣΞελοΫ಺෦ͷڍಈ Λਂ͘௥੻ɻ --.1SJTN εΠονͷϛϥʔϦϯάσʔλ͔Β ϑϩʔΛ෼ੳ 4LFMFUPO)VOUFS ίϯςφؒͷ ௨৴ύλʔϯΛਪ࿦͠ɺ1JOHͰো֐ಛఆ 9165*.&3 Χʔωϧ಺ͷϨδελ஋ΛτϨʔε  F"$(. F#1'ͰϑϧελοΫ৘ใΛऔಘ  "FHJT ௨৴ϥΠϒϥϦͷ಺෦Χ΢ϯλʔΛར༻ 04΍(16͔Βग़ྗ͞Εͨ౷ܭ ৘ใ΍ϩάΛ෼ੳɻ .JOEFSʢ$16(16ར༻཰ͳͲͷ࣌ܥྻσʔ λΛ؂ࢹʣ-ʢ๲େͳςΩετϩάΛղੳʣ *5ػث֎෦΍ɺ࣮ଌҎ֎ͷσʔ λΛར༻ɻ 1"$&ʢྫྷ٫૷ஔ΍ిྗઃඋͳͲͷ ϑΝγϦςΟςϨϝτϦʔΛ෼ੳʣ ;IBOHFUBMʢϚΠΫϩϕϯνϚʔ Ϋʹجͮ͘ੑೳ༧ଌʣ
  51. 切り 口 ② 障害診断のアルゴリズム "ڭࢣͳֶ͠शɾ౷ܭϞσϧ #ϧʔϧϕʔεɾ࿦ཧਪ࿦ $ճؼ෼ੳɾ༧ଌ ਖ਼ৗύλʔϯͷֶश΍౷ܭతภࠩΛར༻ɻ .JOEFSʢ-45.7"&ͰϚγϯؒͷڍಈͷ ඇྨࣅ౓ΛଌఆʣɼF"$(.ʢࠞ߹Ψ΢ε

    ϞσϧͰੑೳ෼෍͔Βͷٯ୤Λݕ஌ʣɼ 1"$&ʢάϨϯδϟʔҼՌੑݕఆͰҼՌά ϥϑΛߏஙʣɼ-ʢ*TPMBUJPO'PSFTUͰϩά ύλʔϯͷҟৗΛݕग़ʣ υϝΠϯ஌ࣝʹجͮ͘ϩδοΫͰঢ়ଶΛ ಛఆɻ "FHJT ௨৴Χ΢ϯτͷෆ੔߹ΛϧʔϧͰൺ ֱʣ9165*.&3 ௨৴Χʔωϧͷϧʔϓεςο ϓ਺Λൺֱ --.1SJTN ௨৴ྔͱִ͔ؒΒฒ ྻԽઓུΛਪ࿦ 4LFMFUPO)VOUFSʢ௨৴όʔ ετͷपظੑ͔ΒεέϧτϯΛਪ࿦ʣ ਺ཧϞσϧʹΑΔੑೳ༧ଌɻ ;IBOHFUBMʢϥϯμϜϑΥϨετ౳Ͱԋࢉࢠͷ ࣮ߦ࣌ؒΛ༧ଌʣ
  52. 切り 口 ③ 侵 入 性 ー システム介 入 の要求度合い

    ඇ৵ೖܕɾ ϒϥοΫϘοΫε θϩܭ૷ ϥΠϒϥϦஔ׵ɾ ΤʔδΣϯτܕ Ϣʔβʔίʔυ΍؀ڥ΁ͷม ߋ͕Ұ੾ෆཁɻ֎෦͔Β؍ଌ ՄೳͳσʔλͷΈΛ࢖༻ɻ --.1SJTN εΠονϛϥʔϦϯ άʣ.JOEFSʢطଘϝτϦΫ εʣɺ-ʢطଘϩάʣɺ1"$& ʢϑΝγϦςΟσʔλʣ ίʔυमਖ਼͸ෆཁ͕ͩɺ ࣮ߦϓϩηε΁ͷհೖ ʢΞλονʣΛߦ͏ɻ F"$(. F#1'ϑοΫʣ 9165*.&3 τϨʔγϯάσʔ ϞϯΛΞλον γεςϜίϯϙʔωϯτͷ Ұ෦Λஔ͖׵͑Δ͔ɺαΠ υΧʔΛ഑ஔ͢Δɻ "FHJT ΧελϜ௨৴ϥΠϒ ϥϦʹஔ׵ʣ 4LFMFUPO)VOEFS αΠυ Χʔίϯςφͱͯ͠ΤʔδΣ ϯτΛ഑ஔʣ
  53. まとめ ᶃਂ૚ֶशͱܭࢉػΞʔΩςΫνϟ ᶄ͘͞Β0/&ͷߏங ᶅδϣϒ෼ੳͱϕϯνϚʔΩϯά ᶆՄ؍ଌੑͷ޲্ͱ՝୊ (16͕උ͑Δଟ਺ͷίΞͱ)#.͕׆͖Δ େن໛Ϟσϧʹ͸෼ࢄֶशٕज़ʢ%1 11 51ʣ͕ඞਢ ߴ଎ΠϯλʔίωΫτ

    ʢ/7-JOL 3%."ʣ 501ੈքҐɹҐҎ಺Ͱ͸Φʔϓϯٕज़ʢ40/*$04ʣΛ།Ұ࠾༻ ) ) #ΛͦΕͧΕ࠾༻ͨͭ͠ͷΫϥελ Ϧιʔε෼ੳ͸ཱ֬΋ɺϫʔΫϩʔυ෼ੳʹ͸ʮΪϟοϓʯ Ϧιʔεফඅ͸େن໛δϣϒ͕த৺͕ͩɺ։ൃ͕ਐΉͱখن໛Խ F#1'ʹΑΔθϩίʔυܭ૷΍3%."ϝογϡ؂ࢹͷݚڀ։ൃ͕ਐߦத ԋࢉޮ཰ʢ.'6ʣ͸