AIスーパーコンピュータにおけるLLM学習処理性能の計測と可観測性 / AI Supercomputer LLM Benchmarking and Observability

坪内佑樹（@yuuk1t）　さくらインターネット研究所 AIスーパーコンピュータにおける LLM学習処理性能の計測と可観測性 2025年度情報処理学会中国支部主催講演会

坪内佑樹 2013 2019 2020 2025 ݱࡏ Monitoring SaaS SRE
さくらインターネット研究所はてな京都大学大学院情報学研究科博士後期課程博士（情報学）取得 AIOps AI Supercomputer eBPF 大阪大学大学院情報科学研究科 (中途退学)

専門性 ΞϓϦέʔγϣϯ 43&ʢ4JUF3FMJBCJMJUZ&OHJOFFSJOHʣ ܭࢉػɾωοτϫʔΫ ج൫ തֶ࢜Ґ࿦จ

本発表の趣旨 w "*ֶशϫʔΫϩʔυʢΞϓϦέʔγϣϯʣΛى఺ʹܭࢉػͱωοτϫʔΫ ΞʔΩςΫνϟߏ੒͕࠷దԽ͞ΕΔΑ͏ʹͳ͖ͬͯͨɻ w ٕज़ऀ͕ॎஅతʹ֤૚ͷཁૉٕज़Λཧղͯ͠ɺ࠷దͳઃܭΛಋ͘ඞཁੑ͕ ͋Δɻ w ݚڀऀͷ؍఺Ͱ͸ɺ࠷దͳΠϯϑϥઃܭ΍ɺॲཧੑೳ޲্ɺޮ཰తͳো֐ ؅ཧʹ޲͚ͯɺςϨϝτϦʔٕज़Λ࣠ʹߩݙ͢Δɻ
w ೥ؒͷऔΓ૊ΈΛ঺հ͢Δɻ

アジェンダ ਂ૚ֶशͱܭࢉػΞʔΩςΫνϟ ͘͞Β0/& ֶशδϣϒͷཤྺσʔλͷ܏޲෼ੳ --.෼ࢄֶशͷϕϯνϚʔΩϯά ΦϒβʔόϏϦςΟʢՄ؍ଌੑʣ "*εύίϯͷো֐؅ཧʹؔ͢Δݚڀಈ޲ ·ͱΊ

ਂ૚ֶशͱܭࢉػΞʔΩςΫνϟ ͘͞Β0/& ֶशδϣϒͷཤྺσʔλͷ܏޲෼ੳ --.෼ࢄֶशͷϕϯνϚʔΩϯά ΦϒβʔόϏϦςΟʢՄ؍ଌੑʣ "*εύίϯͷো֐؅ཧʹؔ͢Δݚڀಈ޲ ·ͱΊ アジェンダ "*εύίϯͷཁૉٕज़ͷ ֓ཁΛ঺հ͢Δɻ
w ਂ૚ֶशͷܭࢉෛՙ w ਂ૚ֶशͱ(16 w ෳ਺(16ʹΑΔ෼ࢄਂ૚ֶश w Ϋϥελߏ੒ w ωοτϫʔΫ w ετϨʔδ

ਂ૚ֶशͱܭࢉػΞʔΩςΫνϟ ͘͞Β0/& ֶशδϣϒͷཤྺσʔλͷ܏޲෼ੳ --.෼ࢄֶशͷϕϯνϚʔΩϯά ΦϒβʔόϏϦςΟʢՄ؍ଌੑʣ "*εύίϯͷো֐؅ཧʹؔ͢Δݚڀಈ޲ ·ͱΊ アジェンダ ͘͞ΒΠϯλʔωοτͷ Ϛωʔδυ)1$αʔϏε
w 501ͷ݁Ռ w γεςϜߏ੒

ਂ૚ֶशͱܭࢉػΞʔΩςΫνϟ ͘͞Β0/& ֶशδϣϒͷཤྺσʔλͷ܏޲෼ੳ --.෼ࢄֶशͷϕϯνϚʔΩϯά ΦϒβʔόϏϦςΟʢՄ؍ଌੑʣ "*εύίϯͷো֐؅ཧʹؔ͢Δݚڀಈ޲ ·ͱΊ アジェンダ ͘͞Β0/&Ͱ࣮ߦ͞Εͨ δϣϒͷ܏޲෼ੳ

ਂ૚ֶशͱܭࢉػΞʔΩςΫνϟ ͘͞Β0/& ֶशδϣϒͷཤྺσʔλͷ܏޲෼ੳ --.෼ࢄֶशͷϕϯνϚʔΩϯά ΦϒβʔόϏϦςΟʢՄ؍ଌੑʣ "*εύίϯͷো֐؅ཧʹؔ͢Δݚڀಈ޲ ·ͱΊ アジェンダ ͘͞Β0/&ʹ͓͚Δ (15ͷϕϯνϚʔΫ
w /7*%*"&04ͱͷൺֱ w ɺϊʔυͱͷൺֱ w ֶशͷ໨ඪੑೳࢦඪ

ਂ૚ֶशͱܭࢉػΞʔΩςΫνϟ ͘͞Β0/& ֶशδϣϒͷཤྺσʔλͷ܏޲෼ੳ --.෼ࢄֶशͷϕϯνϚʔΩϯά ΦϒβʔόϏϦςΟʢՄ؍ଌੑʣ "*εύίϯͷো֐؅ཧʹؔ͢Δݚڀಈ޲ ·ͱΊ アジェンダ ͘͞Β0/&ʹ͓͚Δ Մ؍ଌੑ޲্ͷऔΓ૊Έ
w μογϡϘʔυ։ൃ w ςϨϝτϦʔγεςϜߏ੒ w F#1'ʹΑΔθϩܭ૷

ਂ૚ֶशͱܭࢉػΞʔΩςΫνϟ ͘͞Β0/& ֶशδϣϒͷཤྺσʔλͷ܏޲෼ੳ --.෼ࢄֶशͷϕϯνϚʔΩϯά ΦϒβʔόϏϦςΟʢՄ؍ଌੑʣ "*εύίϯͷো֐؅ཧʹؔ͢Δݚڀಈ޲ ·ͱΊ アジェンダ "*εύίϯ޲͚ͷ ো֐ݪҼ΍ੑೳ༧ଌͷݚڀಈ޲
w ػցֶशϕʔεΞϓϩʔν w ϧʔϧϕʔεͷߏ଄తΞϓ ϩʔν w ϑΝγϦςΟɾ༧ଌ

1. 深層学習と計算機アーキテクチャ

深層学習のワークロード

深層学習モデルの「学習」と「推論」 ֶश ਪ࿦ ΞϓϦέʔγϣϯ "1* σʔληοτ ֶशδϣϒ Ϟσϧͷத਎ʢॏΈͳͲʣΛ࡞Δ޻ఔ ϞσϧΛ࢖ͬͯ౴͑Λฦ͢޻ఔ (16
(16 (16 (16 (16 (16 ϞσϧαʔϏϯά νϟοτ΍ΤʔδΣϯτͳͲ ֶशࡁΈϞσϧ ॏΈύϥϝʔλͳͲ σϓϩΠ ຊߨԋͷର৅ 14

深層学習の処理の流れ反復構造をもつ ॱ఻ൖ ޡࠩ ٯ఻ൖ ॏΈߋ৽ ޡࠩࢉग़ ޯ഑ ֶशσʔλ ॱ఻ൖ
ʜ ֶशσʔλ ΦϓςΟϚΠβ ޡࠩΛখ͘͢͞Δ ύϥϝʔλࢉग़ ΠςϨʔγϣϯ̍ ΠςϨʔγϣϯ̎ ΠςϨʔγϣϯ਺͸਺ສ͔Β਺ඦສʹ ΋ٴͿͨΊɺ࣮ߦΛߴ଎Խ͍ͨ͠ 15 (16Λ࢖͏

Transformerにおける行列積和演算 -BZFS/PSN -BZFS/PSN %SPQPVU -JOFBS -JOFBS -JOFBS 4FMG
"UUFOUJPO 9 : %SPQPVU (F-6 ॱ఻ൖ ٯ఻ൖ "UUFOUJPO .-1 5SBOTGPSNFS-BZFS Yl ଛࣦ ೖྗຒΊࠐΈʢτʔΫϯͳͲʣ O(Bsh2) O(Bs2h + Bsh2) O(Bsh2) ɿγʔέϯε௕ s ɿӅΕ૚ͷ࣍ݩ਺ h ɿόοναΠζ B <>/BSBZBOBO %FFQBL FUBM& ff i DJFOUMBSHFTDBMFMBOHVBHFNPEFMUSBJOJOHPOHQVDMVTUFST VTJOHNFHBUSPO-. 4$ ܭࢉྔ͸<>Λ جʹΦʔμʔ දهʹม׵ O(Bsh2) ɿॏΈύϥϝʔλ਺ͷ ࢧ഑߲ lh2

LLMの重みパラメータ数と層数 Ϟσϧ ॳग़ ॏΈύϥϝʔλ਺ ૚਺ (15 # -MBNB
# -MBNB # %FFQ4FFL7 # 2XFO # 2XFO # 2XFO$PEFS # --.KQ # l

深層学習とGPU

AIモデル開発とGPU “I love the smell of GPUs melting” ˞IUUQTYDPNTBNBTUBUVT
ΑΓҾ༻ʢଠࣈ෦෼͸վมʣ CZ4BN"MUNBO ˞ 'SBOL)FMNT l)PX"*8PSLMPBET4IBQF)BSEXBSF"SDIJUFDUVSFz l5IF)PU$IJQJTB3BDLz "*-JUFSBMMZ%FNBOETXF5IJOL0VUTJEFUIF#PY )PU$IJQTΑΓసࡌ (16Ϋϥελن໛͸ ೥Ͱ͔ΒL (16·Ͱ૿େ 19

Transformerの計算とGPUの適合性 5SBOTGPSNFSͷܭࢉಛੑ • 大規模な行列積和演算 • 並列性が高
い（トークンの計算の独立性） • メモリアクセスが頻繁 • 超並列処理 • 数千コアによる同時演算実行 • 専用 Tensor Core • 高いメモリ帯域幅（HBM） (16ΞʔΩςΫνϟ

TransformerがGPU上で計算されるイメージ (16 5SBOTGPSNFS /BOP#BOBOB1SP

/BOP#BOBOB1SP

分散深層学習

分散深層学習 - データ並列（DP）モデルをGPUごとに複製し、データを分割して並列処理 ॱ఻ൖ ٯ఻ൖ ύϥϝʔλ ߋ৽ ॱ఻ൖ ٯ఻ൖ
ύϥϝʔλ ߋ৽ ॱ఻ൖ ٯ఻ൖ ύϥϝʔλ ߋ৽ ʢ૯࿨ʣ (16 (16 (16 ֤(16͔ΒಘΒΕͨޯ഑Λू໿ԋࢉ͠ɺ ֤(16্ͷϝϞϦ΁݁ՌΛڞ༗ ूஂ௨৴ 24

集団通信　 AllReduce ෳ਺ͷ3BOLʢ(16ͳͲʣ͕ࢀՃͯ͠ɺ͋ΔنଇʹैͬͯσʔλΛަ׵ɾू ໿͢Δ௨৴ύλʔϯͷ૯শ <>/7*%*"$PSQPSBUJPO l'BTU.VMUJ(16DPMMFDUJWFTXJUI/$$-z IUUQTEPDTOWJEJBDPN EFFQMFBSOJOHODDMVTFSHVJEFEPDTVTBHFDPMMFDUJWFTIUNM <>ΑΓసࡌ
"MM3FEVDF͸ɺ֤(16্Ͱ૯࿨Λܭࢉ͢Δɻશһ͕ಉ͡ू໿݁ՌΛಘΔɻ యܕతʹ͸ɺσʔλ ฒྻͷޯ഑ฏۉʹ࢖ ༻͞ΕΔɻ

集団通信　 AllGather <>/7*%*"$PSQPSBUJPO l'BTU.VMUJ(16DPMMFDUJWFTXJUI/$$-z IUUQTEPDTOWJEJBDPN EFFQMFBSOJOHODDMVTFSHVJEFEPDTVTBHFDPMMFDUJWFTIUNM <>ΑΓసࡌ ֤(16͕࣋ͭҟͳΔσʔλΛɺશ(16͕ू໿ͯ͠શһ͕ಉ͡ʮ׬શͳ σʔλʯΛ࣋ͭঢ়ଶ
ޙड़͢ΔϞσϧฒྻ΍;F30ʹ͓͍ͯɺ෼ࢄ഑ஔ͞ΕͨύϥϝʔλΛܭࢉ௚લʹ ू໿͢Δࡍʹ࢖༻ εΩοϓ

集団通信　 ReduceScatter <>/7*%*"$PSQPSBUJPO l'BTU.VMUJ(16DPMMFDUJWFTXJUI/$$-z IUUQTEPDTOWJEJBDPN EFFQMFBSOJOHODDMVTFSHVJEFEPDTVTBHFDPMMFDUJWFTIUNM <>ΑΓసࡌ ֤(16ͷσʔλΛ߹ܭ 3FEVDF
ͭͭ͠ɺ݁ՌΛ෼ׂ֤ͯ͠(16ʹ഑෼͢Δɻ εΩοϓ

モデルのパラメータ数増大メモリの壁（Memory Wall） (IPMBNJ "NJS FUBM "JBOE.FNPSZ8BMMz *&&&.JDSP 'JH
B ΑΓసࡌ Ϟσϧύϥϝʔλ਺͕ ೥Ͱഒ "*ΞΫηϥϨʔλʢ(16 516ʣͷϝϞϦྔ͸೥Ͱഒ 28

GPUメモリ上の代表的なデータ ύϥϝʔλʢXFJHIUTʣ ΦϓςΟϚΠβঢ়ଶ (1673".ۭؒ Ϟσϧঢ়ଶʢֶशεςοϓΛԣஅʣ Ұ࣌σʔλʢΠςϨʔγϣϯ಺ͷΈʣ ϛχόον தؒ׆ੑԽʢBDUJWBUJPOTʣ ॏΈߦྻͳͲ '1ϚελॏΈɺޯ഑ͷ
ཤྺɾ෼෍౷ܭྔͳͲ ಛ௃ྔɾϥϕϧͳͲ ॱ఻ൖͷ૚͝ͱͷܭࢉ݁Ռ ޯ഑ʢHSBEJFOUTʣ ٯ఻ൖͰܭࢉ͞ΕΔ݁Ռ େن໛Ϟσϧ͸ ̍(16ϝϞϦ ʹ৐Γ੾Βͳ͍ 29

分散深層学習 - モデル並列モデルを分割する ςϯιϧฒྻʢ51ʣ ॱ ߋ৽ ( 1 6
ٯ ύΠϓϥΠϯฒྻʢ11ʣ ॱ ॱ ॱ ٯ ٯ ٯ ߋ৽ ( 1 6 Ϟσϧͷ૚Λ࿈ଓͨ͠εςʔδʹ෼ׂ ૚ ૚ ݸʑͷ૚಺ͷςϯιϧʢߦྻʣΛ෼ׂ ߋ৽ ߋ৽ ॱ ॱ ٯ ٯ ूஂ௨৴ ूஂ௨৴ (16 (16 30 ௨৴ͷස౓͸௿͍ ௨৴ͷස౓͸ߴ͍ 11

パイプライン並列ー Naive Model Parallel <>/BSBZBOBO %FFQBL FUBM1JQF%SFBN(FOFSBMJ[FEQJQFMJOFQBSBMMFMJTNGPS%//USBJOJOH 04%*
<>'JHVSFΑΓసࡌ ಉ࣌ʹύΠϓϥΠϯ಺ʹଘࡏͰ͖Δೖྗ͕ݸ͚ͩͳͷͰɺ΄ͱΜͲͷεςʔ δ͕଴ͨ͞Εɺ(16ར༻཰͕ඇৗʹ௿͍ɻ ύΠϓϥΠϯ εςʔδ਺ɿ 5SBOTGPSNFSͷ૚਺ ͕ͳΒ͹ MBZFSTTUBHF ٯ఻ൖ͕Ϛεଓ͘ͷ͸ߦྻੵ࿨ԋࢉͷίετΛදݱ͍ͯ͠Δ

パイプライン並列ー GPipe <>/BSBZBOBO %FFQBL FUBM1JQF%SFBN(FOFSBMJ[FEQJQFMJOFQBSBMMFMJTNGPS%//USBJOJOH 04%* ೖྗσʔλʢϛχόονʣΛ͞ΒʹϚΠΫϩόονʹ෼ׂͯ͠ྲྀ͢ <>ΑΓ'JHVSFΑΓసࡌ
ݸશͯͷόονͷॱ఻ൖΛྲྀ͖͠Γɺ ݸͷٯ఻ൖΛྲྀ͠੾Δ m( = 4) m

パイプライン並列ー 1F1B <>/BSBZBOBO %FFQBL FUBM1JQF%SFBN(FOFSBMJ[FEQJQFMJOFQBSBMMFMJTNGPS%//USBJOJOH 04%* ʮॱ఻ൖϚΠΫϩόονʯͱʮٯ఻ൖϚΠΫϩόονʯΛަޓʹ࣮ߦ͢Δ <>ΑΓ'JHVSFΑΓసࡌ

テンソル並列（TP）+シーケンス並列（SP） <>,PSUIJLBOUJ 7JKBZ"OBOEFUBM3FEVDJOH"DUJWBUJPO3FDPNQVUBUJPOJO-BSHF5SBOTGPSNFS .PEFMTBS9JW <>'JHVSFΑΓసࡌ ςϯιϧฒྻ͸ɺ"UUFOUJPOϒϩοΫͱ.-1ϒϩοΫͷߦྻΛ(16ؒͰ෼ׂ "MM3FEVDF 3FEVDF4DBUUFS "MM(BUIFS "MM(BUIFS3FEVDF4DBUUFS"MMUP"MM

３次元並列（ハイブリッド並列） <>%VBO +JBOHGFJ FUBM& ff i DJFOU5SBJOJOHPG-BSHF-BOHVBHF.PEFMTPO%JTUSJCVUFE*OGSBTUSVDUVSFT "4VSWFZBS9JW <>'JHΛղ૾౓ ͱΞεϖΫτൺΛ
มߋͯ͠࡞੒ σʔλฒྻʢ%1ʣ ύΠϓϥΠϯฒྻʢ11ʣ ςϯιϧฒྻʢ51ʣͷ̏ͭ Λಉ࣌ʹ૊Έ߹Θͤͯɺ(16܈Λ࣍ݩͷ֨ࢠͱͯ͠ѻ͏ɻ

AIスパコンのインフラ

AIスパコンの基本構成 37 (16 /PEF (16 /PEF (16 /PEF (16 /PEF
*OUFSDPOOFDU/FUXPSL 4UPSBHF/FUXPSL 4UPSBHF #BDLFOE/FUXPSLͱ΋ݺ͹ΕΔ 3%."εΠονͱ/*$ʹجͮ͘ (16ؒ௨৴༻ωοτϫʔΫ ετϨʔδ༻ωοτϫʔΫ ΠϯλʔίωΫτωοτϫʔΫͱ ڞ༗ʹͳΔέʔε΋͋Δ ฒྻ෼ࢄετϨʔδ ֶशσʔλ΍νΣοΫϙΠϯτ͕ อଘ͞ΕΔ

ノード内通信とノード間通信 • 同一サーバ内の複数のGPU間の通信 • 高速なバス通信技術（例：NVLink） • 数百GB/s級
• 異なるサーバ間のGPU通信 • RDMAによる高速ネットワーク技術 • 数百Gbps級

ノード内通信ー GPU間の直接通信へ <>6OBU %JEFN FUBM5IF-BOETDBQFPG(16$FOUSJD$PNNVOJDBUJPO BS9JW <>'JHΑΓసࡌ ঃʑʹ$16ͷ໾ׂ͕ݮ͍͖ͬͯɺ(16ؒͰ׬݁͢ΔΑ͏ʹͳΔ
)PTU/BUJWF )PTU$POUSPMMFE %FWJDF/BUJWF )PTUGBMMCBDL

ノード内通信ー GPU間の直接通信へ /7-JOL͸/7*%*"(16ؒͷߴଳҬ෯ͱ௿஗Ԇͷ௚઀ΞΫηεΛ༰қʹ͢Δ ಠࣗͷΠϯλʔίωΫτٕज़Ͱ͋Δɻ <>6OBU %JEFN FUBM5IF-BOETDBQFPG(16$FOUSJD$PNNVOJDBUJPO BS9JW
<>5BCMFΛվมͯ͠࡞੒ ૒ํ޲ू໿ଳҬ෯

ノード間通信がボトルネックへ <>4BQJP "NFEFP FUBM4DBMJOHEJTUSJCVUFENBDIJOFMFBSOJOHXJUI*O/FUXPSLBHHSFHBUJPO/4%* <>,MFOL #FOKBNJO FUBM"OJOOFUXPSLBSDIJUFDUVSFGPSBDDFMFSBUJOHTIBSFENFNPSZ NVMUJQSPDFTTPSDPMMFDUJWFTz *4$"
ਂ૚ֶशͷֶश࣌ؒʹ઎ΊΔ"MMSFEVDFͷׂ߹ਪఆ͸ɺ <> <> (CQTωοτϫʔΫͰ໿ (CQTωοτϫʔΫͰr 41 (16ͷුಈখ਺఺ੑೳ͸೥Ͱഒ৳ͼͨɻ ҰํͰωοτϫʔΫଳҬͷഒ৳௕ʹ͸໿೥Λཁͨ͠ɻ<>

Ethernetのリンク速度向上 (C&͕഑උ ͞Ε5C&΋Έ ͖͑ͯͨ <>&UIFSOFU"MMJBODF l&UIFSOFU3PBENBQz IUUQTFUIFSOFUBMMJBODFPSHXQDPOUFOUVQMPBET &UIFSOFU3PBENBQ4JEFE8FCQEG <>ΑΓసࡌ

3%." ʢ04ΧʔωϧόΠύεʹΑΓ$16 ͱ%3".Λܦ༝ͤͣʹ௚઀సૹʣ *O fi OJCBOE /*$ʹϝϞϦసૹΦϑϩʔυ 3%."ΛωΠςΟϒ αϙʔτͨ͠ઐ༻ωο τϫʔΫ૬ޓ઀ଓٕज़
3P$&W *1ϧʔςΟϯάՄೳͳ6%1ϕʔε3%." ϩεϨε ϑϩʔ੍ޚ΍᫔᫓੍ޚʹΑΓύέοτϩεΛθϩʹ͚ۙͮΔ <>-J 8FOYVF FUBM 6OEFSTUBOEJOHDPNNVOJDBUJPODIBSBDUFSJTUJDTPGEJTUSJCVUFEUSBJOJOHz "1/FU <>'JHVSF B ΑΓసࡌ RDMA 43

NVIDIA GPUDirect /7*%*"͕ఏڙ͢Δʮ(16Λத৺ͱͨ͠σʔλసૹͷγϣʔτΧοτٕज़ʯͷ૯শ ঃʑʹ$16ͷ໾ׂ͕ݮ͍͖ͬͯɺ(16ͱ/*$͚ͩͰ׬݁͢ΔΑ͏ʹͳΔ <>6OBU %JEFN FUBM5IF-BOETDBQFPG(16$FOUSJD$PNNVOJDBUJPO BS9JW

Rail Optimized Topology <>,.BOEBLPMBUIVS FUBM %PVCMJOHBMMBMM1FSGPSNBODFXJUI/7*%*"$PMMFDUJWF$PNNVOJDBUJPO-JCSBSZ ҟͳΔϊʔυ্ͷʮಉ͡(16*%ʯΛ࣋ͭ(16ؒͰͷ௨৴͕සൟʹൃੜɻ͜ͷಛੑ Λ౿·͑ͯ഑ઢΛ࠷దԽ͢Δɻ <>ΑΓసࡌ ൪ͷ(16ͱ/*$ͷ*%Λ
ಉ͡-FBGεΠονʹऩ༰

AIスパコンのクラスタ構成例（Meta） ,PLPMJT "QPTUPMPT FUBM 3FWJTJUJOH3FMJBCJMJUZJO-BSHFTDBMF.BDIJOF-FBSOJOH3FTFBSDI$MVTUFSTz )1$" 'JHΑΓసࡌ αʔόɾϥοΫɾ1PEؒ ΠϯλʔίωΫτωοτϫʔΫ
d(CQT αʔό಺ΠϯλʔίωΫτ (#T 46

AIモデル学習におけるストレージのユースケース ϞσϧνΣοΫϙΠ ϯςΟϯά ֶशσʔληοτ ͷಡΈग़͠ w ֶश్தͷঢ়ଶΛอଘ͠ɺো֐࣌ʹ࠶։ ͢ΔͨΊͷఆظνΣοΫϙΠϯςΟϯά w ਺෼ʙ਺े෼ʹҰ౓όʔετॻ͖ࠐΈ
w #ͷ--.Ͱ͸νΣοΫϙΠϯταΠζ ͸5#΄ͲʹͳΔ w ߴεϧʔϓοτͰͷಡΈॻ͖ w ਺ඦ਺ઍϊʔυن໛Ͱͷฒྻอଘɾฒྻ ಡΈग़͠εέʔϥϏϦςΟ w --B."͸ஹҎ্ͷτʔΫϯͰֶ श͞Εɺ͓Αͦ5#ͷσʔλʹ૬౰ w ଟ਺ͷ(16ϊʔυ͔Βฒྻγʔέϯ γϟϧಡΈग़͠ w લॲཧ΍ΫϦʔχϯάͰ͸ɺϥϯμϜ Ϧʔυ΍খϑΝΠϧಡΈग़͠΋ࠞࡏ εΩοϓ

+POHSZPPM,JN l& ff i DJFOU--.$IFDLQPJOUJOHXJUI.FNPSZBOE4UPSBHFz IUUQT fi MFTGVUVSFNFNPSZTUPSBHFDPNQSPDFFEJOHT @$0.1@,JNQEGܝࡌਤΛ΋ͱʹվมͯ͠࡞੒ チェックポインティングに
至る流れ εΩοϓ

並列分散ファイルシステムの構成 -VTUSFͷߏ੒ྫ ϝλσʔλ؅ཧͱσʔλຊମ؅ཧΛ෼཭͠ɺͦΕͧΕΛݸผʹεέʔϧΞ΢τՄೳ ϑΝΠϧΛετϥΠϓαΠζ୯ҐͰෳ਺045΁෼ׂ഑ஔ͠ɺΫϥΠΞϯτ͸ฒྻ*0 εΩοϓ

AIスパコンのソフトウェアスタック例多層に折り重なった複雑な構成 εέδϡʔϥ 4MVSN ,VCFSOFUFT ίϯςφ /7*%*"$POUBJOFS5PPMLJU &OSPPU 1ZYJT 4JOHVSBMJUZ
෼ࢄֶशϑϨʔϜϫʔΫ .FHBUSPO-. %FFQ4QFFE 1ZUPSDI'4%1 /F.P ֶशϑϨʔϜϫʔΫ 1Z5PSDI 5FOTPS fl PX +"9 ूஂ௨৴ϥΠϒϥϦ /$$- 3$$- 3%."ϥΠϒϥϦ JCWFSCT SENBDPSF ܭࢉߴ଎ԽϥΠϒϥϦ DV#-"4DV#-"4-U DV%// 5SBOTGPSNFS&OHJOF ϥϯλΠϜυϥΠό $6%" OWJEJBESJWFST ˞IUUQTEPDTOWJEJBDPNOFNPGSBNFXPSLVTFSHVJEFMBUFTUTPGUXBSFDPNQPOFOUWFSTJPOTIUNM Ϣʔβʔ͕ ֶशδϣϒΛൃߦ 50

1章まとめ ᶃਂ૚ֶशͷܭࢉෛՙͱ(16ͷద߹ੑ ᶄେن໛ϞσϧʹରԠ͢Δ෼ࢄਂ૚ֶशٕज़ ᶅϊʔυ಺ɾϊʔυؒͷߴ଎ΠϯλʔίωΫτ 5SBOTGPSNFSͷେن໛ͳߦྻੵ࿨ԋࢉʹ͸ɺߴฒྻ ੑʢ਺ઍίΞɺ5FOTPS$PSFʣͱߴଳҬϝϞϦ ʢ)#.ʣΛ΋ͭ(16͕ద͢Δɻ .FNPSZ8BMMΛղܾ͢ΔͨΊɺσʔλฒྻɺύΠ ϓϥΠϯฒྻ΍ςϯιϧฒྻͷ૊Έ߹Θ͕ͤඞਢɻ
෼ࢄֶशதͷޯ഑ಉظͳͲͷͨΊʹɺ௨৴Ϙτϧ ωοΫΛղফɻϊʔυ಺ʢ/7-JOLʣͱϊʔυؒ ʢ3%."ɼ3P$&WʣͰूஂ௨৴Λߴ଎Խɻ

2. さくらONE

さくらONE IUUQTXXXTBLVSBBEKQTBLVSBPOF ͘͞ΒΠϯλʔωοτ ݚڀॴ͕ओװ マネージドGPUスパコンサービスを提供中 ˞(16ϕΞϝλϧαʔϏεߴՐྗ1):΋ఏڙத εύίϯੑೳϥϯΩϯά 501ੈքҐ֫ಘ ʢ*4$ʣ 53

TOP500（ISC2025 June, 2025） 501 )1--*/1"$, ੈքҐ )1$( )1$਺஋ԋࢉΞϓϦέʔγϣϯ ੈքҐ )1-.Y1
"*޲͚ͷ୯ਫ਼౓΍൒ਫ਼౓ԋࢉੑೳ ੈքҐ *0 ετϨʔδ*0ੑೳ ੈքҐ ΠϯλʔίωΫτωοτϫʔΫ͸ɺ্ҐҐҎ಺Ͱ͸།ҰϕϯμʔதཱͰ Φʔϓϯͳٕज़Λ࠾༻ *4$ʹͯεύίϯੑೳϥϯΩϯά501ੈքҐΛ֫ಘ 40/J$04ͱ(C&&UIFSOFU 54

TOP500 (ISC2025) 世界49位国内9位 3BOL 4ZTUFN 0SHBOJ[BUJPO 3NBY 1'MPQT
'VHBLV 3*,&/$FOUFSGPS$PNQVUBUJPOBM 4DJFODF "#$* "*45 $)*& 4PGU#BOL$PSQ $)*& 4PGU#BOL$PSQ "#$*2 "*45 '15"*'BDUPSZ+BQBO '15"*'BDUPSZ+BQBO .JZBCJ( +PJOU$FOUFSGPS"EWBODFE)JHI 1FSGPSNBODF$PNQVUJOH 546#".& $** *OTUJUVUFPG4DJFODF5PLZP 4",63"0/& 4",63"*OUFSOFU*OD 1SVOVT4PMVUJPOT*OD ࠃ಺γεςϜ্ҐͷΈൈਮ IUUQTUPQPSHMJTUTUPQ 55

TOP500（SC2025 November, 2025） 3BOL 4ZTUFN 0SHBOJ[BUJPO 3NBY 1'MPQT 4",63"0/&
4",63"*OUFSOFU*OD 1SVOVT4PMVUJPOT*OD 4",63"0/& $:$ 4",63"*OUFSOFU*OD 1SVOVT4PMVUJPOT*OD 4",63"0/& $:# 4",63"*OUFSOFU*OD 1SVOVT4PMVUJPOT*OD IUUQTXXXUPQPSHMJTUTUPQMJTU $:$ͱ$:#ͱݺ͹ΕΔͭͷΫϥελΛ৽نʹ௥Ճɻ

さくらONEの3つのクラスタ ୈҰΫϥελ ୈೋΫϥελʢ$:$ʣ ୈࡾΫϥελʢ$:#ʣ ܭࢉϊʔυ਺ (16 /7*%*")
49.(# /7*%*") 49.(# /7*%*"# 49.(# $16 *OUFM9FPO1MBUJOVN º$16 DPSFT *OUFM9FPO1MBUJOVN º$16 DPSFT *OUFM9FPO1º $16 DPSFT ϝϞϦ %%35# %%35# %%35# ϩʔΧϧετ Ϩʔδ (#Y 5#º 5#º ڞ༗ετϨʔδ -VTUSF1# -VTUSF5# -VTUSF5# ΠϯλʔίωΫ τωοτϫʔΫ (C&º (C&º (C&º IUUQTXXXTBLVSBBEKQTBLVSBPOF

さくらONE 第一クラスタの構成 ',POJTIJ4",63"0/&&NQPXFSJOH5SBOTQBSFOUBOE0QFO"*1MBUGPSNTUISPVHI1SJWBUF4FDUPS )1$*OWFTUNFOUJO+BQBOBS9JW 58 (16 /PEF
(16 /PEF (16 /PEF (16 /PEF *OUFSDPOOFDU/FUXPSL 4UPSBHF/FUXPSL 4UPSBHF OPEFT $16DPSFT (16T ) /*$T (C& 40/*$04(C& (C& 1# %%/&YBTDBMFS

さくらONEの構成詳細 ΠϯλʔίωΫτ ωοτϫʔΫ ܭࢉϊʔυ ετϨʔδ

さくらONEの構成詳細（NW） ܭࢉϊʔυ 4QJOF -FBG 3BJM0QUJNJ[FE 5PQPMPHZ 3P$&W

AIスパコンの利用（さくらONEの例） δϣϒ εέδϡʔϥ ʢ4MVSNʣ ϩάΠϯϊʔυ 44) ฒྻ෼ࢄ ετϨʔδ
IPNFҎԼΛ Ϛ΢ϯτ δϣϒ౤ߘ NPVOU NPVOU NPVOU εέδϡʔϥ͕Ϣʔβʔʹࢦఆ͞Εͨ(16ϊʔυΛ ֬อ͠ɺ֤ϊʔυ্ͰεΫϦϓτΛಉ࣌ىಈ͢Δ TMVSNDUME TMVSNE TDSJQU TMVSNE TDSJQU TMVSNE TMVSNE TDSJQU TDSJQU 61

,POJTIJ 'VNJLB[V4",63"0/&&NQPXFSJOH 5SBOTQBSFOUBOE0QFO"*1MBUGPSNTUISPVHI 1SJWBUF4FDUPS)1$*OWFTUNFOUJO+BQBO BS9JWQSFQSJOUBS9JW さくらONEのホワイトペーパー 62

3. 学習ジョブの履歴データの傾向分析

ジョブ履歴データについて w σʔλͷ಺༰ w 4MVSNʹ౤ߘ͞Εͨδϣϒͷ࣮ߦ։࢝ɾऴྃɺϢʔβʔɺύʔςΟγϣϯɺ ֬อ͞ΕͨϦιʔεʢϊʔυɺ(16ͳͲʣɺδϣϒ໊ɺίϚϯυͳͲ w ෼ੳର৅ظؒ w --.։ൃϓϩδΣΫτ"ͷ೥݄೔͔Β೥݄೔·Ͱ

観察１ (16઎༗࣌ؒͷେ൒͸Ϣʔβओಋͷҙਤతͳதஅ͕઎ΊΔ Ұํɺࣦഊδϣϒͷ(16઎༗࣌ؒ͸ʹཹ·ͬͨɻ --.ͷֶशͩͱࣄલʹద੾ͳֶशεςοϓ਺ΛܾΊΒΕͳ͍ͷͰɺ ࠷େεςοϓ਺Λେ͖Ίʹઃఆ్ͯ͠தͰࢭΊΔӡ༻Λ͍ͯͨ͠

観察２ খن໛δϣϒ͕େଟ਺Λ઎ΊΔҰํɺେن໛δϣϒ͕ (16Ϧιʔε઎༗࣌ؒͷେ෦෼Λফඅ͍ͯ͠Δ 66

δϣϒͷଟ͘͸୹࣌ؒͰऴྃ͢Δ͕ɺେن໛δϣϒ Ͱ͸࣮ߦ࣌ؒͷ෼෍ͷ੄͕௕͍ δϣϒ࣮ߦ࣌ؒͷྦྷੵ෼෍ 観察３ 67 தԝ஋͸਺෼͔Β਺े෼ͷൣғʹूத ͍ͯ͠ΔɻҰํͰɺϊʔυ਺͕େ͖͍ δϣϒ΄Ͳ࣮ߦ࣌ؒͷ෼෍͕ӈํ޲ʹ ޿͕Δɻ ϊʔυͷେن໛δϣϒͰ͸ɺ
िؒΛ௒࣮͑ͯߦ͞Εͨδϣϒ΋ શମͷʹୡͨ͠

観察４ ϓϩδΣΫτͷਐߦʹ൐͍ɼେن໛δϣϒ͔Βதن໛δϣϒ த৺΁ͱϦιʔεར༻͕ਪҠ͍ͯ͠Δɻ ࣄલֶश ϑΝΠϯνϡʔχϯά ิ଍తͳ࣮ݧ

(16Ϋϥελͷۭ͖ঢ়گ͕ ͻͱ໨ͰΘ͔Δ (16ిྗফඅྔͷྫ ۭ͖͕ଟ͍ͱ΋͍ͬͨͳ͍ 69

第三章まとめ w --.։ൃϥΠϑαΠΫϧͰ͸ɺৗʹେن໛δϣϒΛྲྀ͢ඞཁ͸ͳ͍ w (16ͷۭ͖͕ͰΔظؒ͸͋Δ w --.։ൃͰ͸࠷ߴੑೳͷ௥ٻΑΓ΋ɺ։ൃͷ҆ఆੑ͕ॏࢹ͞ΕΔ w Πϯϑϥ౤ࢿʹແବ͕ͰΔՄೳੑ͕͋Δ 70

4. LLM分散学習ベンチマーキング

分散学習ベンチマーキングの動機 w 501ʹ͓͚ΔϕϯνϚʔΫ͸ҰൠͷܭࢉػੑೳΛܭଌ͢Δ΋ͷͰ͋Δ w ͘͞Β0/&͕ϑΥʔΧε͢Δ--.ֶशʹ͓͚ΔੑೳΛܭଌ͍ͨ͠ w ۀքͷඪ४తͳϕϯνϚʔΫͱͯ͠.-1FSGʹண໨ͨ͠ w .-1FSGϕϯνϚʔΫεΠʔτɿ5SBJOJOH*OGFSFODF4UPSBHFͳͲ̍̍छ w
5SBJOJOHͷ͏ͪɺ͘͞Β0/&ͷ૝ఆϢʔεέʔεʹ͍ۙ͠ɺ(15#ࣄ લֶशͱ-MBNBϑΝΠϯνϡʔχϯάΛબ୒ ຊ೔ͷର৅ 72

MLPerf Training w είΞ͸ֶश։͔࢝Βֶशऴྃ·Ͱͷ࣮࣌ؒʢNJOʣ w ૚਺΍ֶश཰ɺγʔέϯε௕ͳͲͷֶशؔ࿈ͷϋΠύʔύϥϝʔλ͸ݻఆ w ֶशσʔληοτ͸༻ҙ͞Ε͍ͯΔ w ଛࣦ͕نఆͷᮢ஋ʹୡ͢Δͱ࣮ߦΛఀࢭʢ(15Ͱ͸-PH1FSQMFYJUZ͕ʣ
w ͋Δఔ౓ֶशΛਐΊΒΕͨঢ়ଶΛอଘͨ͠νΣοΫϙΠϯτ͔Βֶश։࢝ w ֶशதͷνΣοΫϙΠϯςΟϯάʢετϨʔδ΁ͷఆظอଘʣ͸ͳ͠ モデル側のパラメータ固定や学習終了条件の明示 ˞$MPTFE%JWJTJPOͷ৔߹ 73

GPT-3事前学習のスコア 0SHBOJ[BUJPO 4ZTUFN/BNF (16਺ .PEFM/BNF -BUFODZ NJO /7*%*" &PTEGX@O
)49.(# 0SBDMF Y#.(16) )49.(# 0SBDMF Y#.(16) )49.(# 4",63" JOUFSOFU 4",63"0/&@O )49.(# VOWFSJ fi FE /7*%*" &PT@O )49.(# 4",63" JOUFSOFU 4",63"0/&@O )49.(# VOWFSJ fi FE /7*%*" &PT@O )49.(# IUUQTNMDPNNPOTPSHCFODINBSLTUSBJOJOH3PVOEW͔ΒҰ෦ൈਮ ˞VOWFSJ fi FE͸.-$PNNPOTڠձʹ Αͬͯݕূ͞Ε͍ͯͳ͍݁ՌͰ͋Δɻ 74

GPT-3事前学習（規模が近い他システム比較①） 0SHBOJ[BUJPO 4ZTUFN/BNF (16਺ .PEFM/BNF -BUFODZ NJO 4",63"
JOUFSOFU 4",63"0/&@O )49.(# VOWFSJ fi FE /7*%*" &PT@O )49.(# (16਺ɺ(16Ϟσϧɺ/8ଳҬ෯͕ಉ৚݅Ͱͷൺֱ &PT@Oʹରͯ͠ɺ4",63"0/&@O͸ͷֶश࣌ؒͱͳͬͨ 75

GPT-3事前学習（規模が近い他システム比較②） (16਺͕ۙ͘͠ಉҰϞσϧɺ/8ଳҬ෯ಉҰͰͷൺֱ 0SHBOJ[BUJPO 4ZTUFN/BNF (16਺ .PEFM/BNF -BUFODZ NJO
4",63" JOUFSOFU 4",63"0/&@O )49.(# VOWFSJ fi FE /7*%*" &PT@O )49.(# &PT@OΛԾʹϊʔυͱ͢Δͱཧ૝׵ࢉͰ NJO ͱͳΓɺ 4",63"0/&@O͸ͷֶश࣌ؒ ˞4",63"0/&ʹ͸ෆརͳ৚݅Ͱͷൺֱ ྆ऀ1PEʢ46ʣ ԣஅ௨৴͋Γ 76

学習ワークロードの代表的な目標性能指標 εϧʔϓοτ ܭࢉޮ཰ .'6 .PEFM'MPQT6UJMJ[BUJPO Ϟσϧ͕ཧ࿦తʹ࢖༻͢Δ '-014ͷ࣮ଌ஋
ϋʔυ΢ΣΞͷϐʔΫ'-014 ֶशεϧʔϓοτɹUPLFOTTFD TBNQMFTTFD ԋࢉεϧʔϓοτɹ'-014ʢ'MPBUJOHQPJOU0QFSBUJPOT1FS4FDPOEʣ ϨΠςϯγ 5JNFUP5SBJOɹֶश։͔࢝Β׬ྃ·Ͱͷ࣌ؒ 77

GPT-3事前学習（さくらONEスケーリング評価） ϊʔυ਺ 5JNFUP5SBJO ʢNJOʣ .'6
5'-014(16 5PLFOTTFD(16 ֶश࣌ؒ୹ॖ཰ɹɹഒ ϊʔυ਺͕ഒʹରͯ͠ )'1ࠞ߹ਫ਼౓Ͱͷԋࢉޮ཰ʢ.'6ʣͷ૬৔͸ ԋࢉޮ཰(16ɹɹɹ ରཧ૝εέʔϦϯά 78 ʢԋࢉεϧʔϓοτͷ૬৔͸r5'-014(16ʣ

H100 BF16/FP8混合精度 MFU w ϐʔΫ'-014ͱͯ͠ɺจݙͰ͸ 5'-014Λ࠾༻͞Ε͍ͯΔ w '15FOTPS$PSF͸ 5'-014ʢ˞ʣ͕ͩɺ4QBSTFͳ͠ͳΒ
˞/7*%*")5FOTPS$PSF(16%BUBTIFFUIUUQTSFTPVSDFTOWJEJBDPNFOVTIPQQFSBSDIJUFDUVSFOWJEJBUFOTPSDPSFHQV EBUBTIFFU ˞IUUQTDBUBMPHOHDOWJEJBDPNPSHTOWJEJBUFBNTEHYDCFODINBSLJOHSFTPVSDFTMMBNBCEHYDCFODINBSLJOHD ˞ -MBNB# .'6d ˞ ˞IUUQTTFNJBOBMZTJTDPNIDMVTUFSTQPXFSOFUXPSL .'6 ˞ USJMMJPOQBSBNFUFSUSBJOJOH -MBNB# ˞IUUQTTFNJBOBMZTJTDPNIWTHCOWMUSBJOJOHCFODINBSLT .'6 ˞ ˞IUUQTXXXEBUBCSJDLTDPNKQCMPHUVSCPDIBSHFEUSBJOJOHPQUJNJ[JOHEBUBCSJDLTNPTBJDBJTUBDLGQ .15CdC .'6d ˞ 79

GPT-3事前学習（パラメータの組み合せ） 51 11 %1 (MPCBM #4 .JDSP #4 '-014 (16
5JNFUP5SBJO ʢNJOʣ /PEBUB 51ςϯιϧฒྻ౓ 11ύΠϓϥΠϯฒྻ౓ %1σʔλฒྻ౓ (MPCBM#4άϩʔόϧόοναΠζ .JDSP#4ϚΠΫϩόοναΠζ 96ノード શମͰݸͷύϥϝʔλͷ͏ͪ୅දతͳ΋ͷΛൈਮ ςϯιϧฒྻͷ ௨৴Λαʔό಺ /8Ͱ׬݁ͤͨ͞ ͍ͨΊ51 73".ʹऩ·Δൣ ғͰ%1Λ্͛Ε ͹͍͍ͱࢥ͍ͬͯ ͕ͨҙ֎ͱͦ͏Ͱ ΋ͳ͍ 80

GPT-3事前学習の結果の考察 w ͘͞Β0/&Ͱ͸૬৔ͷൣғ಺ͷԋࢉޮ཰Λୡ੒Ͱ͖͍ͯΔɻ w ΠϯλʔίωΫτ௨৴͕े෼ߴ଎ɻ෼ࢄֶशͷνϡʔχϯά΋૬৔Ϩϕϧɻ w ҰํͰɺ͘͞Β0/&͸&04ͱϊʔυൺֱͰɺϊʔυ׵ࢉൺֱ Ͱͷੑೳͱͳͬͨɻ w ཁҼͷՄೳੑɿ&UIFSOFU
3P$&W ର*O fi OJCBOEɺ͋Δ͍͸୯ʹνϡʔχϯάෆ଍ w ΠϯλʔίωΫτͷτϙϩδߏ੒ʢ3BJM0QUJNJ[FEʣ͸ಉҰͷ͸ͣ w ιϑτ΢ΣΞελοΫ͸04ͱΧʔωϧϞδϡʔϧʢυϥΠόͳͲʣҎ֎ͷόʔ δϣϯ͸ಉҰͷ͸ͣ 81

苦労したこと w .-1FSGެࣜͷϦϑΝϨϯε࣮૷ΑΓɺաڈͷϥ΢ϯυͰ౤ߘɾެ։͞Ε࣮ͨ૷ ͷ΄͏͕੔ཧ͞Ε͍ͯΔɻϦϑΝϨϯε࣮૷͔Β࢝Ίͯ͠·ͬͨɻ w ίϯςφͰόʔδϣϯ͕ݻఆ͞Ε͍ͯͯ΋ɺ෺ཧߏ੒ͷඍົͳࠩҟʹΑͬͯಈ͔ ͳ͍ઃఆ΍ίʔυ͸͍͔ͭ͋͘Γɺमਖ਼ͷඞཁ͋Γ w ෼ࢄֶशͷ֤छ֓೦ʢ%ฒྻɺूஂ௨৴ͳͲʣ΍ιϑτ΢ΣΞʢ4MVSNɺ /F.Pɺ.FHBUSPOʣΛ৽نʹֶͿඞཁ͕͋ͬͨ
w ϕϯνϚʔΫظؒ͸ݶΒΕΔͨΊɺ৸ΔલʹδϣϒΛෳ਺ݸ౤ೖͯ͠ே݁ՌΛΈ Δੜ׆Λ͍ͯͨ͠ ˞IUUQTHJUIVCDPNNMDPNNPOTUSBJOJOH@SFTVMUT@WUSFFNBJO/7*%*" ˞ 82

4章：まとめ w --.ֶशͰඞཁͱ͞ΕΔجຊతͳฒྻԽٕज़΍/8ٕज़ɺΫϥελߏ੒Λ؆୯ʹ ղઆͨ͠ɻ w ͘͞ΒΠϯλʔωοτͰ͸Ϋϥελ؅ཧ͕ϚωʔδυԽ͞Εͨεύίϯʮ͘͞Β 0/&ʯΛ։ൃ͠ɺ501ͰΦʔϓϯͳ/8ٕज़ͷൣᙝͰҐΛୡ੒ͨ͠ɻ w ͘͞Β0/&Ͱ(15ͷࣄલֶशϕϯνϚʔΫΛ࣮ࢪ͠ɺ૬৔ͷൣғ಺ͷԋࢉޮ཰ Λୡ੒ɻνϡʔχϯάʹ՝୊ͷ༨஍͋Γɻ
w ʢ࣌ؒ౎߹ͰׂѪʣ-MBNBϑΝΠϯνϡʔχϯάͰ͸ϕϯνϚʔΫࢀՃاۀΒͱ ಉ౳ఔ౓ͷੑೳΛୡ੒ͨ͠ɻ 83

5. オブザーバビリティ（可観測性）

AIスパコンサービスのオブザーバビリティ Ϣʔβʔ ϓϩόΠμʔ ֶशॲཧੑೳ ো֐ɾނো؅ཧ ܭࢉࢿݯͷར༻཰ ܭࢉࢿݯͷར༻཰ ໨ඪࢦඪ ਂ૚ֶशͷॲཧͷ಺༁ ֶशɾԋࢉεϧʔϓοτ
ΞϓϦέʔγϣϯ σόΠε ঢ়ଶνΣοΫ ϦιʔεফඅྔɾΤϥʔ Ҽࢠ෼ղ ϫʔΫϩʔυ ෼ੳ Ϧιʔε ෼ੳ 85

責任境界による計装・収集の制約 Ϣʔβʔ ϓϩόΠμʔ 04 δϣϒ εέδϡʔϥ ੹೚ڥք σόΠε ΞϓϦέʔγϣϯ υϥΠό
γεςϜϥΠϒϥϦ ΞϓϦέʔγϣϯ ϩάͷऔಘෆՄ ΞϓϦέʔγϣϯ ίʔυͷܭ૷ෆՄ 86

まずはできるところからやる Ϧιʔε෼ੳͷͨΊͷςϨϝτϦʔऩू ϫʔΫϩʔυ ෼ੳ Ϧιʔε ෼ੳ

リソース分析の概観 Grafanaダッシュボードの構成 ۭؒϏϡʔ ࣌ܥྻϏϡʔ δϣϒϏϡʔ ࠓͳʹ͕ى͖͍ͯΔʁ աڈԿ͕ى͖͔ͨʁ ಛఆδϣϒʹண໨ ݸผ࣌ܥྻϏϡʔ ಛఆ(16ͳͲ
%BUBMJOL %BUBMJOL 88

(16ిྗফඅɺԹ౓ɺϝϞϦ࢖༻ྔɺετϨʔδ࢖༻ྔ 空間ビュー：クラスタ統計 89

空間ビュー：パーティション別統計① ԋࢉεϧʔϓοτ ʢ%$(.ਪఆ஋ʣ (16࢖༻཰ ςϯιϧίΞ࢖༻཰ --.ֶशͰ͸͙ Β͍࢖͍͑ͯΔͱྑ͍ ˞7 "OESFJ FUBM
4:45&.!4$"-&"*0CTFSWBCJMJUZ IUUQTBUTDBMFDPOGFSFODFDPNTZTUFNTDBMFBJPCTFSWBCJMJUZ ˞ Ͱ͋ͬͯ΋(16ͷԋ ࢉޮ཰͕ߴ͍ͱ͸ݶΒͳ͍ 90

空間ビュー：パーティション別統計② (16ϝϞϦ࢖༻཰ (16ϝϞϦ ଳҬ෯࢖༻཰ (16ϝϞϦ ΞΫηε࢖༻཰ ͍ۙͱ͏· ͘࢖͍͑ͯΔ 91

空間ビュー：GPUグリッド表示 )1&$MVTUFSWJFX ˞IUUQTHSBGBOBDPNHSBGBOBQMVHJOTIQFIQDHSBGBOBDMVTUFSWJFXQBOFM ˞ ύωϧϓϥάΠϯ ϥοΫˠαʔόˠ(16 ͳͲͷೖΕࢠදݱՄ (16ిྗফඅྔͷྫ ࣾ಺ͷ)1$ઐ໳
Ոʹ޷ධ ೴಺Πϝʔδʹ ͍ۙϏϡʔ 92

空間ビュー：NVLink別グリッド表示 ܭࢉϊʔυ಺ (16ؒόεͷ ड৴εϧʔϓοτ 93

空間ビュー：NICグリッド表示 ̍ܭࢉϊʔυ͋ͨΓ ΠϯλʔίωΫτ༻/*$ຕ ετϨʔδ༻/*$ຕ /*$ͷड৴ εϧʔϓοτ 94

時系列ビュー① /*$ͷ εϧʔϓοτ ετϨʔδ εϧʔϓοτ νΣοΫϙΠϯτॻ͖ग़͠ͷ༷ࢠ 95

時系列ビュー② (16Ϋϥελͷۭ͖ঢ়گ͕ ͻͱ໨ͰΘ͔Δ (16ిྗফඅྔͷྫ ϓϩδΣΫτ"ͷ೥݄̏ͷσʔλ Λ΋ͱʹՄࢹԽ ۭ͖͕ଟ͍ͱ΋͍ͬͨͳ͍ 96

ジョブビュー　ガントチャート 4MVSNδϣϒͷώετϦʢ.BSJB%#ʹอଘʣΛݩʹՄࢹԽ 97

プロファイルの可視化 γϯϘϧະղܾͱͳΔؔ਺͕ଟ͍ ॱ఻ൖॲཧͷ಺༁͕Θ͔Δ ͨͩ͠$16UJNF 98

データパイプラインの構成（全体像） (16/PEFT -PHJO/PEFT *OUFSDPOOFDU4XJUDIFT #BDLFOET 05F-$PMMFDUPS (BUFXBZ 05F-$PMMFDUPS
"HFOU 1ZSPTDPQF 7JDUPSJB.FUSJDT 7JDUPSJB-PHT .FUSJDT -PHT 1SP fi MFT 05-1 05-1 &YQPSUFST &YQPSUFST &YQPSUFST 4ZTMPH -PHT -PHT 4DSBQF ˠ͸σʔλͷྲྀΕΛද͢ 7JTVBMJ[BUJPO (SBGBOB 99

GPUノードの構成 (16/PEFT 05F-$PMMFDUPS "HFOU *1.*&YQPSUFS +PVSOBME 3%."&YQPSUFS /PEF&YQPSUFS %$(.&YQPSUFS
-VTUSF&YQPSUFS 1SPDFTT&YQPSUFS 4DSBQF 1SPNFUIFVT 3FDFJWFS πʔϧ਺Λগͳ͘͢ΔͨΊʹ 05F-$PMMFDUPSओମͰऩू +PVSOBME 3FDFJWFS WBSMPHTMVSN 'JMF-PH 3FDFJWFS ʢࣗ࡞ʣ ˞HJUIVCDPNZVVLJSENB@FYQPSUFS ˞ PQFOUFMFNFUSZ FCQGQSP fi MFS (BUFXBZ 05-1 ˞HJUIVCDPN(4*)1$MVTUSF@FYQPSUFS ˞ 100

ログとプロファイルに関する所感まだ有効利用できていない w ཁ্݅ɺଟ͘ͷ৘ใؚ͕·ΕΔΞϓϦϩάΛऔಘෆՄ w ϓϥοτϑΥʔϜଆͰ؅ཧ͢Δϛυϧ΢ΣΞ͕গͳ͍ w εέδϡʔϥʔʢ4MVSNʣ΍ڞ༗ετϨʔδʢ-VTUSF'4PO%%/ʣͷΈ
ϩά w (16΍3%."௨৴ΛؚΉϓϩϑΝΠϧΛऔಘͰ͖ͳ͍ w ෼ࢄτϨʔε͕ͳ͍ ϓϩϑΝΠϧ 101

Ϣʔβʔ オブザーバビリティ・ギャップ ΪϟοϓᶄɹΞϓϦ͔Πϯϑϥͷ໰୊੾Γ෼͚ ౤ࢿޮՌ؍఺ ϓϩόΠμʔ ੑೳ؍఺ ো֐ɾނো؍఺ ΪϟοϓᶃɹֶशॲཧੑೳͷϘτϧωοΫಛఆ ΪϟοϓᶅɹϚΠΫϩόʔετϞχλϦϯά 102

Ϣʔβʔ ΪϟοϓᶄɹΞϓϦ͔Πϯϑϥͷ໰୊੾Γ෼͚ ౤ࢿޮՌ؍఺ ϓϩόΠμʔ ੑೳ؍఺ ো֐ɾނো؍఺ ΪϟοϓᶃɹֶशॲཧੑೳͷϘτϧωοΫಛఆ ΪϟοϓᶅɹϚΠΫϩόʔετϞχλϦϯά 103 オブザーバビリティ・ギャップ

やりたいこと ϫʔΫϩʔυ෼ੳͷͨΊͷࡉཻ౓ܭଌ ϫʔΫϩʔυ ෼ੳ Ϧιʔε ෼ੳ

深層学習の処理過程をトレースしたい ֶशδϣϒ ΤϙοΫ̍ ΠςϨʔγϣϯ̍ (16 (16 ΤϙοΫ̍ ΠςϨʔγϣϯ̍ ࣌ؒ ΠςϨʔγϣϯ
ΤϙοΫ ΠςϨʔγϣϯ ΤϙοΫ ܭࢉͱ௨৴ͷΦʔόʔϥοϓ ֤εύϯͷܦա࣌ؒ΍ϦιʔεফඅྔΛܭଌ ूஂ௨৴ ॱ఻೻ ٯ఻೻ ॏΈ ߋ৽ ूஂ௨৴ ॱ఻೻ ٯ఻೻ ॏΈ ߋ৽ 105

集団通信の処理過程をトレースしたい (16 (16 (16 (16 (16
(16 (16 / (16 / (16 / ࣌ؒ (16 (16 (16 / εΠον αʔό̍ αʔό αʔό/ 3JOHΞϧΰϦ ζϜͷҰྫ શ(16͕ಉ࣌ʹྡʹσʔλ Λૹ৴͠ଓ͚Ϧϯά্Λपճ αʔό/ -FBG /*$ /*$ /*$ /*$ -FBG 106

GPUプロファイリング 107 MLPerf Training GPT-3のベンチマーク中に取得 Pytorch Pro fi lerの結果をPerfettoで可視化 NT
ΠϯλʔίωΫτ௨৴ NT NT NT Ұൠతʹ͸ɺਂ૚'8಺ଂ΍/7*%*"͕ఏڙ͢ΔϓϩϑΝΠϥΛ࢖͏ $615* /TJHIU4ZTUFNT 1Z5PSI1SP fi MFS ,JOFUP

ギャップ① 　現行 GPUプロファイラの課題 ˞&:PVTFG[BEFI"TM.JBOEPBC FUBM l1SP fi MJOHBOE.POJUPSJOH%FFQ-FBSOJOH5SBJOJOH5BTLTz
&VSP.-4ZT Ϣʔβʔ؅ཧ ॏ͍Φʔόʔϔου Ϣʔβʔ͕༗ޮԽ͢Δඞཁ͕͋ΔͨΊɺ ϓϥοτϑΥʔϚʔཁ݅Λຬͨ͞ͳ͍ 1Z5PSDI1SP fi MFS͕ഒ஗ԆΛ૿Ճ ͤ͞Δใࠂ͋Γ˞ ΞϓϦέʔγϣϯʹରͯ͠ඇ৵ೖͳܗࣜͰ ௿Φʔόʔϔουͷ;FSP$PEFܭ૷Λ͍ͨ͠ 108

ギャップ① 　 Zero Code計装 eBPFによるZero Code計装による分散トレーシング技術は確立しつつあるが… ˞IUUQTHJUIVCDPNHSBGBOBCFZMB ˞IUUQTEFFQ
fl PXJP • GPUの内部処理はOSカーネル内からはみえない • GPU間通信はOSカーネルのNWスタックを経由しない ˞˞˞ ˞IUUQTPQFOUFMFNFUSZJPEPDT[FSPDPEFPCJ (16ݻ༗ͷ޻෉͕ඞཁ #FZMB %FFQ'MPX 0#*ͳͲ ✘ 109

ギャップ① 　 GPUゼロコード計装の最先端 $6%""1*૚ (16υϥΠό૚ ˞zF#1'5VUPSJBM5SBDJOH$6%"(160QFSBUJPOTz IUUQTFVOPNJBEFWUVUPSJBMTDVEBFWFOUT ˞lF#1'5VUPSJBMCZ&YBNQMF.POJUPSJOH(16%SJWFS"DUJWJUZXJUI,FSOFM5SBDFQPJOUTz IUUQTFVOPNJBEFWUVUPSJBMTYQVHQVLFSOFMESJWFS ˞l8SJUFBOE3VOF#1'PO(16XJUICQGUJNFz
IUUQTFVOPNJBEFWFOCQGUJNFEPDVNFOUTHQV VQSPCFT MJCDVEBSUTP (16΁ͷϝϞϦׂ౰ɾసૹɾಉظɺΧʔωϧىಈؔ਺ʹϑοΫ USBDFQPJOUT LQSPCFT ϥϯΩϡʔͷਂ͞΍9*%ΤϥʔΛܭଌՄೳ ˞ ˞ ˞ CQGUJNF ඇಉظ΍(16಺෦ͷৄࡉܭଌ͸ࠔ೉ Ϣʔβʔͷ1ZUIPOϓϩηεͱͷඥ͚ͮՄೳ 04ΧʔωϧͷൣᙝͳͷͰɺҰൠతͳLQSPCFTͳͲͰܭଌՄೳ ඇಉظͰ΋(16಺ج४Ͱͷ࣌ࠁ͕Θ͔Δ (16಺ͷϫʔϓ΍εϨου୯Ґཻ౓Ͱͷܭଌ 159ʢ(16தؒදݱʣίʔυ΁F#1'ίʔυΛ஫ೖ Ϣʔβʔۭؒ F#1'ϥϯλΠϜ <)%$4 F(16> <04%* CQGUJNF> (16಺෦૚ 110

ギャップ①：GPUゼロコード計装の課題 $6%""1*૚ (16υϥΠό૚ (16಺෦૚ ਂ૚ֶश'8૚ʢ1ZUIPOʣ ෼ࢄτϨʔγϯά΁ͷؼணʹ͸ ֤૚ͷΠϕϯτΛ૬ؔͤ͞Δඞཁ͋Γ (16ϝϞϦؒ௨৴΋ݪཧతʹ͸ܭଌͰ͖Δ ͸ͣʜ
ίϯςΩετͷ఻ൖΛͲ͏΍Δ͔ʁʁ ݱঢ়͸·ͩͦͷΑ͏ͳ πʔϧ͸ͳ͍ ݚڀ։ൃͷྖҬ 111

Ϣʔβʔ オブザーバビリティ・ギャップ ΪϟοϓᶄɹΞϓϦ͔Πϯϑϥͷ໰୊੾Γ෼͚ ౤ࢿޮՌ؍఺ ϓϩόΠμʔ ੑೳ؍఺ ো֐ɾނো؍఺ ΪϟοϓᶃɹֶशॲཧੑೳͷϘτϧωοΫಛఆ ΪϟοϓᶅɹϚΠΫϩόʔετϞχλϦϯά 112

ギャップ②：アプリかインフラの問題切り分け [Liu+,SIGCOMM24] ωοτϫʔΫͷ໰୊͔ʁ੾Γ෼͚͕೉͍͠ ‣ ΞϓϦϩάʹ͸ू߹௨৴ϥΠϒϥϦʢ/$$-ʣ͕zFSSPSDPEFz͕Έ͑Δ͕ʜ ‣ ݪҼ͸ɺϗετଆͷ໰୊ʢ(16μ΢ϯɾϋϯάɾϝϞϦෆ଍ɾ/$$-ޡઃఆʣͰ ͋Δ͜ͱ΋ 113

ギャップ② 　 R-Pingmesh RNIC to RNICのアクティブプルービングによるRoCEネットワーク監視 114 ③ 継続的なプルービングによるRTT・パケッ
トロスの常時計測 ②RoCEパケットによるプルービング ① サービストラフィックとは独立したRNIC 単位のプルービング

R-Pingmeshのシステム全体像 115 <-JV 4*($0..>'JHVSF31JOHNFTI'SBNFXPSLΛجʹվมͯ͠ܝࡌ 1. Agentが登録処理 2. ControllerからPinglistが届く 3. PinglistからProberがプルー
ブを送信 4. RTTなどを記録しAnalyzerへ 1. eBPFでサービスジョブの通信の5-tupleを監視 2. 専用のPinglistへ追加

yuuki/rpingmeshの技術スタック 116 • 言語：Go • RoCE通信：libibverbs • eBPF Kprobe,
cillium/ebpf • 要素間通信：gRPC • Registry: Rqlite • 計装：OpenTelemetry

成果物 117 IUUQTHJUIVCDPNZVVLJSQJOHNFTI IUUQTHJUIVCDPNZVVLJHPJCWVEQJOHQPOH ෭੒Ռ෺ 3P$&ͷ6%QJOHQPOHπʔϧ

Grafanaダッシュボードの例マトリクス表示 118 &4/&5.BUSJY1BOFM1MVHJO ࣮૷্ͷ໰୊Ͱ·ͩ؂ࢹ Ͱ͖͍ͯͳ͍3/*$ͷ૊ Έ߹Θͤ͋Γ %TU 3/*$T
4SD3/*$T

5章まとめ ݱঢ় ੍໿ Ϊϟοϓ 05FM (SBGBOBͰϝτϦΫεɾϩάɾϓϩϑΝΠϧج൫Λߏஙͨ͠ɻ Ϧιʔε෼ੳ͸͏·͍͍ͬͯ͘Δ͕ɺϫʔΫϩʔυ෼ੳ͕ະୡɻ ΞϓϦέʔγϣϯϩάίʔυͷܭ૷ɾऩूෆՄ ᶃֶशॲཧաఔͷ෼ࢄτϨʔε
ᶄΞϓϦ͔Πϯϑϥ͔ͷ੾Γ෼͚ ᶅϚΠΫϩόʔετ؂ࢹ (16θϩίʔυܭ૷ʢF#1'Ͱ$6%"υϥΠό಺෦૚ͷΠϕϯτ૬ؔʣ ϝογϡঢ়ͷ3%."1JOHγεςϜͷ࣮૷ 119

6. AIスパコンの障害管理に関する研究動向

σʔλۦಈΞϓϩʔν ߏ଄తΞϓϩʔν ܭࢉϊʔυҎ֎΁ͷண໨ .JOEFS - F"$(. --.1SJTN "FHJT 9165JNFS 4LFMFUPO)VOUFS
1"$& طଘͷςϨϝτϦʔσʔλʹର ͠ʮڭࢣͳֶ͠शʯΛద༻͠ɺ ෳࡶͳҟৗΛࣗಈݕ஌͢Δɻ ෼ࢄֶशಛ༗ͷ௨৴ύλʔϯʢಉ ظɺू߹௨৴ʣͱ͍͏ʮυϝΠϯ஌ ࣝʯΛ׆༻͠ɺϒϥοΫϘοΫε ͱͳΔڍಈΛղ໌͢Δɻ ܭࢉϊʔυҎ֎ͷΠϯϑϥʢίϯςφωοτϫʔΫɺϑΝγϦςΟʣͷෳࡶ ੑ΁য఺Λ౰ͯΔɻ ෼ੳख๏ ػցֶश׆༻ υϝΠϯ஌ࣝ׆༻ ϗετɾ ΞϓϦ ಺෦ ωοτ ϫʔΫɾ Πϯϑϥ ؍ଌ఺ 主要な研究トレンド

切り口 ① 観測点ーどこからシステムを観測するか "ωοτϫʔΫத৺ #࣮ߦτϨʔεɾ಺෦ঢ়ଶத৺ $ϊʔυத৺ %ͦͷଞʢϑΝγϦςΟɾ༧ଌʣ εΠον΍௨৴ϑϩʔʹண໨ɻ
ιϑτ΢ΣΞελοΫ಺෦ͷڍಈ Λਂ͘௥੻ɻ --.1SJTN εΠονͷϛϥʔϦϯάσʔλ͔Β ϑϩʔΛ෼ੳ 4LFMFUPO)VOUFS ίϯςφؒͷ ௨৴ύλʔϯΛਪ࿦͠ɺ1JOHͰো֐ಛఆ 9165*.&3 Χʔωϧ಺ͷϨδελ஋ΛτϨʔε F"$(. F#1'ͰϑϧελοΫ৘ใΛऔಘ "FHJT ௨৴ϥΠϒϥϦͷ಺෦Χ΢ϯλʔΛར༻ 04΍(16͔Βग़ྗ͞Εͨ౷ܭ ৘ใ΍ϩάΛ෼ੳɻ .JOEFSʢ$16(16ར༻཰ͳͲͷ࣌ܥྻσʔ λΛ؂ࢹʣ-ʢ๲େͳςΩετϩάΛղੳʣ *5ػث֎෦΍ɺ࣮ଌҎ֎ͷσʔ λΛར༻ɻ 1"$&ʢྫྷ٫૷ஔ΍ిྗઃඋͳͲͷ ϑΝγϦςΟςϨϝτϦʔΛ෼ੳʣ ;IBOHFUBMʢϚΠΫϩϕϯνϚʔ Ϋʹجͮ͘ੑೳ༧ଌʣ

切り口 ② 障害診断のアルゴリズム "ڭࢣͳֶ͠शɾ౷ܭϞσϧ #ϧʔϧϕʔεɾ࿦ཧਪ࿦ $ճؼ෼ੳɾ༧ଌ ਖ਼ৗύλʔϯͷֶश΍౷ܭతภࠩΛར༻ɻ .JOEFSʢ-45.7"&ͰϚγϯؒͷڍಈͷ ඇྨࣅ౓ΛଌఆʣɼF"$(.ʢࠞ߹Ψ΢ε
ϞσϧͰੑೳ෼෍͔Βͷٯ୤Λݕ஌ʣɼ 1"$&ʢάϨϯδϟʔҼՌੑݕఆͰҼՌά ϥϑΛߏஙʣɼ-ʢ*TPMBUJPO'PSFTUͰϩά ύλʔϯͷҟৗΛݕग़ʣ υϝΠϯ஌ࣝʹجͮ͘ϩδοΫͰঢ়ଶΛ ಛఆɻ "FHJT ௨৴Χ΢ϯτͷෆ੔߹ΛϧʔϧͰൺ ֱʣ9165*.&3 ௨৴Χʔωϧͷϧʔϓεςο ϓ਺Λൺֱ --.1SJTN ௨৴ྔͱִ͔ؒΒฒ ྻԽઓུΛਪ࿦ 4LFMFUPO)VOUFSʢ௨৴όʔ ετͷपظੑ͔ΒεέϧτϯΛਪ࿦ʣ ਺ཧϞσϧʹΑΔੑೳ༧ଌɻ ;IBOHFUBMʢϥϯμϜϑΥϨετ౳Ͱԋࢉࢠͷ ࣮ߦ࣌ؒΛ༧ଌʣ

切り口 ③ 侵入性ーシステム介入の要求度合い
ඇ৵ೖܕɾ ϒϥοΫϘοΫε θϩܭ૷ ϥΠϒϥϦஔ׵ɾ ΤʔδΣϯτܕ Ϣʔβʔίʔυ΍؀ڥ΁ͷม ߋ͕Ұ੾ෆཁɻ֎෦͔Β؍ଌ ՄೳͳσʔλͷΈΛ࢖༻ɻ --.1SJTN εΠονϛϥʔϦϯ άʣ.JOEFSʢطଘϝτϦΫ εʣɺ-ʢطଘϩάʣɺ1"$& ʢϑΝγϦςΟσʔλʣ ίʔυमਖ਼͸ෆཁ͕ͩɺ ࣮ߦϓϩηε΁ͷհೖ ʢΞλονʣΛߦ͏ɻ F"$(. F#1'ϑοΫʣ 9165*.&3 τϨʔγϯάσʔ ϞϯΛΞλον γεςϜίϯϙʔωϯτͷ Ұ෦Λஔ͖׵͑Δ͔ɺαΠ υΧʔΛ഑ஔ͢Δɻ "FHJT ΧελϜ௨৴ϥΠϒ ϥϦʹஔ׵ʣ 4LFMFUPO)VOEFS αΠυ Χʔίϯςφͱͯ͠ΤʔδΣ ϯτΛ഑ஔʣ

7. まとめ

まとめ ᶃਂ૚ֶशͱܭࢉػΞʔΩςΫνϟ ᶄ͘͞Β0/&ͷߏங ᶅδϣϒ෼ੳͱϕϯνϚʔΩϯά ᶆՄ؍ଌੑͷ޲্ͱ՝୊ (16͕උ͑Δଟ਺ͷίΞͱ)#.͕׆͖Δ େن໛Ϟσϧʹ͸෼ࢄֶशٕज़ʢ%1 11 51ʣ͕ඞਢ ߴ଎ΠϯλʔίωΫτ
ʢ/7-JOL 3%."ʣ 501ੈքҐɹҐҎ಺Ͱ͸Φʔϓϯٕज़ʢ40/*$04ʣΛ།Ұ࠾༻ ) ) #ΛͦΕͧΕ࠾༻ͨͭ͠ͷΫϥελ Ϧιʔε෼ੳ͸ཱ֬΋ɺϫʔΫϩʔυ෼ੳʹ͸ʮΪϟοϓʯ Ϧιʔεফඅ͸େن໛δϣϒ͕த৺͕ͩɺ։ൃ͕ਐΉͱখن໛Խ F#1'ʹΑΔθϩίʔυܭ૷΍3%."ϝογϡ؂ࢹͷݚڀ։ൃ͕ਐߦத ԋࢉޮ཰ʢ.'6ʣ͸

さくらインターネット関連資料① IUUQTXXXKBOPHHSKQNFFUJOHKBOPHDBCMFEFTJHO 127 IUUQTXXXKBOPHHSKQNFFUJOHKBOPHTBLVSB

さくらインターネット関連資料② IUUQTTQFBLFSEFDLDPNNBSLVOFUBJJOIVSBXPLBPFSV IUUQTTQFBLFSEFDLDPNTPOJDTPOJDEFHPV[IVZVOZPOH TVSVTIFOHDIFOHBJYJBOHLFQBCVSJUVLVLVSBVEPOFUVUPXBLV

さくらインターネット関連資料③ IUUQTLOPXMFEHFTBLVSBBEKQ IUUQTLOPXMFEHFTBLVSBBEKQ

（宣伝）さくらインターネットの高火力サービス IUUQTHQVTBLVSBBEKQHQVDMPVETFSWJDF 130

AIスーパーコンピュータにおけるLLM学習処理性能の計測と可観測性 / AI Supercom...

AIスーパーコンピュータにおけるLLM学習処理性能の計測と可観測性 / AI Supercomputer LLM Benchmarking and Observability

More Decks by Yuuki Tsubouchi (yuuk1)

Other Decks in Research

Featured

Transcript