AIスパコン「さくらONE」のLLM学習ベンチマークによる性能評価 / SAKURAONE LLM Training Benchmarking

坪内佑樹 (@yuuk1t) さくらインターネット研究所 AIスパコン「さくらONE」の LLM学習ベンチマークによる性能評価 Cloud Operator Days Tokyo
2025 Closing Event Keynote 2025/09/05

プロフィールさくらインターネット研究所上級研究員博士（情報学） 2013-2018 2 株式会社はてな　
Webオペレーションエンジニア/SRE ͘͞ΒΠϯλʔωοτɹ 2019-ݱࡏ 坪内佑樹 @yuuk1t 2020-2023 ژ౎େֶେֶӃ ৘ใֶݚڀՊ ത࢜ޙظ՝ఔ ςϨϝτϦʔ/AIOpsͷݚڀ 京都市在住

本講演の趣旨 • SREがはじめてスパコンを使ってLLMの分散学習ジョブを流して性能評価してみた • 数百基のGPUを用いたLLM学習のPerformance Engineeringってどんな感じなんだろう？に応える
3

1. 分散学習とインフラの基本

深層学習の処理の流れ反復構造をもつ Webアプリケーションのようなトランザクション型ではなく、バッチ型のワークロード ॱ఻ൖ ޡࠩ ٯ఻ൖ ύϥϝʔλ ߋ৽ ޡࠩࢉग़
ޯ഑ ֶशσʔλ ॱ఻ൖ ʜ ֶशσʔλ ΦϓςΟϚΠβ ޡࠩΛখ͘͢͞Δ ύϥϝʔλࢉग़ ൓෮̍ ൓෮̎ 1. ෼ࢄֶशͱΠϯϑϥͷجຊ --.։ൃͰ͸ֶशδϣϒΛԿճ ΋౤ೖͯ͠ࢼߦࡨޡ͢ΔͨΊɺ δϣϒ࣮ߦΛߴ଎Խ͍ͨ͠ 5

分散深層学習 - データ並列（DP）モデルをGPUごとに複製し、データを分割して並列処理 ॱ఻ൖ ٯ఻ൖ ύϥϝʔλ ߋ৽ ॱ఻ൖ ٯ఻ൖ
ύϥϝʔλ ߋ৽ ॱ఻ൖ ٯ఻ൖ ύϥϝʔλ ߋ৽ "MM3FEVDF ʢ૯࿨ʣ (16 (16 (16 ֤(16ϝϞϦ্ͷܭࢉ݁ՌΛू໿ԋࢉ ͠ɺ֤(16্ͷϝϞϦ΁݁ՌΛ഑෍ ूஂ௨৴ 6 1. ෼ࢄֶशͱΠϯϑϥͷجຊ

モデルのパラメータ数増大メモリの壁（Memory Wall） (IPMBNJ "NJS FUBM "JBOE.FNPSZ8BMMz *&&&.JDSP 'JH
B ΑΓసࡌ Ϟσϧύϥϝʔλ਺͕ ೥Ͱഒ "*ΞΫηϥϨʔλʢ(16 516ʣͷϝϞϦྔ͸೥Ͱഒ 7 1. ෼ࢄֶशͱΠϯϑϥͷجຊ

分散深層学習 - モデル並列モデルを分割する ςϯιϧฒྻʢ51ʣ ॱ ߋ৽ ( 1 6
ٯ ύΠϓϥΠϯฒྻʢ11ʣ ॱ ॱ ॱ ٯ ٯ ٯ ߋ৽ ( 1 6 Ϟσϧͷ૚Λ࿈ଓͨ͠εςʔδʹ෼ׂ ૚ ૚ ݸʑͷ૚಺ͷςϯιϧʢߦྻʣΛ෼ׂ ߋ৽ ߋ৽ ॱ ॱ ٯ ٯ ूஂ௨৴ ूஂ௨৴ (16 (16 8 1. ෼ࢄֶशͱΠϯϑϥͷجຊ

演算より通信がボトルネックへ ˞4BQJP "NFEFP FUBM4DBMJOHEJTUSJCVUFENBDIJOFMFBSOJOHXJUI*O/FUXPSLBHHSFHBUJPO/4%* ˞,MFOL #FOKBNJO FUBM"OJOOFUXPSLBSDIJUFDUVSFGPSBDDFMFSBUJOHTIBSFENFNPSZ NVMUJQSPDFTTPSDPMMFDUJWFTz *4$"
ਂ૚ֶशͷֶश࣌ؒʹ઎ΊΔ"MMSFEVDFͷׂ߹ਪఆ͸ɺ ˞ ˞ (16ͷුಈখ਺఺ੑೳ͸೥Ͱഒ৳ͼͨɻҰํͰωοτϫʔΫଳ Ҭͷഒ৳௕ʹ͸໿೥Λཁͨ͠ ˞ (CQTωοτϫʔΫͰ໿ (CQTωοτϫʔΫͰr 9 1. ෼ࢄֶशͱΠϯϑϥͷجຊ

3%." ʢ04ΧʔωϧόΠύεʹΑΓ$16 ͱ%3".Λܦ༝ͤͣʹ௚઀సૹʣ *O fi OJCBOE /*$ʹϝϞϦసૹΦϑϩʔυ 3%."ΛωΠςΟϒ αϙʔτͨ͠ઐ༻ωο τϫʔΫ૬ޓ઀ଓٕज़
3P$&W *1ϧʔςΟϯάՄೳͳ6%1ϕʔε3%." ϩεϨε ϑϩʔ੍ޚ΍᫔᫓੍ޚʹΑΓύέοτϩεΛθϩʹ͚ۙͮΔ ˞-J 8FOYVF FUBM 6OEFSTUBOEJOHDPNNVOJDBUJPODIBSBDUFSJTUJDTPGEJTUSJCVUFEUSBJOJOHz "1/FU ˞'JHVSF B ΑΓసࡌ ネットワーク通信の高速化技術 10 1. ෼ࢄֶशͱΠϯϑϥͷجຊ

AIスパコンのクラスタ構成例 ,PLPMJT "QPTUPMPT FUBM 3FWJTJUJOH3FMJBCJMJUZJO-BSHFTDBMF.BDIJOF -FBSOJOH3FTFBSDI$MVTUFSTz )1$" 'JHΑΓసࡌ ʢετϨʔδؔ࿈লུʣ αʔόɾϥοΫɾ1PEؒ
ΠϯλʔίωΫτωοτϫʔΫ d(CQT αʔό಺ΠϯλʔίωΫτ (#T 11 1. ෼ࢄֶशͱΠϯϑϥͷجຊ

2. さくらONE

さくらONEとは 2. ͘͞ΒONE LLMの開発用にさくらインターネットで自社構築したマネージドHPCクラスタ 501 )1--*/1"$,
ੈքҐ )1$( )1$਺஋ԋࢉΞϓϦέʔγϣϯ ੈքҐ )1-.Y1 "*޲͚ͷ୯ਫ਼౓΍൒ਫ਼౓ԋࢉੑೳ ੈքҐ *0 ετϨʔδ*0ੑೳ ੈքҐ インターコネクトネットワークは、 TOP500の上位100位以内では唯一ベンダー中立でオープンな技術を採用 ISC2025にてスパコン性能ランキングTOP500 世界49位を獲得 SONiC OSと800 GbE Ethernet 13

さくらONEのシステム概要 ',POJTIJ4",63"0/&&NQPXFSJOH5SBOTQBSFOUBOE0QFO"* 1MBUGPSNTUISPVHI1SJWBUF4FDUPS)1$*OWFTUNFOUJO+BQBOBS9JW OPEFT $16DPSFT (16T /*$T
(C& (C&/8 (C&4UPSBHF/8 1#4UPSBHF 2. ͘͞ΒONE 14

さくらONEのクラスタ構成 4QJOF -FBG 7FOEPS40/J$3P$&W ',POJTIJ4",63"0/&&NQPXFSJOH5SBOTQBSFOUBOE 0QFO"*1MBUGPSNTUISPVHI1SJWBUF4FDUPS)1$*OWFTUNFOU JO+BQBOBS9JW ૚ͷ-FBG4QJOFߏ੒ /*$
ʜʜ (C& (C& (16 (16 (16 (16 /748*5$) (16 (16 (16 (16 3BJM0QUJNJ[FEτϙϩδ ϑϧόΠηΫγϣϯ ܭࢉ ϊʔυ /*$ ʜʜ ετϨʔδγεςϜ ετϨʔδ༻/*$ %%/&4/79/%3 ʜʜ ʜʜ 15

,POJTIJ 'VNJLB[V4",63"0/&&NQPXFSJOH 5SBOTQBSFOUBOE0QFO"*1MBUGPSNTUISPVHI 1SJWBUF4FDUPS)1$*OWFTUNFOUJO+BQBO BS9JWQSFQSJOUBS9JW さくらONEのホワイトペーパー 2.
͘͞ΒONE 16

3. LLM分散学習ベンチマーク

分散学習ベンチマーク実施の動機 • TOP500におけるベンチマークは一般の計算機性能を計測するものである • さくらONEがフォーカスするLLM学習における性能を計測したい • 業界の標準的なベンチマークとしてMLPerfに着目
した • MLPerfベンチマークスイート：Training/Inference/Storageなど１１種 • Trainingのうち、さくらONEの想定ユースケースに近しい、GPT-3 175B事前学習とLlama2ファインチューニングを選択 ຊߨԋͷର৅ 3. LLM෼ࢄֶशͷϕϯνϚʔΫ 18

MLPerf Training • スコアは学習開始から学習終了までの実時間（min） • 層数や学習率、シーケンス長などの学習関連のハイパーパラメータは固定 • 学習データセットは
用意されている • 損失が規定の閾値に達すると実行を停止（GPT-3ではLog Perplexityが2.69） • ある程度学習を進められた状態を保存したチェックポイントから学習開始 • 学習中のチェックポインティング（ストレージへの定期保存）はなしモデル側のパラメータ固定や学習終了条件の明示 ˞$MPTFE%JWJTJPOͷ৔߹ 3. LLM෼ࢄֶशͷϕϯνϚʔΫ 19

GPT-3事前学習のスコア 0SHBOJ[BUJPO 4ZTUFN/BNF (16਺ .PEFM/BNF -BUFODZ NJO /7*%*" &PTEGX@O
)49.(# 0SBDMF Y#.(16) )49.(# 0SBDMF Y#.(16) )49.(# 4",63" JOUFSOFU 4",63"0/&@O )49.(# VOWFSJ fi FE /7*%*" &PT@O )49.(# 4",63" JOUFSOFU 4",63"0/&@O )49.(# VOWFSJ fi FE /7*%*" &PT@O )49.(# IUUQTNMDPNNPOTPSHCFODINBSLTUSBJOJOH3PVOEW͔ΒҰ෦ൈਮ ˞VOWFSJ fi FE͸.-$PNNPOTڠձʹ Αͬͯݕূ͞Ε͍ͯͳ͍݁ՌͰ͋Δɻ 3. LLM෼ࢄֶशͷϕϯνϚʔΫ 20

GPT-3事前学習（規模が近い他システム比較①） 0SHBOJ[BUJPO 4ZTUFN/BNF (16਺ .PEFM/BNF -BUFODZ NJO 4",63"
JOUFSOFU 4",63"0/&@O )49.(# VOWFSJ fi FE /7*%*" &PT@O )49.(# (16਺ɺ(16Ϟσϧɺ/8ଳҬ෯͕ಉ৚݅Ͱͷൺֱ &PT@Oʹରͯ͠ɺ4",63"0/&@O͸ͷֶश࣌ؒͱͳͬͨ 3. LLM෼ࢄֶशͷϕϯνϚʔΫ 21

GPT-3事前学習（規模が近い他システム比較②） (16਺͕ۙ͘͠ಉҰϞσϧɺ/8ଳҬ෯ಉҰͰͷൺֱ 0SHBOJ[BUJPO 4ZTUFN/BNF (16਺ .PEFM/BNF -BUFODZ NJO
4",63" JOUFSOFU 4",63"0/&@O )49.(# VOWFSJ fi FE /7*%*" &PT@O )49.(# &PT@OΛԾʹϊʔυͱ͢Δͱཧ૝׵ࢉͰ NJO ͱͳΓɺ 4",63"0/&@O͸ͷֶश࣌ؒ ˞4",63"0/&ʹ͸ෆརͳ৚݅Ͱͷൺֱ ྆ऀ1PEʢ46ʣ ԣஅ௨৴͋Γ 3. LLM෼ࢄֶशͷϕϯνϚʔΫ 22

分散学習の代表的な目標性能指標 εϧʔϓοτ ܭࢉޮ཰ .'6 .PEFM'MPQT6UJMJ[BUJPO Ϟσϧ͕ཧ࿦తʹ࢖༻͢Δ'-014 ϋʔυ΢ΣΞͷϐʔΫ'-014
ֶशεϧʔϓοτɹUPLFOTTFD TBNQMFTTFD ԋࢉεϧʔϓοτɹ'-014ʢ'MPBUJOHQPJOU0QFSBUJPOT1FS4FDPOEʣ ϨΠςϯγ 5JNFUP5SBJOɹֶश։͔࢝Β׬ྃ·Ͱͷ࣌ؒ 3. LLM෼ࢄֶशͷϕϯνϚʔΫ 23

GPT-3事前学習（さくらONEスケーリング評価） ϊʔυ਺ 5JNFUP5SBJO ʢNJOʣ .'6
5'-014(16 5PLFOTTFD(16 ֶश࣌ؒ୹ॖ཰ɹɹഒ ϊʔυ਺͕ഒʹରͯ͠ )'1ࠞ߹ਫ਼౓Ͱͷԋࢉޮ཰ʢ.'6ʣͷ૬৔͸ʢr5'-014HQVʣ ԋࢉޮ཰(16ɹɹɹ ରཧ૝εέʔϦϯά ˞ৄࡉ͸෇࿥εϥΠυΛࢀর 3. LLM෼ࢄֶशͷϕϯνϚʔΫ 24

GPT-3事前学習（パラメータの組み合せ） 51 11 %1 (MPCBM #4 .JDSP #4 '-014 (16
5JNFUP5SBJO ʢNJOʣ /PEBUB 51ςϯιϧฒྻ౓ 11ύΠϓϥΠϯฒྻ౓ %1σʔλฒྻ౓ (MPCBM#4άϩʔόϧόοναΠζ .JDSP#4ϚΠΫϩόοναΠζ 96ノード શମͰݸͷύϥϝʔλͷ͏ͪ୅දతͳ΋ͷΛൈਮ ςϯιϧฒྻͷ ௨৴Λαʔό಺ /8Ͱ׬݁ͤͨ͞ ͍ͨΊ51 73".ʹऩ·Δൣ ғͰ%1Λ্͛Ε ͹͍͍ͱࢥ͍ͬͯ ͕ͨҙ֎ͱͦ͏Ͱ ΋ͳ͍ εΩοϓ 3. LLM෼ࢄֶशͷϕϯνϚʔΫ 25

GPT-3事前学習の結果の考察 • さくらONEでは相場の範囲内の演算効率を達成できている。 • インターコネクト通信が十分高速。分散学習のチューニングも相場レベル。 •
一方で、さくらONEはEOSと32ノード比較で-8.3%、96ノード換算比較で-20.7%の性能となった。 • 要因の可能性：Ethernet(RoCEv2)対In fi niband、あるいは単にチューニング不足 • インターコネクトのトポロジ構成（Rail Optimized）は同一のはず • ソフトウェアスタックはOSとカーネルモジュール（ドライバなど）以外のバージョンは同一のはず 3. LLM෼ࢄֶशͷϕϯνϚʔΫ 26

苦労したこと • MLPerf公式のリファレンス実装より、過去のラウンドで投稿・公開された実装のほうが整理されている。リファレンス実装から始めてしまった。 • コンテナでバージョンが固定されていても、物理構成の微妙な差異によって動かない設定やコードはいくつかあり、修正の必要あり • 分散学習の各種概念（3D並列、集団通信など）やソフトウェア（Slurm、 NeMo、Megatron）を新規に学ぶ必要があった
• ベンチマーク期間は限られるため、寝る前にジョブを複数個投入して朝結果をみる生活をしていた ˞IUUQTHJUIVCDPNNMDPNNPOTUSBJOJOH@SFTVMUT@WUSFFNBJO/7*%*" ˞ 27 3. LLM෼ࢄֶशͷϕϯνϚʔΫ

4. まとめ

本講演のまとめ • LLM学習で必要とされる基本的な並列化技術やNW技術、クラスタ構成を簡単に解説した。 • さくらインターネットではクラスタ管理がマネージド化されたスパコン「さくら ONE」を開発し、TOP500でオープンなNW技術の範疇で49位を達成した。 • さくらONEでGPT-3の事前学習ベンチマークを実施し、相場の範囲内の演算効率を達成。チューニングに課題の余地あり。
• （時間都合で割愛）Llama2ファインチューニングではベンチマーク参加企業らと同等程度の性能を達成した。 29 4. ·ͱΊ

今後の課題 • トップダウンアプローチ初手でパラメータ設定を変えず、モデルアーキテクチャからメモリ量や通信量を推定し、最適なパラメータの仮説を立てる •
自動チューニングにより負荷試験の試行錯誤を高速化 • DeepSpeed-Autotuning,Galvatron,Merak • FixstarsさんがAI Boosterを提供 • オブザーバビリティの高度化によるチューニングの効率化 ˞ϑΟοΫελʔζɺ͘͞ΒΠϯλʔωοτ͕ఏڙ͢ΔʮߴՐྗ1):ʯͷ࠷৽(16౥ࡌػΛ"*#PPTUFSͰύϑΥʔϚϯε࠷େԽ IUUQTOFXT fi YTUBSTDPN 0CTFSWBCJMJUZ$POGFSFODF5PLZPʢʣʹͯߨԋ༧ఆ ˞ εΩοϓ 30 4. ·ͱΊ

さくらインターネット関連資料 IUUQTTQFBLFSEFDLDPNTPOJDTPOJDEFHPV[IVZVO ZPOHTVSVTIFOHDIFOHBJYJBOH LFQBCVSJUVLVLVSBVEPOFUVUPXBLV IUUQTXXXKBOPHHSKQNFFUJOH KBOPHDBCMFEFTJHO 31 4. ·ͱΊ

（宣伝）さくらインターネットの高火力サービス高火力 PHY 高火力 VRT 高火力
DOK さくらONE （提供予定）ベアメタル仮想マシンコンテナ IUUQTHQVTBLVSBBEKQHQVDMPVETFSWJDF େن໛ খن໛ (V100, H100) (V100, H100) (H100,H200 B200) 32 4. ·ͱΊ

参考文献 • Yuichiro Ueno, PFNにおけるアクセラレータ間通信の実際, MPLS Japan 2024,
https:// speakerdeck.com/pfn/mpls-japan-2024 . • Kazuki Fujii, GENIAC: 172B 事前学習知見 , 2024 https://zenn.dev/tokyotech_lm/articles/ deb8012251bb68. • NVIDIA Corporation, NVIDIA DGX SuperPOD: Next GenerationScalable Infrastructure for AI Leadership, 2023. • NVIDIA Corporation, NVIDIA NeMo Framework User Guide. • Casey, Analysis of NVIDIA ’ s Latest Hardware: B100/B200/GH200/NVL72/SuperPod, https://www. fi bermall.com/blog/nvidia-b100-b200-gh200-nvl72-superpod.htm • その他本文スライド中に引用した論文など 33

Appendix

本講演で触れていないこと • GPUそのもののアーキテクチャや処理系、低精度/半精度/混合精度計算 • 集団通信やRingアルゴリズムの詳細 • RDMA、GPUDirect RDMA、ECN/PFC/DCQCNなどインターコネクトネットワークの技術 • Zero-1/2/3,
Activation Checkpointing, FlashAttentionなどのメモリ使用量削減法 • ストレージの構成とその用途 • ソフトウェアスタックにおける各要素の詳細 • モニタリング・オブザーバビリティ • … 35 Appendix

GPUメモリ上の代表的なデータ ύϥϝʔλʢXFJHIUTʣ ΦϓςΟϚΠβঢ়ଶ (1673".ۭؒ Ϟσϧঢ়ଶʢֶशεςοϓΛԣஅʣ Ұ࣌σʔλʢεςοϓ಺ͷΈʣ ೖྗϛχόον தؒ׆ੑԽʢBDUJWBUJPOTʣ ॏΈߦྻͱόΠΞεͳͲ '1ϚελॏΈɺޯ഑ͷ
ཤྺɾ෼෍౷ܭྔͳͲ ಛ௃ྔɾϥϕϧͳͲ ॱ఻ൖͷ૚͝ͱͷܭࢉ݁Ռ ޯ഑ʢHSBEJFOUTʣ ٯ఻ൖͰܭࢉ͞ΕΔ݁Ռ େن໛Ϟσϧ͸ ̍(16ϝϞϦ ʹ৐Γ੾Βͳ͍ 36 Appendix

AIスパコンのソフトウェアスタック例多層に折り重なった複雑な構成 εέδϡʔϥ 4MVSN ,VCFSOFUFT ίϯςφ /7*%*"$POUBJOFS5PPMLJU &OSPPU 1ZYJT 4JOHVSBMJUZ
෼ࢄֶशϑϨʔϜϫʔΫ .FHBUSPO-. %FFQ4QFFE 1ZUPSDI'4%1 /F.P ֶशϑϨʔϜϫʔΫ 1Z5PSDI 5FOTPS fl PX +"9 ूஂ௨৴ϥΠϒϥϦ /$$- 3$$- 3%."ϥΠϒϥϦ JCWFSCT SENBDPSF ܭࢉߴ଎ԽϥΠϒϥϦ DV#-"4DV#-"4-U DV%// 5SBOTGPSNFS&OHJOF ϥϯλΠϜυϥΠό $6%" OWJEJBESJWFST ˞IUUQTEPDTOWJEJBDPNOFNPGSBNFXPSLVTFSHVJEFMBUFTUTPGUXBSFDPNQPOFOUWFSTJPOTIUNM Ϣʔβʔ͕ ֶशδϣϒΛൃߦ 37 Appendix

TOP500 (ISC2025) 世界49位国内9位 3BOL 4ZTUFN 0SHBOJ[BUJPO 3NBY 1'MPQT
'VHBLV 3*,&/$FOUFSGPS$PNQVUBUJPOBM 4DJFODF "#$* "*45 $)*& 4PGU#BOL$PSQ $)*& 4PGU#BOL$PSQ "#$*2 "*45 '15"*'BDUPSZ+BQBO '15"*'BDUPSZ+BQBO .JZBCJ( +PJOU$FOUFSGPS"EWBODFE)JHI 1FSGPSNBODF$PNQVUJOH 546#".& $** *OTUJUVUFPG4DJFODF5PLZP 4",63"0/& 4",63"*OUFSOFU*OD 1SVOVT4PMVUJPOT*OD ࠃ಺γεςϜ্ҐͷΈൈਮ IUUQTUPQPSHMJTUTUPQ 38 Appendix

H100 BF16/FP8混合精度 MFU • ピークFLOPSとして、文献では1,979 TFLOPS を採用
されている • FP8 Tensor Coreは 3,958 TFLOPS（※1）だが、Sparseなしなら1,979 ˞/7*%*")5FOTPS$PSF(16%BUBTIFFUIUUQTSFTPVSDFTOWJEJBDPNFOVTIPQQFSBSDIJUFDUVSFOWJEJBUFOTPSDPSFHQV EBUBTIFFU ˞IUUQTDBUBMPHOHDOWJEJBDPNPSHTOWJEJBUFBNTEHYDCFODINBSLJOHSFTPVSDFTMMBNBCEHYDCFODINBSLJOHD ˞ -MBNB# .'6d ˞ ˞IUUQTTFNJBOBMZTJTDPNIDMVTUFSTQPXFSOFUXPSL .'6 ˞ USJMMJPOQBSBNFUFSUSBJOJOH -MBNB# ˞IUUQTTFNJBOBMZTJTDPNIWTHCOWMUSBJOJOHCFODINBSLT .'6 ˞ ˞IUUQTXXXEBUBCSJDLTDPNKQCMPHUVSCPDIBSHFEUSBJOJOHPQUJNJ[JOHEBUBCSJDLTNPTBJDBJTUBDLGQ .15CdC .'6d ˞ 39 Appendix

はじめて分散学習やスパコンに触れた所感クラウドオペレーター視点 • クラウド（足りなければ即スケールアウト） vs HPC（現状リソース使い切り） • Webアプリに
比べカスタムのロジックが少ない。フレームワーク層で吸収され、ユーザーは設定に関するコーディングにのみ注力する • フレームワーク設定の一つ一つが論文で提案されたものが多いため奥深い • オブザーバビリティが不足しがち。集団通信のトレーシングをやってみたくなる 40 Appendix

AIスパコン「さくらONE」のLLM学習ベンチマークによる性能評価 / SAKURAONE L...

AIスパコン「さくらONE」のLLM学習ベンチマークによる性能評価 / SAKURAONE LLM Training Benchmarking

More Decks by Yuuki Tsubouchi (yuuk1)

Other Decks in Research

Featured

Transcript