Upgrade to Pro — share decks privately, control downloads, hide ads and more …

言語モデルを学習、推論するためのライブラリについて

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for プワー プワー
October 20, 2025
18

 言語モデルを学習、推論するためのライブラリについて

研究室のゼミで使用した資料です。
口頭の説明もコミで作成した資料になります。(内容が不十分の場合もあります)
言語モデルを学習、推論するためのライブラリについて説明しています。推論のライブラリについては、aratakoさんのスライドを参考にしています。
また、ライセンスについての内容についても少しあります。

Avatar for プワー

プワー

October 20, 2025

Transcript

  1. 学習用ライブラリの分類 低レイヤのライブラリ • torch • triton • bitsandbytes • TransformerEnginge

    • apex • flash-attetion 分散学習のライブラリ • fsdp • DeepSpeed • Megatron-LM 学習方法のライブラリ • trl 統合フレームワーク • unsloth • ms-swift • LLaMA-Factory • NVIDIA-NeMO/RL • verl
  2. 補足,分散学習をする理由 大規模モデル学習の課題 巨大なモデルを学習させる際、GPUメモリは主に以下の4つの要素によって消費され る。 • モデルパラメータ: モデル自体の重み。 • 勾配 (Gradients):

    パラメータを更新するために計算される値。 • オプティマイザの状態 (Optimizer States): Adamなどの最適化アルゴリズムが内 部で保持する情報。 • アクティベーション (Activations): 順伝播の途中計算結果。
  3. DeepSpeed リポジトリ: https://github.com/deepspeedai/DeepSpeed?tab=readme-ov-file 論文: https://arxiv.org/abs/1910.02054 理論 • 3D-Parallelism(data parallel,pipeline parallel,tensor

    parallel) • stage ZeRO(Zero Redundancy Optimizer) 4枚のGPUを持つ8ノードで 3D parallelismを構成した例 zeroについて
  4. Megatron-LM リポジトリ: https://github.com/NVIDIA/Megatron-LM 概要 • megatron core形式のモデルを使用する • zero3みたいなものが実装されている •

    実装されている並列処理 Data Parallelism (DP),Tensor Parallelism (TP),Pipeline Parallelism (PP),Context Parallelism (CP),Expert Parallelism (EP) • 混合精度トレーニングでfp16,bf16,fp8(fp8のみmegaron lmのみ)が使用できる インストールコマンド
  5. cc-by-nc-sa-4.0 ライセンスの内容 • cc(Creative Commons) オープンな著作権ライセンス体系 • by(Attribution) 作者のクレジットを表示する義務 •

    nc(Non-Commercial) 商用利用は禁止 • sa(Share-Alike) 同じライセンスで公開する必要がある • nd(No Derivatives) 改変禁止 • 4.0 バージョン(国際版)
  6. モデルごとのライセンス 専用ライセンス • gemma • llama • grok2-community modified MIT(MITライセンスに巨大な商用サービス(

    MAU 1億以上または月収 2,000万USD超)で使う場合は、 「Kimi K2」という表記を UIに目立つように表示すること。 ) • kimi k2 MIT • deepseek • GLM • meituan-longcat Apach-2.0 • qwen • migistral