言語モデルを学習、推論するためのライブラリについて

llmで使用するライブラリについてプワー

目次 • ローカルllmを推論させるためのライブラリについて • 学習ライブラリについて • データセット、モデルのライセンスについて

ローカルllmを推論させるためのライブラリについて

Hugging Face Transformaers リポジトリ: https://github.com/huggingface/transformers hugging faceが開発しているライブラリで推論だけでなく、学習でも基盤として使用する。推論の例

Hugging Face Transformaers メリット • 簡単に使用できるデメリット • 推論速度が遅い用途
• 推論の動作確認に使用する

llama.cpp リポジトリ: https://github.com/ggml-org/llama.cpp c/cppで実装されており、高速な推論ライブラ gguf形式のモデルを推論できる。推論の例

llama.cpp メリット • 推論が早め、GGUFを動かせる、互換性が高い • GGUF変換や量子化が可能デメリット • 導入がやや難しい、大規模なサーバーには向いていない用途
• メモリに制限がある場合に使用、個人で量子化するときに使用する

ollama / LMStudio 基本的にはllama.cppのラッパー推論エンジンとchatbot的なGUIを融合したものメリット • 簡単にLLM推論サーバが立てられる、GUI的なフロントエンドがある用途 •
初心者が簡単に使用したいときに使用する

vllm リポジトリ：https://github.com/vllm-project/vllm オープンソースで非常に有名なllmの高速推論エンジン新しいモデルをday 0でサポートすることも多い推論の例

vllm メリット • 推論が早い、プロダクションレベルで使える、オープンソース • 新モデル対応が早い、セットアップが非常に簡単 • キャッシュを上手く利用しバッチ処理で推論するデメリット •
メモリを使うのでvramが多い方がいい用途 • 個人開発から大規模サーバーまで使用できる

SGlang リポジトリ: https://github.com/sgl-project/sglang LMSYS製のオープンソースなLLM高速推論エンジン Grokの推論エンジンとして採用されれいる vllmのプロジェクトから設計を学び、コードを再利用している

SGlang メリット • 推論が早い、プロダクションレベルで使える、オープンソース • マルチノード推論が比較的簡単デメリット • ドキュメントが少くない（日本語）、互換性の問題など用途
• Grokの推論に実際に使われている。 • vLLMの対抗馬的な存在 • 利用側としては適宜使い分ければ良い

TensorRT-LLM リポジトリ: https://github.com/NVIDIA/TensorRT-LLM NVIDIA製のLLM高速推論エンジン非常に高速でvLLM等より早い場面が多いが、導入がやや難しい

TensorRT-LLM メリット • 推論が早い、プロダクションレベルで使えるデメリット • 新モデルの対応がやや遅め、一部クローズドソース、導入がやや面倒、NVIDIA GPU専用、別途フロントエンドが必要。用途
• 速度を求めるなら使うかも • 基本はvllmで十分なことが多い

ExLlamaV2 / ExLlamaV3 ExLlamaV2: https://github.com/turboderp-org/exllamav2 ExLlamaV3: https://github.com/turboderp-org/exllamav3 EXL2 / EXL3形式への量子化、及びそれを推論するためのライブラリ
ggufより速いと言われているらしいが、マイナーすぎてよくわからない

Text Generation Inference リポジトリ: https://github.com/huggingface/text-generation-inference Hugging Face製のLLM推論ライブラリ、通称TGI HuggingChatのバックエンドとして実際に使われているマイナーすぎてよくわからない

mlx リポジトリ: https://github.com/ml-explore/mlx MLX は、Apple によって提供される、Apple シリコン上の機械学習用のフレームワークです。 mlx形式を使用しないといけない推論と学習両方に対応している。

学習ライブラリについて

学習用ライブラリの分類低レイヤのライブラリ • torch • triton • bitsandbytes • TransformerEnginge
• apex • flash-attetion 分散学習のライブラリ • fsdp • DeepSpeed • Megatron-LM 学習方法のライブラリ • trl 統合フレームワーク • unsloth • ms-swift • LLaMA-Factory • NVIDIA-NeMO/RL • verl

torch(pytorch) リポジトリ: https://github.com/pytorch/pytorch 概要 • ディープラーニング（深層学習）フレームワークの中核ライブラリです。 • 説明不要

triton リポジトリ:https://github.com/triton-lang/triton 概要 • 高効率なカスタムディープラーニングプリミティブを記述するための言語およびコンパイラであるTritonの開発リポジトリです。 • CUDAよりも高い生産性で高速なコードを記述できるオープンソース • torchをinstallするときに自動でダウンロードされる

bitsandbytes リポジトリ: https://github.com/bitsandbytes-foundation/bitsandbytes 概要 • bitsandbytes は、PyTorch向けの軽量量子化ライブラリで、大規模言語モデル（LLM）のメモリ消費を大幅に削減しつつ、推論や学習を可能にする仕組みを提供する。 •
8-bit optimizers,LLM.int8() or 8-bit quantization,QLoRA or 4-bit quantization • torchをinstallするときに自動でダウンロードされる

TransformerEngine リポジトリ:https://github.com/NVIDIA/TransformerEngine 概要 • NVIDIA GPU上でTransformerモデルを高速化するためのライブラリ • Hopper、Ada、Blackwell GPUで8ビット浮動小数点（FP8）精度を使用できるようになる。
• Megatron-lmを使用する時に使用する。インストールコマンド

apex リポジトリ: https://github.com/NVIDIA/apex 概要 • PyTorchにおける混合精度学習と分散学習を効率化するためのライブライリ • Megatron-lmを使用する時に使用する。インストールコマンド

flash-attention リポジトリ: https://github.com/Dao-AILab/flash-attention 論文: https://tridao.me/publications/flash2/flash2.pdf https://tridao.me/publications/flash3/flash3.pdf 概要 • attetinon層を効率良く計算するためのライブライリ •
FlashAttention-2とFlashAttention-3があり、3はまだベータ番(hopperのみ) インストールコマンド

補足,分散学習をする理由大規模モデル学習の課題巨大なモデルを学習させる際、GPUメモリは主に以下の4つの要素によって消費される。 • モデルパラメータ: モデル自体の重み。 • 勾配 (Gradients):
パラメータを更新するために計算される値。 • オプティマイザの状態 (Optimizer States): Adamなどの最適化アルゴリズムが内部で保持する情報。 • アクティベーション (Activations): 順伝播の途中計算結果。

FSDP(FullyShardedDataParallel) リポジトリ:https://github.com/pytorch/pytorch 論文:https://arxiv.org/abs/2304.1127 概要 • torchにデフォルトに入っている分散学習ライブライリ • FSDP(FullyShardedDataParallel)はモデルパラメータ、勾配、オプティマイザーの状態をシャーディングすることでGPUメモリのフットプリントを削減する。 •
他の2つに比べてそこまで使用されていない。

FSDP(FullyShardedDataParallel) リポジトリ:https://github.com/pytorch/pytorch 論文:https://arxiv.org/abs/2304.1127 理論 • deepspeedのzero3 とほとんど同じ、PyTorchにおけるZeRO-3という位置づいけ • deepspeedのときに解説する。

DeepSpeed リポジトリ: https://github.com/deepspeedai/DeepSpeed?tab=readme-ov-file 論文: https://arxiv.org/abs/1910.02054 概要 • ZeRO, 3D-Parallelism, DeepSpeed-MoEなどの技術を使用している
• 基本的にはdeepspeedが使われることが多い。インストールコマンド

DeepSpeed リポジトリ: https://github.com/deepspeedai/DeepSpeed?tab=readme-ov-file 論文: https://arxiv.org/abs/1910.02054 理論 • 3D-Parallelism(data parallel,pipeline parallel,tensor
parallel) • stage ZeRO(Zero Redundancy Optimizer) 4枚のGPUを持つ8ノードで 3D parallelismを構成した例 zeroについて

Megatron-LM リポジトリ: https://github.com/NVIDIA/Megatron-LM 概要 • megatron core形式のモデルを使用する • zero3みたいなものが実装されている •
実装されている並列処理 Data Parallelism (DP),Tensor Parallelism (TP),Pipeline Parallelism (PP),Context Parallelism (CP),Expert Parallelism (EP) • 混合精度トレーニングでfp16,bf16,fp8(fp8のみmegaron lmのみ)が使用できるインストールコマンド

Megatron-LM リポジトリ: https://github.com/NVIDIA/Megatron-LM 理論 • zero3が実装されいる • 理論はdeepspeedとほとんど同じだが実装方法は全然ちがう。 • megatron
core形式のモデルはtp,ppの情報を記憶している

trl(Transformer Reinforcement Learning) リポジトリ: https://github.com/huggingface/trl 概要 • 学習方法を実装している • pt,sft,dpo,grpoなどの方法を実装している。

unsloth リポジトリ: https://github.com/unslothai/unsloth 概要 • loraや4bit量子化など、いかに軽量化して学習するかを極めたライブライリ • 分散学習をすることはできない。 • sft,dpo,grpoなど

ms-swift リポジトリ: https://github.com/modelscope/ms-swift 概要 • pt,sft,dpo,grpoなどの方法を実装している • lora,fullどちらも対応している分散学習ライブラリ •
deepspeed • megaron lm

LLaMA-Factory リポジトリ: https://github.com/hiyouga/LLaMA-Factory 概要 • pt,sft,dpo,grpoなどの方法を実装している • lora,fullどちらも対応している • web
UIがある分散学習ライブラリ • deepspeed • fsdp

NVIDIA-NeMO/RL リポジトリ: https://github.com/NVIDIA-NeMo/RL 概要 • pt,sft,dpo,grpoなどの方法を実装している • 使用したことないので詳しくはわからない分散学習ライブラリ •
megatron lm

verl リポジトリ: https://github.com/volcengine/verl 概要 • ppo,grpoのみを実装している。 • trlを使用せずに、強化学習がスケールするように実装されている分散学習ライブラリ •
fsdp • megatron lm

データセット、モデルのライセンスについて

MIT ライセンスの内容 • シンプルな規定で、ソフトウェアの自由な利用を許可しています • 利用者に対して、ソフトウェアを自由に扱うことを認めています • 再配布時に著作権とライセンスの表示を含めることのみを条件としています

apache-2.0 ライセンスの内容 • ソフトウェアの自由な利用、改変、再配布を許可しています • 商用利用も無償かつ無制限に許可しています • 特許ライセンスの付与も含まれていますが、これは利用者の権利を保護する目的があります(特許トラブルを防ぎたい)

cc-by-nc-sa-4.0 ライセンスの内容 • cc(Creative Commons) オープンな著作権ライセンス体系 • by(Attribution) 作者のクレジットを表示する義務 •
nc(Non-Commercial) 商用利用は禁止 • sa(Share-Alike) 同じライセンスで公開する必要がある • nd(No Derivatives) 改変禁止 • 4.0 バージョン(国際版)

モデルごとのライセンス専用ライセンス • gemma • llama • grok2-community modified MIT(MITライセンスに巨大な商用サービス（
MAU 1億以上または月収 2,000万USD超）で使う場合は、「Kimi K2」という表記を UIに目立つように表示すること。 ) • kimi k2 MIT • deepseek • GLM • meituan-longcat Apach-2.0 • qwen • migistral

言語モデルを学習、推論するためのライブラリについて

言語モデルを学習、推論するためのライブラリについて

More Decks by プワー

Featured

Transcript