LLMを「速く」「安く」動かすには / CloudNative Days Winter 2024

LLMを「速く」「安く」動かすには Shintarou Okada Engenieer, Preferred Networks.Inc

Preferred Networksのエンジニア LLM追加学習‧評価基盤の開発 llama.cppへPLaMo-13Bサポート追加⾃⼰紹介岡⽥真太郎 / Shintarou Okada

今、⽣成AIがアツい総務省の政策白書から引用 https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r06/html/nd219100.html 8年後には 180兆円に現時点世界の⽣成AI市場規模の推移と予測

OpenAIが開発したLLMを使ったWebサービスこれまでのAIと⽐べてめっちゃかしこい ChatGPTの衝撃リリースから2ヶ⽉で 1億ユーザーを獲得（史上最速）

各社も続々とLLMサービスを展開

公開LLMも続々登場 https://github.com/QwenLM/Qwen から引⽤ https://ai.meta.com/blog/meta-llama-3/ から引⽤

プライバシー‧秘密情報の保護 LLMのオンプレでの利⽤も今後ますます重要に独⾃データを学習したカスタムモデルの利⽤

しかしそのまま動かすと遅い＆コストが⾼い……

LLMを速く動かすには？安く動かすには？そもそもLLMってどういう仕組みなの？

LLMってなんなのか Large Language Model ⼤規模⾔語モデル

LLMってなんなのか Large Language Model ⼤規模⾔語モデルパラメータがめちゃくちゃ多い

スケーリング則：モデルとデータは⼤きいほど※ 賢いモデルもデータ（トークン量）も⼤きい ※ 賢い ※言語モデルとして精度が高い図は「Training Compute-Optimal
Large Language Models」( https://arxiv.org/abs/2203.15556 ) から引⽤

スケーリング則：モデルとデータは大きいほど ※ 賢い ※ 賢い ※言語モデルとして精度が高い図は「Training Compute-Optimal Large Language
Models」( https://arxiv.org/abs/2203.15556 ) から引用大規模にするほどどんどん賢くなるモデルもデータ（トークン量）も大きい

「⼤規模」って具体的にはどれくらい Nemotron4 340B Llama3 70B GPT3 Davinci 175B Llama2 7B
GPT2 1.5B GPT1 0.1B

「⼤規模」って具体的にはどれくらい Nemotron4 340B Llama3 70B GPT3 Davinci 175B Llama2 7B
GPT2 1.5B GPT1 0.1B 約140GB

LLMの「LM」ってなんなのか Large Language Model ⼤規模⾔語モデルパラメータがめちゃくちゃ多い

LLMの「LM」ってなんなのか Large Language Model ⼤規模⾔語モデル⽂章の続きを少し予測するモデルパラメータがめちゃくちゃ多い

「⾔語モデル」は⽂章の続きを少し予測するモデルあしびきの  山鳥  イルカ

「⾔語モデル」は⽂章の続きを少し予測するモデルあしびきの  ⼭⿃⭕  イルカ✘

実際は「出現確率」を推定あしびきの  ⼭⿃ 0.9 を 0.003 イルカ 0.02 酸素 0.002
　︙ 　︙ small 0.0005

⻑く出⼒するために繰り返し実⾏して伸ばす

⻑く出⼒するために繰り返し実⾏して伸ばすトークン（Token）

⻑く出⼒するために繰り返し実⾏して伸ばす

⻑く出⼒するために繰り返し実⾏して伸ばす前のトークン

⻑く出⼒するために繰り返し実⾏して伸ばす新しいトークン前のトークン

「⾔語モデル」が「⼤規模」だと発⽣する問題 Large Language Model ⼤規模⾔語モデル⽂章の続きを少し予測するモデルパラメータがめちゃくちゃ多い

「⾔語モデル」が「⼤規模」だと発⽣する問題 Large Language Model ⼤規模⾔語モデル⽂章の続きを少し予測するモデルパラメータがめちゃくちゃ多い
⼤量のメモリアクセス　　

⻑い⽂章の⽣成に⼤量のメモリアクセスが必要依存により並列化できない ... こんにちは今日
はとてもいい天気です。  

⻑い⽂章の⽣成に⼤量のメモリアクセスが必要依存により並列化できない ... こんにちは今日
はとてもいい天気です。   必要

⻑い⽂章の⽣成に⼤量のメモリアクセスが必要依存により並列化できない⼀回の⽣成ごとに LLMの全パラメータをメモリから読み出す ... こんにち
は今日はとてもいい天気です。  

⻑い⽂章の⽣成に⼤量のメモリアクセスが必要⼀回の⽣成ごとに LLMの全パラメータをメモリから読み出す ... 70B LLMだと 140GBとか依存により並列化できないこ
んにちは今日はとてもいい天気です。  

⽇本速読解⼒協会によると、⽇本⼈の読むスピード 400~600⽂字/分参考 https://www.sokunousokudoku.net/media/?p=9192 Chatでは速度も求められる

Chatでは速度も求められる⽇本速読解⼒協会によると、⽇本⼈の読むスピード 400~600⽂字/分＝10⽂字/秒参考 https://www.sokunousokudoku.net/media/?p=9192 ⽇本語対応LLMはだいたい1⽂字が1トークン

1トークンの⽣成に140GB読み込むとすると 1秒間に10トークン分 1.4TBメモリを読み込む必要がある Chatでは速度も求められる⽇本語対応LLMはだいたい1⽂字が1トークン⽇本速読解⼒協会によると、⽇本⼈の読むスピード 400~600⽂字/分＝10⽂字/秒参考 https://www.sokunousokudoku.net/media/?p=9192

メモリの壁：現代においても⼤量のデータに素早くアクセスするのは困難図は「AI and Memory Wall」( https://arxiv.org/abs/2403.14123 ) から引⽤対数
スケール

メモリの壁：現代においても⼤量のデータに素早くアクセスするのは困難図は「AI and Memory Wall」( https://arxiv.org/abs/2403.14123 ) から引⽤計算性能は20年間で
60000倍

メモリの壁：現代においても⼤量のデータに素早くアクセスするのは困難図は「AI and Memory Wall」( https://arxiv.org/abs/2403.14123 ) から引⽤インターコネクト速度は
20年間で 30倍メモリ速度は 20年間で 100倍

メモリの壁：現代においても⼤量のデータに素早くアクセスするのは困難図は「AI and Memory Wall」( https://arxiv.org/abs/2403.14123 ) から引用速いメモリは
値段が⾼い 20年間で 100倍 20年間で 30倍 20年間で 60000倍

ハードウェアごとの 70B級 LLM（≒140GB）のトークン⽣成速度の理論上限万円⽣成token/sec（理論上限）⽇本⼈の読む速度

ハードウェアごとの 70B級 LLM（≒140GB）のトークン⽣成速度の理論上限万円⽣成token/sec（理論上限）⽇本⼈の読む速度 DDR5-5600 (dual channel)
64GB x4 メモリが多めな最近のデスクトップPC 0.64 token/sec

ハードウェアごとの 70B級 LLM（≒140GB）のトークン⽣成速度の理論上限 NVIDIA A100 80GB PCIe x2 NVIDIA H100
80GB PCIe x2 万円⽣成token/sec（理論上限）⽇本⼈の読む速度 DDR5-5600 (dual channel) 64GB x4

80GB PCIe x2 万円⽣成token/sec（理論上限）日本人の読む速度 DDR5-5600 (dual channel) 64GB x4 80GBに乗り切らないので 2台必要

80GB PCIe x2 万円⽣成token/sec（理論上限）⽇本⼈の読む速度 DDR5-5600 (dual channel) 64GB x4 440万円 1040万円

「速く」「安く」するためになんとかしてモデルデータを⼩さくしたい

モデルデータサイズを⼩さくして「速く」「安く」する⼯夫 • ⼩規模⾔語モデル（SLM） • 量⼦化（Quantization）

個々のパラメータを⼩さくする：量⼦化

個々のパラメータを⼩さくする：量⼦化 4bitだと約1/4に

Llama3-70B 4bit量⼦化（≒35GB＋α）のトークン⽣成速度の実測値（llama.cpp Q4K_M）万円⽣成token/sec（実測値） (DDR5-5600 (dual channel) 32GB
x2 *理論上限) NVIDIA H100 80GB PCIe x1 NVIDIA A100 80GB PCIe x1 ⽇本⼈の読む速度参考：https://github.com/XiongjieDai/GPU-Benchmarks-on-LLM-Inferen

x2 *理論上限) NVIDIA H100 80GB PCIe NVIDIA A100 80GB PCIe 日本人の読む速度参考：https://github.com/XiongjieDai/GPU-Benchmarks-on-LLM-Inference x1 x1 bﬂoat16のときは2個必要だったが量⼦化で必要な個数を減らせる

万円⽣成token/sec（実測値） (DDR5-5600 (dual channel) 32GB x2 *理論上限) NVIDIA H100
80GB PCIe x1 NVIDIA A100 80GB PCIe x1 NVIDIA RTX4090 24GB x2 ⽇本⼈の読む速度量⼦化で安いグラボに乗せられる Llama3-70B 4bit量⼦化（≒35GB＋α）のトークン⽣成速度の実測値（llama.cpp Q4K_M）参考：https://github.com/XiongjieDai/GPU-Benchmarks-on-LLM-Inference

x2 *理論上限) NVIDIA H100 80GB PCIe x1 NVIDIA A100 80GB PCIe x1 70万円 NVIDIA RTX4090 24GB x2 ⽇本⼈の読む速度参考：https://github.com/XiongjieDai/GPU-Benchmarks-on-LLM-Inference

量⼦化でLLMがスマホで動かせる llama.cppのAndroid example モデル： Mistral-7B 4bit量⼦化 Android端末：Umidigi-A13-Pro-Max 12GB RAM

4bitまでの量⼦化であれば精度はほとんど落ちない図は https://github.com/ggerganov/llama.cpp/pull/5747 から引⽤

モデルデータサイズを⼩さくして「速く」「安く」する⼯夫 • ⼩規模⾔語モデル（SLM） • 量⼦化（Quantization）

元から⼩さい：⼩規模⾔語モデル（SLM）元からモデルを⼩さくしておけばいいじゃん！ https://www.llama.com/ から引⽤ llama3.2の1B, 3Bモデル

元から⼩さい：⼩規模⾔語モデル（SLM）元からモデルを⼩さくしておけばいいじゃん！でも性能が悪くなってしまうのでは？

元から⼩さい：⼩規模⾔語モデル（SLM） • ⽤途を限定 • 学習トークン量を⼤幅に増やす元からモデルを⼩さくしておけばいいじゃん！でも性能が悪くなってしまうのでは？

元から小さい：小規模言語モデル（ SLM）元からモデルを小さくしておけばいいじゃん！でも性能が悪くなってしまうのでは？ • 用途を限定 • 学習トークン量を大幅に増やす

学習トークン量を増やすと精度を維持できる図は https://www.harmdevries.com/post/model-size-vs-compute-overhead/ から引用 Chinchillaスケーリング則を元にモデルサイズ（とトークン量）を変えて同⼀の精度のモデルのライン学習コストの増加⽐率モデルサイズの⽐率

学習トークン量を増やすと精度を維持できる図は https://www.harmdevries.com/post/model-size-vs-compute-overhead/ から引用 Chinchillaスケーリング則を元にモデルサイズ（とトークン量）を変えて同⼀の精度のモデルのライン学習コストの増加⽐率モデルサイズの⽐率
基準

学習トークン量を増やすと精度を維持できる図は https://www.harmdevries.com/post/model-size-vs-compute-overhead/ から引用モデルを⼤きくすると同⼀精度を達成するための学習コストは緩やかに⼤きくなる学習コストの増加⽐率モデルサイズの⽐率
基準

学習トークン量を増やすと精度を維持できる図は https://www.harmdevries.com/post/model-size-vs-compute-overhead/ から引用モデルを⼩さくすると同⼀精度を達成するための学習コストは急激に⼤きくなる学習コストの増加⽐率モデルサイズの⽐率
基準

学習コストの増加⽐率モデルサイズの⽐率学習トークン量を増やすと精度を維持できる図は https://www.harmdevries.com/post/model-size-vs-compute-overhead/ から引用基準モデルを⼩さくすると同⼀精度を達成するための
学習コストは急激に⼤きくなる登ろう！！

PFNのSLM：PLaMo-1B 1BのLLMは Chinchillaスケーリング則では 20B tokenが学習コスト最適

PFNのSLM：PLaMo-1B ※ https://www.preferred.jp/ja/news/pr20240828/ リリース時点での情報 1BのLLMは Chinchillaスケーリング則では 20B tokenが学習コスト最適 4T(=4000B)超 tokenで学習

PFNのSLM：PLaMo-1B 1BのLLMは Chinchillaスケーリング則では 20B tokenが学習コスト最適 1Bで 13BのLLMよりも⾼い⽇本語性能 4T(=4000B)超 tokenで学習
※ https://www.preferred.jp/ja/news/pr20240828/ リリース時点での情報

LLMの利⽤は今後ますます重要になる LLMを速く動かすにはメモリアクセス速度が重要⾼速化、省コスト化は量⼦化や⼩規模⾔語モデル（SLM）で対応まとめ

補⾜：Apple Mシリーズ万円⽣成token/sec（実測値） (DDR5-5600 (dual channel) 32GB x2 *理論上限)
NVIDIA H100 80GB PCIe x1 NVIDIA A100 80GB PCIe x1 参考：https://github.com/XiongjieDai/GPU-Benchmarks-on-LLM-Inference ⽇本⼈の読む速度 NVIDIA RTX4090 24GB x2 Apple M2 Ultra 192GB 300W  900W 

LLMを「速く」「安く」 動かすには / CloudNative Days Winter 2024

LLMを「速く」「安く」 動かすには / CloudNative Days Winter 2024

More Decks by Preferred Networks

Other Decks in Technology

Featured

Transcript

LLMを「速く」「安く」動かすには / CloudNative Days Winter 2024

LLMを「速く」「安く」動かすには / CloudNative Days Winter 2024