Slide 56
Slide 56 text
万円
⽣成token/sec(実測値)
(DDR5-5600 (dual channel) 32GB x2 *理論上限)
NVIDIA H100
80GB PCIe x1
NVIDIA A100 80GB PCIe x1
NVIDIA
RTX4090 24GB x2 ⽇本⼈の
読む速度
量⼦化で安いグラボ
に乗せられる
Llama3-70B 4bit量⼦化(≒35GB+α)の
トークン⽣成速度の実測値(llama.cpp Q4K_M)
参考:https://github.com/XiongjieDai/GPU-Benchmarks-on-LLM-Inference