3. Hugging Face環境で推論する
Google Colabや手元のPCでなく、Hugging Faceの環境でLLMを動かせる。
# やり方は2通り
- Spacesを使用する
- Inference API(推論API)を使用する
# 注意
- 無料枠には制限がある
- そもそも使えないモデルもある↑
$9でNvidia A100 40GB vRAMが使えるようになった!
→ ZeroGPU Spaces
To get full optimization
To run private models
To get access to GPU inference
3. Hugging Face環境で推論する
① Spacesを使用する
- 各モデルの「Deploy」からも簡単にデプロイできる
- コードを書かずにボタンを押すだけで、テンプレートコードがデプロイできる
Slide 17
Slide 17 text
3. Hugging Face環境で推論する
② Inference API(推論API)を使用する
- モデル名, Tokenを用意して、cURLで推論できる
- モデルサイズが大きいものはエラーが出る
- Proプラン($9.00/month)加入で制限が大きく緩和
{ "error": "The model meta-llama/Meta-Llama-3-8B is too large to
be loaded automatically (16GB > 10GB). Please use Spaces
(https://huggingface.co/spaces) or Inference Endpoints
(https://huggingface.co/inference-endpoints)." }
Hubの各モデルにもある