Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Hugging Faceを使いこなして ローカルLLMを推論する

Shota Totsuka
June 01, 2024
800

Hugging Faceを使いこなして ローカルLLMを推論する

Shota Totsuka

June 01, 2024
Tweet

Transcript

  1. 自己紹介 - 戸塚翔太(Blueish) - Go, Rust, Python - 生成AI, 機械学習

    - 松尾研GENIAC開発メンバーとして参加 - 静岡県(浜松)に住んでます - 近くの方がいれば、一緒に勉強会しましょう - X: @totsumaru_dot
  2. 2. Hugging Faceの全体像 - Hugging Face Hub - Transformers -

    Diffusers - Datasets - Tokenizers - Accelerate - …etc - とにかく機能が多い Hugging Face documentations
  3. 2. Hugging Faceの全体像 【Hub】 - Models - Datasets - Spaces

    - Repositories *モデルカード(README)を確認してください 【Libraries】 - Transformers - Datasets - Tokenizers
  4. 3. Hugging Face環境で推論する Google Colabや手元のPCでなく、Hugging Faceの環境でLLMを動かせる。 # やり方は2通り - Spacesを使用する

    - Inference API(推論API)を使用する # 注意 - 無料枠には制限がある - そもそも使えないモデルもある↑ $9でNvidia A100 40GB vRAMが使えるようになった! → ZeroGPU Spaces To get full optimization To run private models To get access to GPU inference
  5. 3. Hugging Face環境で推論する ② Inference API(推論API)を使用する - モデル名, Tokenを用意して、cURLで推論できる -

    モデルサイズが大きいものはエラーが出る - Proプラン($9.00/month)加入で制限が大きく緩和 { "error": "The model meta-llama/Meta-Llama-3-8B is too large to be loaded automatically (16GB > 10GB). Please use Spaces (https://huggingface.co/spaces) or Inference Endpoints (https://huggingface.co/inference-endpoints)." } Hubの各モデルにもある
  6. 4. Google Colabで推論する - Transformers - まずはpipelineを使う - Datasets -

    Tokenizers たったこれだけのコードで推論ができる