Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Hugging Faceを使いこなして ローカルLLMを推論する

Avatar for Shota Totsuka Shota Totsuka
June 01, 2024
1k

Hugging Faceを使いこなして ローカルLLMを推論する

Avatar for Shota Totsuka

Shota Totsuka

June 01, 2024
Tweet

More Decks by Shota Totsuka

Transcript

  1. 自己紹介 - 戸塚翔太(Blueish) - Go, Rust, Python - 生成AI, 機械学習

    - 松尾研GENIAC開発メンバーとして参加 - 静岡県(浜松)に住んでます - 近くの方がいれば、一緒に勉強会しましょう - X: @totsumaru_dot
  2. 2. Hugging Faceの全体像 - Hugging Face Hub - Transformers -

    Diffusers - Datasets - Tokenizers - Accelerate - …etc - とにかく機能が多い Hugging Face documentations
  3. 2. Hugging Faceの全体像 【Hub】 - Models - Datasets - Spaces

    - Repositories *モデルカード(README)を確認してください 【Libraries】 - Transformers - Datasets - Tokenizers
  4. 3. Hugging Face環境で推論する Google Colabや手元のPCでなく、Hugging Faceの環境でLLMを動かせる。 # やり方は2通り - Spacesを使用する

    - Inference API(推論API)を使用する # 注意 - 無料枠には制限がある - そもそも使えないモデルもある↑ $9でNvidia A100 40GB vRAMが使えるようになった! → ZeroGPU Spaces To get full optimization To run private models To get access to GPU inference
  5. 3. Hugging Face環境で推論する ② Inference API(推論API)を使用する - モデル名, Tokenを用意して、cURLで推論できる -

    モデルサイズが大きいものはエラーが出る - Proプラン($9.00/month)加入で制限が大きく緩和 { "error": "The model meta-llama/Meta-Llama-3-8B is too large to be loaded automatically (16GB > 10GB). Please use Spaces (https://huggingface.co/spaces) or Inference Endpoints (https://huggingface.co/inference-endpoints)." } Hubの各モデルにもある
  6. 4. Google Colabで推論する - Transformers - まずはpipelineを使う - Datasets -

    Tokenizers たったこれだけのコードで推論ができる