Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

ローカルLLM基礎知識 / local LLM basics 2025

ローカルLLM基礎知識 / local LLM basics 2025

2025-11-22に開催された「第1回 ローカルLLMなんでも勉強会」での登壇資料です。

Avatar for Naoki Kishida

Naoki Kishida

November 22, 2025
Tweet

More Decks by Naoki Kishida

Other Decks in Technology

Transcript

  1. 2025/11/23 2 自己紹介 • きしだ なおき • LINEヤフー • X(twitter):

    @kis • blog: きしだのHatena • (nowokay.hatenablog.com) • 「プロになるJava」というJavaの本を書いてます
  2. Transformer • 2017にGoogleが発表 • Attention is All You Need •

    アテンション • 文章中の単語がどの単語を注目しているか • O(n^2) • パラメータ数 • アテンションやFFNの重みの数
  3. MoE(Mixture of Experts) (GPT-4) • FFNは知識をうけもつ • すべての知識を同時に使うことはない • 多数の専門家モデルを持っておいて、

    推論時に必要なモデルだけを呼び出 すことでリソースを節約 • GPT-oss 120B • エキスパート数 128 • アクティブパラメータ数5.1B
  4. ローカルLLMを動かすハードウェア • 単体GPU • CPU+GPU(128GB) 製品 メモリ 価格 RTX 5060

    Ti 16GB ¥75,000 RTX 4090 24GB ¥400,000 RTX 5090 32GB ¥500,000 RTX PRO 5000 48GB ¥800,000 RTX PRO 6000 96GB 1,400,000 製品 Mac Studio ¥730,000 MacBook Pro ¥920,000 EVO X2 ¥320,000 DGX Spark ¥700,000
  5. ローカルLLMのモデル • お手頃 〜32B • Qwen3 (0.6~32B), Gemma 3(0.6〜27B), GPT-oss

    20B • 大きめ 〜120B • Qwen3-Next 80B, GPT-oss 120B, GLM 4.5 Air(106B) • 大きい 〜300B • MiniMax M2(230B), Qwen3 235B, GLM 4.6(355B) • 巨大 〜1T • Kimi K2(1T), DeepSeek R2(671B)
  6. お手頃モデル • ふつうのPCで動かせる。 • チャットをまともにやろうとしたら8B以上 • 商用AIの簡易版として使うならGPT-oss 20B • 4Bまでは、特定用途単機能で考えるのがいい

    • GPT-oss 20B • OpenAI、mxfp4で量子化 • Qwen3 30B-A3B, 32B, 14B, 8B, 4B, 1.7B, 0.6B • Alibaba、小さいモデルでも性能が高い • Gemma 3 27B, 12B, 4B, 1B, 270m • Google、大きいモデル含め、オープンウェイトで最も日本語が流暢。
  7. 大きめモデル • MacやEVO X2、DGX Sparkで動かす • 普通にChatGPTなどの代替になりだす • MoEが基本(アクティブパラメータをAnBと表記) •

    GPT-oss 120B (A5.5B) • 賢いけど日本語力はちょっと弱い • GLM 4.5 Air(106B-A12B) • Z.ai、賢いし日本語もGemma 3並にうまい。おすすめ • Qwen3 Next 80B-A3B • 単発では賢いけどマルチターンは弱そう
  8. 大きい • Mac Studioで動かせるけどコンテキストが長くなると重い • GLM 4.6(355B-A32B) • かなりいい。コードも結構書ける •

    Qwen3 235B-A22B • 単発でかなり賢いけどマルチターンでは弱い感じがある。 • MiniMax M2(230B-A10B) • 日本語が全くだめ。Roo Codeが使えないなど、少し残念。 • Roo Codeの問題は報告したら対策中とのこと。
  9. 巨大モデル • MacStudioで一応1bit量子化で動かせるけど重くて使い物にはな らない。 • DeepSeek V3.1(685B-A37B) • 大きさの割にはそんなに賢くない気がする •

    Kimi K2(1T-A32B) • オープンウェイトでは最大 • 性能にも大きさが反映されて、商用モデルの無償版となら張り合えそう • 日本語もかなり書ける • 手元のパソコンで動かないのだけが残念
  10. LLMを動かすフレームワーク • PyTorch • 機械学習定番フレームワーク • Hugging Face Transformers(Python) •

    LLM作成フレームワーク • Llama.cpp(GGUF) • C++で実装したエンジン。モデル形式はGGUF。量子化がある • MLX • Apple Sililcon用行列計算フレームワーク • Unsloth • 動的量子化、ファインチューンフレームワーク
  11. ファインチューニング • LLMのカスタマイズ • ファインチューニングの分類 • CPT(継続事前学習) • 知識を教える •

    SFT(教師ありファインチューニング) • よいやりとりを教える • RLHF(人間の評価による強化学習) • 出力結果に点をつける • DPO(直接的な選考最適化) • 質問に対してよい応答とよくない応答を教える