ローカルLLM基礎知識 / local LLM basics 2025

by Naoki Kishida

Embed

Start on current slide

Slide 1

Slide 1 text

ローカルLLM基礎知識 2025-11-22 ローカルLLM勉強会きしだなおき 11/23 ※ 各モデルの説明も追記しました

Slide 2

Slide 2 text

2025/11/23 2 自己紹介 ● きしだなおき ● LINEヤフー ● X(twitter): @kis ● blog: きしだのHatena ● (nowokay.hatenablog.com) ● 「プロになるJava」というJavaの本を書いてます

Slide 3

Slide 3 text

3 ローカルLLMとは ● 自分(たち)のために動かすLLM ● 今回は、個人が手元のPCで動かす前提 ● 大人数で使う場合には様々な管理が必要 ● 今回はスコープ外

Slide 4

Slide 4 text

ローカルLLMのメリット ● ネットがなくても使える ● 自分でコントロールできる ● データを外に送らない ● カスタマイズできる ● 勉強になる ● かわいい

Slide 5

Slide 5 text

LLMの仕組み ● LLM=大規模言語モデル ● 言語を扱う大規模なニューラルネットワーク ● Transformerを基本とする ● 仕組み的には、文章の続きを生成 ● AI = LLMを中心とした応答システム

Slide 6

Slide 6 text

Transformer ● 2017にGoogleが発表 ● Attention is All You Need ● アテンション ● 文章中の単語がどの単語を注目しているか ● O(n^2) ● パラメータ数 ● アテンションやFFNの重みの数

Slide 7

Slide 7 text

LLMを動かすのに必要なメモリ ● 16bit floatの場合、1パラメータにつき2バイト ● 7Bモデル(70億パラメータ)なら14GB ● 8bit量子化 ● 8bitにまるめても性能があまり変わらない ● 7Bモデルなら7GB ● 4bit量子化 ● 4bitでも案外性能が落ちない ● 7Bモデルなら3.5GB

Slide 8

Slide 8 text

MoE(Mixture of Experts) (GPT-4) ● FFNは知識をうけもつ ● すべての知識を同時に使うことはない ● 多数の専門家モデルを持っておいて、推論時に必要なモデルだけを呼び出すことでリソースを節約 ● GPT-oss 120B ● エキスパート数 128 ● アクティブパラメータ数5.1B

Slide 9

Slide 9 text

マルチモーダル ● 文書と画像などを扱えるモデル ● 画像とテキストの対応を学習 ● CLIP ● CLIPのベクトルをLLMに入れると画像対応LLMがつくれる

Slide 10

Slide 10 text

ローカルLLMを動かすハードウェア ● 単体GPU ● CPU+GPU(128GB) 製品メモリ価格 RTX 5060 Ti 16GB ¥75,000 RTX 4090 24GB ¥400,000 RTX 5090 32GB ¥500,000 RTX PRO 5000 48GB ¥800,000 RTX PRO 6000 96GB 1,400,000 製品 Mac Studio ¥730,000 MacBook Pro ¥920,000 EVO X2 ¥320,000 DGX Spark ¥700,000

Slide 11

Slide 11 text

とはいえサーバー ● Open Router ● いろいろ動かせる ● さくらのAI ● GPT-oss 120Bや Qwen3 Coder 480Bなど ● 3000回 / 月まで無料

Slide 12

Slide 12 text

AIは100倍速くなる ● 今後、AIがこれ以上賢くなるかどうかはわからない ● 確実に速くなっていく ● CerebrasでQwen3 Coder 480Bが2600tok/sec ● Cerebrasはウェハーサイズのプロセッサを作っている

Slide 13

Slide 13 text

ローカルLLMのモデル ● お手頃〜32B ● Qwen3 (0.6~32B), Gemma 3(0.6〜27B), GPT-oss 20B ● 大きめ〜120B ● Qwen3-Next 80B, GPT-oss 120B, GLM 4.5 Air(106B) ● 大きい〜300B ● MiniMax M2(230B), Qwen3 235B, GLM 4.6(355B) ● 巨大〜1T ● Kimi K2(1T), DeepSeek R2(671B)

Slide 14

Slide 14 text

お手頃モデル ● ふつうのPCで動かせる。 ● チャットをまともにやろうとしたら8B以上 ● 商用AIの簡易版として使うならGPT-oss 20B ● 4Bまでは、特定用途単機能で考えるのがいい ● GPT-oss 20B ● OpenAI、mxfp4で量子化 ● Qwen3 30B-A3B, 32B, 14B, 8B, 4B, 1.7B, 0.6B ● Alibaba、小さいモデルでも性能が高い ● Gemma 3 27B, 12B, 4B, 1B, 270m ● Google、大きいモデル含め、オープンウェイトで最も日本語が流暢。

Slide 15

Slide 15 text

大きめモデル ● MacやEVO X2、DGX Sparkで動かす ● 普通にChatGPTなどの代替になりだす ● MoEが基本(アクティブパラメータをAnBと表記) ● GPT-oss 120B (A5.5B) ● 賢いけど日本語力はちょっと弱い ● GLM 4.5 Air(106B-A12B) ● Z.ai、賢いし日本語もGemma 3並にうまい。おすすめ ● Qwen3 Next 80B-A3B ● 単発では賢いけどマルチターンは弱そう

Slide 16

Slide 16 text

大きい ● Mac Studioで動かせるけどコンテキストが長くなると重い ● GLM 4.6(355B-A32B) ● かなりいい。コードも結構書ける ● Qwen3 235B-A22B ● 単発でかなり賢いけどマルチターンでは弱い感じがある。 ● MiniMax M2(230B-A10B) ● 日本語が全くだめ。Roo Codeが使えないなど、少し残念。 ● Roo Codeの問題は報告したら対策中とのこと。

Slide 17

Slide 17 text

巨大モデル ● MacStudioで一応1bit量子化で動かせるけど重くて使い物にはならない。 ● DeepSeek V3.1(685B-A37B) ● 大きさの割にはそんなに賢くない気がする ● Kimi K2(1T-A32B) ● オープンウェイトでは最大 ● 性能にも大きさが反映されて、商用モデルの無償版となら張り合えそう ● 日本語もかなり書ける ● 手元のパソコンで動かないのだけが残念

Slide 18

Slide 18 text

マルチモーダル ● 画像言語モデル ● Qwen3-VL, GLM-4.5V, Llama 4, Gemma 3

Slide 19

Slide 19 text

LLMを動かすフレームワーク ● PyTorch ● 機械学習定番フレームワーク ● Hugging Face Transformers(Python) ● LLM作成フレームワーク ● Llama.cpp(GGUF) ● C++で実装したエンジン。モデル形式はGGUF。量子化がある ● MLX ● Apple Sililcon用行列計算フレームワーク ● Unsloth ● 動的量子化、ファインチューンフレームワーク

Slide 20

Slide 20 text

ローカルLLMの実行環境 ● LM Studio ● llama.cpp ● Ollama ● vLLM ● Docker ● Open WebUI

Slide 21

Slide 21 text

LM Studio ● LLM統合環境 ● 便利 ● おすすめ

Slide 22

Slide 22 text

llama.cpp ● LLM実行エンジン ● LM StudioもOllamaも内部で使う ● サーバー機能を持っている ● 軽量でプログラムから使いやすい ● 30MBくらい(+モデルが3GBくらい)

Slide 23

Slide 23 text

Ollama ● 個人用LLM実行サーバー ● あまり便利ではない ● モデルを独自形式で保持 ● ファイル操作できない ● モデルの選択肢が不自由 ● 量子化などを選べない

Slide 24

Slide 24 text

vLLM ● サービス向け実行サーバー ● ちょっとおおげさ

Slide 25

Slide 25 text

Docker ● Dockerが入ってるなら手軽 ● docker model run ai/gpt-oss:20B

Slide 26

Slide 26 text

Open WebUI ● Web用UI ● LLMを動かす機能は持たない ● LM Studioなどに接続

Slide 27

Slide 27 text

ファインチューニング ● LLMのカスタマイズ ● ファインチューニングの分類 ● CPT(継続事前学習) ● 知識を教える ● SFT(教師ありファインチューニング) ● よいやりとりを教える ● RLHF(人間の評価による強化学習) ● 出力結果に点をつける ● DPO(直接的な選考最適化) ● 質問に対してよい応答とよくない応答を教える

Slide 28

Slide 28 text

ファインチューニングで考えること ● データセットは？ ● どこで実行する？ ● NVIDIA GPUが必要 ● モデルは？ ● どう実行する？ ● どう試す？

Slide 29

Slide 29 text

データセットは？ ● がんばってググる ● 自分で作る ● 人力でがんばる ● LLMに作らせる(ライセンス注意) ● コンパイルエラー解説データセットを作成中

Slide 30

Slide 30 text

どこで実行する？ ● ファインチューンのフレームワーク(Unsloth)がCUDA前提なので NVIDIA GPUが必要 ● 軽く試すならGoogle Colabがおすすめ ● https://colab.research.google.com/

Slide 31

Slide 31 text

モデルは？ ● 確保できたハードウェアでトレーニングできるサイズ ● 8Bや14Bくらい。 ● Gemma 3やQwen 3、Llama 3

Slide 32

Slide 32 text

どう実行する？ ● Unslothフレームワーク ● unsloth + finetuneで検索 ● Colab Notebookが用意されている ● 学習パラメータなど試行錯誤

Slide 33

Slide 33 text

できたモデルどう試す？ ● 趣味なら雰囲気で！

Slide 34

Slide 34 text

実際のところは？ ● おそらくローカルLLMは小さい単機能な用途が多いはず ● 大きいモデルでデータセットを作って、より小さいモデルをファインチューンして動かせればコストも安くレスポンスもよい ● 同じことを小さいモデルで動かせるようになれば勝ち