Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ローカルLLM基礎知識 / local LLM basics 2025
Search
Naoki Kishida
November 22, 2025
Technology
2
580
ローカルLLM基礎知識 / local LLM basics 2025
2025-11-22に開催された「第1回 ローカルLLMなんでも勉強会」での登壇資料です。
Naoki Kishida
November 22, 2025
Tweet
Share
More Decks by Naoki Kishida
See All by Naoki Kishida
AIエージェントでのJava開発がはかどるMCPをAIを使って開発してみた / java mcp for jjug
kishida
4
690
AIの弱点、やっぱりプログラミングは人間が(も)勉強しよう / YAPC AI and Programming
kishida
9
5.1k
海外登壇の心構え - コワクナイヨ - / how to prepare for a presentation abroad
kishida
2
80
Current States of Java Web Frameworks at JCConf 2025
kishida
0
1.4k
AIを活用し、今後に備えるための技術知識 / Basic Knowledge to Utilize AI
kishida
24
6.8k
LLMベースAIの基本 / basics of LLM based AI
kishida
13
3.4k
Java 24まとめ / Java 24 summary
kishida
3
790
AI時代のプログラミング教育 / programming education in ai era
kishida
25
26k
Java Webフレームワークの現状 / java web framework at burikaigi
kishida
10
2.6k
Other Decks in Technology
See All in Technology
PostgreSQL で列データ”ファイル”を利用する ~Arrow/Parquet を統合したデータベースの作成~
kaigai
0
130
ABEMAのCM配信を支えるスケーラブルな分散カウンタの実装
hono0130
4
1k
やり方は一つだけじゃない、正解だけを目指さず寄り道やその先まで自分流に楽しむ趣味プログラミングの探求 2025-11-15 YAPC::Fukuoka
sugyan
3
880
なぜインフラコードのモジュール化は難しいのか - アプリケーションコードとの本質的な違いから考える
mizzy
60
21k
[CV勉強会@関東 ICCV2025] WoTE: End-to-End Driving with Online Trajectory Evaluation via BEV World Model
shinkyoto
0
280
ABEJA FIRST GUIDE for Software Engineers
abeja
0
3.2k
プロダクト負債と歩む持続可能なサービスを育てるための挑戦
sansantech
PRO
1
470
re:Invent2025 事前勉強会 歴史と愉しみ方10分LT編
toshi_atsumi
0
180
AWS re:Invent 2025 で頻出の 生成 AI サービスをおさらい
komakichi
2
130
Post-AIコーディング時代のエンジニア生存戦略
shinoyu
0
300
Error.prototype.stack の今と未来
progfay
1
180
Capitole du Libre 2025 - Keynote - Cloud du Coeur
ju_hnny5
0
120
Featured
See All Featured
Build The Right Thing And Hit Your Dates
maggiecrowley
38
2.9k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
285
14k
What’s in a name? Adding method to the madness
productmarketing
PRO
24
3.8k
Context Engineering - Making Every Token Count
addyosmani
9
400
The Art of Programming - Codeland 2020
erikaheidi
56
14k
Designing for humans not robots
tammielis
254
26k
Principles of Awesome APIs and How to Build Them.
keavy
127
17k
Producing Creativity
orderedlist
PRO
348
40k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
1.8k
The Power of CSS Pseudo Elements
geoffreycrofte
80
6.1k
The Illustrated Children's Guide to Kubernetes
chrisshort
51
51k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
34
2.3k
Transcript
ローカルLLM基礎知識 2025-11-22 ローカルLLM勉強会 きしだ なおき
2025/11/22 2 自己紹介 • きしだ なおき • LINEヤフー • X(twitter):
@kis • blog: きしだのHatena • (nowokay.hatenablog.com) • 「プロになるJava」というJavaの本を書いてます
3 ローカルLLMとは • 自分(たち)のために動かすLLM • 今回は、個人が手元のPCで動かす前提 • 大人数で使う場合には様々な管理が必要 • 今回はスコープ外
ローカルLLMのメリット • ネットがなくても使える • 自分でコントロールできる • データを外に送らない • カスタマイズできる •
勉強になる • かわいい
LLMの仕組み • LLMを中心とした反応システム • LLM=大規模言語モデル • 言語を扱う大規模なニューラルネットワーク • Transformerを基本とする •
仕組み的には、文章の続きを生成
Transformer • 2017にGoogleが発表 • Attention is All You Need •
アテンション • 文章中の単語がどの単語を注目しているか • O(n^2) • パラメータ数 • アテンションやFFNの重みの数
LLMを動かすのに必要なメモリ • 16bit floatの場合、1パラメータにつき2バイト • 7Bモデル(70億パラメータ)なら14GB • 8bit量子化 • 8bitにまるめても性能があまり変わらない
• 7Bモデルなら7GB • 4bit量子化 • 4bitでも案外性能が落ちない • 7Bモデルなら3.5GB
MoE(Mixture of Experts) (GPT-4) • FFNは知識をうけもつ • すべての知識を同時に使うことはない • 多数の専門家モデルを持っておいて、
推論時に必要なモデルだけを呼び出 すことでリソースを節約 • GPT-oss 120B • エキスパート数 128 • アクティブパラメータ数5.1B
マルチモーダル • 文書と画像などを扱えるモデル • 画像とテキストの対応を学習 • CLIP • CLIPのベクトルをLLMに入れると 画像対応LLMがつくれる
ローカルLLMを動かすハードウェア • 単体GPU • CPU+GPU(128GB) 製品 メモリ 価格 RTX 5060
Ti 16GB ¥75,000 RTX 4090 24GB ¥400,000 RTX 5090 32GB ¥500,000 RTX PRO 5000 48GB ¥800,000 RTX PRO 6000 96GB 1,400,000 製品 Mac Studio ¥730,000 MacBook Pro ¥920,000 EVO X2 ¥320,000 DGX Spark ¥700,000
とはいえサーバー • Open Router • いろいろ動かせる • さくらのAI • GPT-oss
120Bや Qwen3 Coder 480Bなど • 3000回 / 月まで無料
AIは100倍速くなる • 今後、AIがこれ以上賢くなるかどうかはわからない • 確実に速くなっていく • CerebrasでQwen3 Coder 480Bが2600tok/sec •
Cerebrasはウェハーサイズのプロセッサを作っている
ローカルLLMのモデル • お手頃 〜32B • Qwen3 (0.6~32B), Gemma 3(0.6〜27B), GPT-oss
20B • 大きめ 〜120B • Qwen3-Next 80B, GPT-oss 120B, GLM 4.5 Air(106B) • 大きい 〜300B • MiniMax M2(230B), Qwen3 235B, GLM 4.6(355B) • 巨大 〜1T • Kimi K2(1T), DeepSeek R2(671B)
マルチモーダル • 画像言語モデル • Qwen3-VL, GLM-4.5V, Llama 4, Gemma 3
LLMを動かすフレームワーク • PyTorch • 機械学習定番フレームワーク • Hugging Face Transformers(Python) •
LLM作成フレームワーク • Llama.cpp(GGUF) • C++で実装したエンジン。モデル形式はGGUF。量子化がある • MLX • Apple Sililcon用行列計算フレームワーク • Unsloth • 動的量子化、ファインチューンフレームワーク
ローカルLLMの実行環境 • LM Studio • llama.cpp • Ollama • vLLM
• Docker • Open WebUI
LM Studio • LLM統合環境 • 便利 • おすすめ
llama.cpp • LLM実行エンジン • LM StudioもOllamaも内部で使う • サーバー機能を持っている • 軽量でプログラムから使いやすい
• 30MBくらい(+モデルが3GBくらい)
Ollama • 個人用LLM実行サーバー • あまり便利ではない • モデルを独自形式で保持 • ファイル操作できない •
モデルの選択肢が不自由 • 量子化などを選べない
vLLM • サービス向け実行サーバー • ちょっとおおげさ
Docker • Dockerが入ってるなら手軽 • docker model run ai/gpt-oss:20B
Open WebUI • Web用UI • LLMを動かす機能は持たない • LM Studioなどに接続
ファインチューニング • LLMのカスタマイズ • ファインチューニングの分類 • CPT(継続事前学習) • 知識を教える •
SFT(教師ありファインチューニング) • よいやりとりを教える • RLHF(人間の評価による強化学習) • 出力結果に点をつける • DPO(直接的な選考最適化) • 質問に対してよい応答とよくない応答を教える
ファインチューニングで考えること • データセットは? • どこで実行する? • NVIDIA GPUが必要 • モデルは?
• どう実行する? • どう試す?
データセットは? • がんばってググる • 自分で作る • 人力でがんばる • LLMに作らせる(ライセンス注意) •
コンパイルエラー解説データ セットを作成中
どこで実行する? • ファインチューンのフレームワーク(Unsloth)がCUDA前提なので NVIDIA GPUが必要 • 軽く試すならGoogle Colabがおすすめ • https://colab.research.google.com/
モデルは? • 確保できたハードウェアでトレーニングできるサイズ • 8Bや14Bくらい。 • Gemma 3やQwen 3、Llama 3
どう実行する? • Unslothフレームワーク • unsloth + finetuneで検索 • Colab Notebookが用意されている
• 学習パラメータなど試行錯誤
できたモデルどう試す? • 趣味なら雰囲気で!
実際のところは? • おそらくローカルLLMは小さい単機能な用途が多いはず • 大きいモデルでデータセットを作って、より小さいモデルをファ インチューンして動かせればコストも安くレスポンスもよい • 同じことを小さいモデルで動かせるようになれば勝ち