Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ローカルLLMでどこまでコードが書けるか / How much code can be wri...
Search
Naoki Kishida
May 13, 2026
Programming
430
2
Share
ローカルLLMでどこまでコードが書けるか / How much code can be written on a local LLM
2026/5/13のイベントでの登壇資料です
https://levtechlab.connpass.com/event/389511/
Naoki Kishida
May 13, 2026
More Decks by Naoki Kishida
See All by Naoki Kishida
Javaの型とAI時代に型が大事な理由 / java types and type in AI era
kishida
2
100
ローカルLLM基礎知識 / local LLM basics 2025
kishida
30
17k
AIエージェントでのJava開発がはかどるMCPをAIを使って開発してみた / java mcp for jjug
kishida
5
1.2k
AIの弱点、やっぱりプログラミングは人間が(も)勉強しよう / YAPC AI and Programming
kishida
13
6.8k
海外登壇の心構え - コワクナイヨ - / how to prepare for a presentation abroad
kishida
2
170
Current States of Java Web Frameworks at JCConf 2025
kishida
0
1.8k
AIを活用し、今後に備えるための技術知識 / Basic Knowledge to Utilize AI
kishida
27
7.4k
LLMベースAIの基本 / basics of LLM based AI
kishida
13
3.7k
Java 24まとめ / Java 24 summary
kishida
3
860
Other Decks in Programming
See All in Programming
AI駆動開発で崩れていくコードベースを立て直す
kyoko_nr_nr
1
430
肥大化するレガシーコードに立ち向かうためのインターフェース分離と依存の逆転 / JJUG CCC 2026 Spring
hirokunimaeta
0
490
Lessons from Spec-Driven Development
simas
PRO
0
140
メソッドのジェネリクスでGoの夢は広がるか? / Kyoto.go #65
utgwkk
3
470
AIチームを指揮するOSS「TAKT」活用術 / How to Use “TAKT,” an OSS Tool for Orchestrating AI Teams
nrslib
6
820
生成AI時代にこそ効くGo | Why Go Works in the Age of Generative AI
mom0tomo
8
3.1k
CLIであることを活かしたGitHub Copilot CLI活用術 / GitHub Copilot CLI Pro Tips & Tricks
nao_mk2
1
1.2k
Webフレームワークの ベンチマークについて
yusukebe
0
100
These Five Tricks Can Make Your Apps Greener, Cheaper, & Nicer
hollycummins
0
270
Signal Forms: Beyond the Basics @ngBaguette 2026 in Paris
manfredsteyer
PRO
0
220
キャリア迷子上等 ─ "ない道"は自分で作ればいい
16bitidol
2
310
気づいたらRubyで100作品 ー クリエイティブコーディングが生活の一部になるまで / 100 Ruby Sketches Later: How Creative Coding Became Part of My Life
chobishiba
3
540
Featured
See All Featured
HTML-Aware ERB: The Path to Reactive Rendering @ RubyCon 2026, Rimini, Italy
marcoroth
1
150
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
65
55k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3.2k
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
520
Un-Boring Meetings
codingconduct
0
310
Producing Creativity
orderedlist
PRO
348
40k
What does AI have to do with Human Rights?
axbom
PRO
1
2.2k
Building an army of robots
kneath
306
46k
Become a Pro
speakerdeck
PRO
31
6k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
The Illustrated Children's Guide to Kubernetes
chrisshort
51
52k
Design of three-dimensional binary manipulators for pick-and-place task avoiding obstacles (IECON2024)
konakalab
0
440
Transcript
ローカルLLMでどこまでコードが書けるのか 2026-05-13 レバテックLAB 「ローカルLLM 組織での“実運用”の可能性」 きしだ なおき
05/13/2026 2 自己紹介 • きしだ なおき • X(twitter): @kis •
サブスクも始めました。 • blog: きしだのHatena • (nowokay.hatenablog.com) • 「プロになるJava」というJavaの本を書いてます
3 2023年からの3年で おうちで動くLLMはどう変わったか
2023 「動いて偉い!」 • チャットのできるモデルが出始める • 日本語を学習させないと 日本語は話せない • 「対話できてえらい」 「聞いたことに答えてくれて
偉い」
2024「まともに動く!」 • まともな意味のある長文を出す • 特別に学習しなくても日本語で答える
2025「使えそう!」 • Gemma 3/Qwen3登場 • 意味のある動くプログラムを一発で出す • 専門的な内容を解説する
2026「使える!」 • Gemma 4 / Qwen3.6登場 • 英語のレポートを要約して解説 • まとまったプログラムを作る
• エージェントで作業する
現在の状況(モデル) • 30Bくらいのモデル • 1往復でおわるチャットには十分 • 要約、翻訳、簡単な質問 • 最初のコーディングなら十分 •
デバッグには ハマることがある • 500B以上のモデル • 高度なこと以外には十分 • メモリ高騰が残念
現在の状況(ビジネス的) • コーディングエージェント使い放題はコストがかさむ • プロプラモデルは制限がきびしい • プロプラモデルは値上がりする • サーバーが足りてない •
新しい高性能モデルは高くなっていってる
今日の話 • 手元のマシンでコーディング作業を行う • 32GB-64GBの統合メモリでQwen3.6 / Gemma 4を動かす • 将来的には192GB-256GBで250B程度を動かす
• 15万トークン以内の作業 • LLM用サーバーで共有はおすすめしない • コーディングの高負荷でサーバーを運用するのは大変 • ある程度をQwen3.6 / Gemma 4でまかなうならコスト回収も大変 • オープンモデルでもAPIを使ったほうがいい • 単にモデル選択と利用料金の問題になる
いま使えるモデル • Dense / MoE • MoEは一部だけ動かす • 速いし知識がある •
Denseは全部動かす • 重いけど賢い • アテンション • フル – O(n^2) 重いけど賢い • スライド – 全体を見れないけど確実な作業 • スパース - 全体を見るけど少しあいまい • 線形 – 計算を工夫してO(n)、誤差で間違いが出やすい
量子化 • LLMはパラメータの精度を落としても性能が落ちにくい • アテンションは精度を高めに、FFNは精度を落とすと性能を落と さずサイズを減らせる • サイズが減るとメモリからプロセッサへの転送も減って速くなる • Q4_K_Mくらいだと性能が
ほとんど落ちない
ハードウェア • SoC – CPU/NPU/GPUを統合したチップ • AMD Ryzen AI Max+
395 – EVO-X2: 128GB / 48万円 • Intel Core Ultra 7 – MINISFORM M2 32GB / 22万円 • NVIDIA GB10 – Ascent GX10: 128GB / 58万円 • Apple Silicon – Mac Studio: 96GB / 60万円 • GPU(32GB) • RTX 5060 Ti 16GB x2 / 20万円 • Intel Arc Pro B70 / 22万円 • Radeon AI Pro R9700 / 25万円 • RTX 5090 / 60万円~ • RTX PRO 4500 / 60万円
ソフトウェア • 推論エンジン • llama.cpp • MLX • 管理ツール •
LM Studio • Ollama • チャット • Open WebUI • コーディングエージェント • OpenCode • Claude Code • Codex
最適化 • ハードウェアの進化だけでは動かせるモデルは増えない • 230Bくらいが限界そう • メモリ削減 • TurboQuant •
KVキャッシュ(それまでの出力の計算結果)を削減 • 速度向上 • MTP(multi-token prediction) • 投機的デコード • 軽いモデルに3トークン出させて本番モデルで答え合わせ
まとめ • かなり実用になってきている • HTML画面の最初の作り起こしなどは十分にまかせれる • コスト削減 • デバッグや設計などはフロンティアモデルを使う •
将来的にはかなりの作業を手元でできるはず • その準備は やっておいたほうがいい •