ローカルLLMでどこまでコードが書けるか -縮小版 /　How much code can be written on a local LLM Shortened

ローカルLLMでどこまでコードが書けるのか 2026-06-23 AIエージェント時代のローカルLLM活用きしだなおき

2026/06/23 2 自己紹介 • きしだなおき • X(twitter): @kis •
サブスクも始めました。 • blog: きしだのHatena • (nowokay.hatenablog.com) • 「プロになるJava」というJavaの本を書いてます

3 2023年からの3年でおうちで動くLLMはどう変わったか

2023 「動いて偉い！」 • チャットのできるモデルが出始める • 日本語を学習させないと日本語は話せない • 「対話できてえらい」「聞いたことに答えてくれて偉い」

2024「まともに動く！」 • まともな意味のある長文を出す • 特別に学習しなくても日本語で答える

2025「使えそう！」 • Gemma 3/Qwen3登場 • 意味のある動くプログラムを一発で出す • 専門的な内容を解説する

2026「使える！」 • Gemma 4 / Qwen3.6登場 • 英語のレポートを要約して解説 • まとまったプログラムを作る
• エージェントで作業する

2026/6「必要では？」 • 最高モデルが出たらすぐ止まる • 最高だったモデルがなんか性能落ちてる • トークン際限なく使えない • 大きいローカルモデルなら代替がある程度可能

現在の状況(モデル) • 30Bくらいのモデル • 1往復でおわるチャットには十分 • 要約、翻訳、簡単な質問 • 最初のコーディングなら十分 •
デバッグにはハマることがある • 500B以上のモデル • 高度なこと以外には十分 • おうちで使うのは厳しい • メモリ高騰が残念

現在の状況(ビジネス的) • コーディングエージェント使い放題はコストがかさむ • プロプラモデルは制限がきびしい • プロプラモデルは値上がりする • サーバーが足りてない •
新しい高性能モデルは高くなっていってる

今日の話 • 手元のマシンでコーディング作業を行う • 32GB-64GBの統合メモリでQwen3.6 / Gemma 4を動かす • 将来的には192GB-256GBで250B程度を動かす
• 15万トークン以内の作業

いま使えるモデル • パラメータってなんや • 掛け算するための値 • GBに置き換えたらだいたいのサイズ • でかいほど物知り

いま使えるモデル • アクティブってなんや • 実際につかうパラメータ • MoE(Mixture of Experts) •
一部のエキスパートだけ動かす • 動かすパラメータが多いほど賢い • Dense / MoE • MoEは速い • Denseは重いけど賢い

いま使えるモデル • 実際使うなら • コードを書く • Qwen3.6-27B • コード以外(要約、翻訳、話し相手) •
Gemma 4 1 2B • 速く動くのがいい • Qwen3.6-35B-A 3B • Gemma 4 26B-A 4B • メモリ少ないんやGPU ないんや • LF M2.5-8 B-A1 B

量子化 • LLMはパラメータの精度を落としても性能が落ちにくい • アテンションは精度を高めに、FFN は精度を落とすと性能を落と
さずサイズを減らせる • サイズが減るとメモリからプロセッサへの転送も減って速くなる • Q4_K_ Mくらいだと性能がほとんど落ちない

Q4_K_ MとかQ4_K_S ってなに？ • Q4はわかる • K もなんかアルゴリズムらしい •
MとかLとかS って？ • アテンションなど大事なところは精度が高いものを使う • その比率がLは高くS は低い Qwen3-0.6 Q4_K_M Q4_K_S

ハードウェア • S oC – CPU /NPU /GPU を統合したチップ
• A MD R yz en AI Max+ 39 5– EVO -X2:1 28 GB/48 万円 • I ntel C ore U ltra 7 – EVO -T 2 64GB / 32万円 • NVI DIA GB1 0 – A scent GX1 0: 1 28 GB / 58 万円 • NVI DIA RT X S park ?? (きっとGB1 0と同じ ) • A pple S ilicon – Mac S tud io: 9 6GB / 60万円 • GPU (32GB) • RT X 5060 T i 1 6GB x2 / 20万円 • I ntel A rc P ro B70 / 22万円 • R ad eon AI P ro R9 700 / 25万円 • RT X 509 0 / 60万円~ • RT X PRO 4500 / 60万円 GPUで動かそうとすると高いのでCPU+GPU一体型で

5年後は？ • ハードウェアの進化だけでは動かせるモデルは増えない • メモリ →
年率 40%成長 → 5年で5.3倍 • 大きいモデルも乗るだけなら乗る • プロセッサ → 年率 30%成長 → 5年で3.7倍 • もすこし足りない • 帯域 → 年率 20%成長 → 5年で2.4倍 • 今でも2倍欲しいので、2.4倍になっても・・・ • 300Bくらいが主戦場では • 普通にコーディングできる • フロンティアモデルと使い分け(設計やデバッグはフロンティア、作業はローカル)

統合ツール • 実行エンジン、モデル管理、UI などの統合 • いずれもllama.cpp, mlx-llm対応
• LM S tud io • GUIツール • モデル管理しやすい • O llama • C LIツール • 独自管理で慣れるとかなり不便

コーディングエージェント • O penC od e • オープンソース
• クローズドツールも使える • C od ex • C laud e C od e

実際にローカルでコード書けるの？ • Qwen3.6-27B + O penC od eでQwen3のJavaS cript実装つくった
• 可能といえば可能 • 一応コードは全部Qwen3.6が書いた • 50000トークンから性能おちる • 細かい仕様をたくさん誤解している • 知識総量はパラメータ数依存なので細かい知識があいまい • その誤解を元にコードを書くと正しい仕様を信じなくなる。相当頑固 • 資料を可能な限り渡して仕様を吐き出させ誤解を修正してからの実装が必要

まとめ • かなり実用になってきている • HT ML画面の最初の作り起こしなどは十分にまかせれる •
コスト削減 • デバッグや設計などはフロンティアモデルを使う • 将来的にはかなりの作業を手元でできるはず • その準備はやっておいたほうがいい • あと、ローカルで動かすの楽しい

ローカルLLMでどこまでコードが書けるか -縮小版 /　How much code can b...

ローカルLLMでどこまでコードが書けるか -縮小版 /　How much code can be written on a local LLM Shortened

Naoki Kishida

More Decks by Naoki Kishida

Other Decks in Programming

Featured

Transcript

ローカルLLMでどこまでコードが書けるのか 2026-06-23 AIエージェント時代のローカルLLM活用きしだなおき

2026/06/23 2 自己紹介 • きしだなおき • X(twitter): @kis •

3 2023年からの3年でおうちで動くLLMはどう変わったか

2023 「動いて偉い！」 • チャットのできるモデルが出始める • 日本語を学習させないと日本語は話せない • 「対話できてえらい」「聞いたことに答えてくれて偉い」

2024「まともに動く！」 • まともな意味のある長文を出す • 特別に学習しなくても日本語で答える

2025「使えそう！」 • Gemma 3/Qwen3登場 • 意味のある動くプログラムを一発で出す • 専門的な内容を解説する

2026「使える！」 • Gemma 4 / Qwen3.6登場 • 英語のレポートを要約して解説 • まとまったプログラムを作る

2026/6「必要では？」 • 最高モデルが出たらすぐ止まる • 最高だったモデルがなんか性能落ちてる • トークン際限なく使えない • 大きいローカルモデルなら代替がある程度可能

現在の状況(モデル) • 30Bくらいのモデル • 1往復でおわるチャットには十分 • 要約、翻訳、簡単な質問 • 最初のコーディングなら十分 •

現在の状況(ビジネス的) • コーディングエージェント使い放題はコストがかさむ • プロプラモデルは制限がきびしい • プロプラモデルは値上がりする • サーバーが足りてない •

今日の話 • 手元のマシンでコーディング作業を行う • 32GB-64GBの統合メモリでQwen3.6 / Gemma 4を動かす • 将来的には192GB-256GBで250B程度を動かす

いま使えるモデル • パラメータってなんや • 掛け算するための値 • GBに置き換えたらだいたいのサイズ • でかいほど物知り

いま使えるモデル • アクティブってなんや • 実際につかうパラメータ • MoE(Mixture of Experts) •

いま使えるモデル • 実際使うなら • コードを書く • Qwen3.6-27B • コード以外(要約、翻訳、話し相手) •

量子化 • LLMはパラメータの精度を落としても性能が落ちにくい • アテンションは精度を高めに、FFN は精度を落とすと性能を落と

Q4_K_ MとかQ4_K_S ってなに？ • Q4はわかる • K もなんかアルゴリズムらしい •

ハードウェア • S oC – CPU /NPU /GPU を統合したチップ

5年後は？ • ハードウェアの進化だけでは動かせるモデルは増えない • メモリ →

統合ツール • 実行エンジン、モデル管理、UI などの統合 • いずれもllama.cpp, mlx-llm対応

コーディングエージェント • O penC od e • オープンソース

実際にローカルでコード書けるの？ • Qwen3.6-27B + O penC od eでQwen3のJavaS cript実装つくった

まとめ • かなり実用になってきている • HT ML画面の最初の作り起こしなどは十分にまかせれる •

ローカルLLMでどこまでコードが書けるか -縮小版 / How much code can b...

ローカルLLMでどこまでコードが書けるか -縮小版 / How much code can be written on a local LLM Shortened

More Decks by Naoki Kishida

Other Decks in Programming

Featured

Transcript

ローカルLLMでどこまでコードが書けるか -縮小版 /　How much code can b...

ローカルLLMでどこまでコードが書けるか -縮小版 /　How much code can be written on a local LLM Shortened