Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ローカルLLMでどこまでコードが書けるか -縮小版 / How much code can b...

ローカルLLMでどこまでコードが書けるか -縮小版 / How much code can be written on a local LLM Shortened

2026/6/23に開催された「AIエージェント時代のローカルLLM活用」での登壇資料です
https://engineercafe.connpass.com/event/396774/

Avatar for Naoki Kishida

Naoki Kishida

June 23, 2026

More Decks by Naoki Kishida

Other Decks in Programming

Transcript

  1. 2026/06/23 2 自己紹介 • きしだ なおき • X(twitter): @kis •

    サブスクも始めました。 • blog: きしだのHatena • (nowokay.hatenablog.com) • 「プロになるJava」というJavaの本を書いてます
  2. 現在の状況(モデル) • 30Bくらいのモデル • 1往復でおわるチャットには十分 • 要約、翻訳、簡単な質問 • 最初のコーディングなら十分 •

    デバッグには ハマることがある • 500B以上のモデル • 高度なこと以外には十分 • おうちで使うのは厳しい • メモリ高騰が残念
  3. いま使えるモデル • アクティブってなんや • 実際につかうパラメータ • MoE(Mixture of Experts) •

    一部のエキスパートだけ動かす • 動かすパラメータが多いほど賢い • Dense / MoE • MoEは速い • Denseは重いけど賢い
  4. いま使えるモデル • 実際使うなら • コードを書く • Qwen3.6-27B • コード以外(要約、翻訳、話し相手) •

    Gemma 4 1 2B • 速く動くのがいい • Qwen3.6-35B-A 3B • Gemma 4 26B-A 4B • メモリ少 ないんやGPU ないんや • LF M2.5-8 B-A1 B
  5. 量子化 • LLMはパラメータの精 度を落としても性能が落ちにくい • アテンショ ンは精 度を高めに、FFN は精 度を落とすと性能を落と

    さず サイズを減 らせる • サイズが減 るとメモリからプロセ ッサへ の転送 も減 って速くなる • Q4_K_ Mくらいだと性能が ほとんど落ちない
  6. Q4_K_ MとかQ4_K_S ってなに? • Q4はわかる • K もなんかアルゴ リズムらしい •

    MとかLとかS って? • アテンショ ンなど大事 なところ は 精 度が高いものを使う • その比率 がLは高くS は低 い Qwen3-0.6 Q4_K_M Q4_K_S
  7. ハードウ ェア • S oC – CPU /NPU /GPU を統合したチップ

    • A MD R yz en AI Max+ 39 5– EVO -X2:1 28 GB/48 万円 • I ntel C ore U ltra 7 – EVO -T 2 64GB / 32万円 • NVI DIA GB1 0 – A scent GX1 0: 1 28 GB / 58 万円 • NVI DIA RT X S park ?? (きっとGB1 0と同じ ) • A pple S ilicon – Mac S tud io: 9 6GB / 60万円 • GPU (32GB) • RT X 5060 T i 1 6GB x2 / 20万円 • I ntel A rc P ro B70 / 22万円 • R ad eon AI P ro R9 700 / 25万円 • RT X 509 0 / 60万円~ • RT X PRO 4500 / 60万円 GPUで動かそうとすると高いのでCPU+GPU一体型で
  8. 5年後 は? • ハードウ ェアの進化 だけでは動かせるモデルは増 えない • メモリ →

    年率 40%成 長 → 5年で5.3倍 • 大きいモデルも乗 るだけなら乗 る • プロセ ッサ → 年率 30%成 長 → 5年で3.7倍 • もすこし足りない • 帯域 → 年率 20%成 長 → 5年で2.4倍 • 今でも2倍欲 しいので、2.4倍 になっても・・・ • 300Bくらいが主戦 場では • 普通 にコーディングできる • フ ロンティアモデルと使い分け(設計 やデバッグはフ ロンティア、作業はローカル)
  9. 統合ツ ール • 実行エンジン、モデル管理 、UI などの統合 • いず れもllama.cpp, mlx-llm対応

    • LM S tud io • GUIツ ール • モデル管理 しやすい • O llama • C LIツ ール • 独 自管理 で慣 れるとかなり不便
  10. コーディングエージェント • O penC od e • オ ープンソ ース

    • クローズドツ ールも使える • C od ex • C laud e C od e
  11. 実際にローカルでコード書けるの? • Qwen3.6-27B + O penC od eでQwen3のJavaS cript実装 つくった

    • 可能といえば 可能 • 一応 コードは全 部Qwen3.6が書いた • 50000トークンから性能おちる • 細 かい仕様 をたくさん誤 解している • 知識総量 はパラメータ数依存 なので細 かい 知識 があいまい • その誤 解を元にコードを書くと 正 しい仕様 を信じ なくなる。相当頑固 • 資料 を可能な限り渡 して仕様 を吐 き出させ誤 解を修正 してからの実装 が必要
  12. まとめ • かなり実用 になってきている • HT ML画面 の最初の作り起 こしなどは十分にまかせれる •

    コスト削減 • デバッグや設計 などはフ ロンティアモデルを使う • 将来的にはかなりの作業を手元でできるはず • その準備 は やっておいたほうがいい • あと、ローカルで動かすの楽 しい