FableはすごいがローカルPCで動くLLMも活用していきたい.pdf

? 2026.06.12 LIGHTNING TALK Fableはすごいが、ローカルPCで動くLLM も活用していきたい EDGE LLM —
LOCAL INFERENCE

01 ABOUT 自己紹介 EDGE LLM — LOCAL INFERENCE 松尾淳平 M20株式会社
Even G2 / R1 を買いました。次に欲しいもの — DGX Spark とスタックチャン

02 NEWS 個人的な直近の2大発表 — その①: Google I/O EDGE LLM —
LOCAL INFERENCE Prompt API が Stable に Chrome 148 で Stable 到達・フラグ不要で本番利用OK に 2026.05.19 – 20

02 NEWS 個人的な直近の2大発表 — その②: WWDC EDGE LLM — LOCAL
INFERENCE macOS 27 に fm CLI 2026.06.08 – 12

03 BASICS クラウドAPI型インターネット（必須）プロンプト（数 KB）答え（数KB）数百GBのモデルは一切動かない
アプリ / ターミナルプロンプトを送るだけここには何も無いディスク — 空あなたのPC クラウドモデル（数百GB）ファイルがロードされ、ここで推論巨大GPU工場モデルはデータセンターに存在している。手元のPCには1バイトも無いネットが切れたら使えない。基本的に使った分だけ課金（サブスクは除く）プロンプトの中身は外部に送信される改めて、前提の確認

04 HANDS-ON ① ブラウザ標準型 — Chrome Prompt API ネッ
ト不要 Chromeの持ち物フォルダに 4GB 全サイト共有・初回利用時に Google から自動DL あなたのPC Webページ = 注文の窓口コード数行で注文。店の奥には手を出せない ▼ 注文 ▲ 答えが返る Chrome Gemini Nano が GPU / CPU で推論要件: GPUは VRAM 4GB超、CPUは RAM 16GB+・4コア+ 店の奥 = Chrome本体 ✕ 出番なしクラウド自分では何も用意しなくていい。配布も置き場所も Google 持ち何度呼んでもタダ・2回目以降はネット不要初回のみ自動DL（構図は ② と同じ）。空き容量 22GB が要件引き換えに、モデルは選べない $ du -sh ~/Library/Application\ Suppor t/Google/Chrome/OptGuideOnDeviceModel 4.0G

04 HANDS-ON ① の実装 — JavaScript 2行 EDGE LLM —
LOCAL INFERENCE const session = await LanguageModel.create(); // Chrome 148+（Stable） const answer = await session.prompt('このエラーログを3行で要約して: ' + log); 同じタスク: ログを3行で要約

04 HANDS-ON ② 持ち込み型 — Transformers.js 初回DLのみモデル（約 0.5GB） 2回目からはロ
ーカル完結ブラウザの Cache Storage に保存サイトごと・モデルは自分持ちあなたのPC Webページ = 窓口（ここに持ち込み）モデル（Qwen3 0.6B・量子化済み約 0.5GB）を自分でロード ▼ WebGPU で計算を依頼 ▲ 結果が返る Chrome 持ち込んだモデルで掛け算店の奥 = GPU（①と同じ工場）役割はモデル配布だけ推論はゼロクラウド ①との違い: モデルを自分で選べる（BYOM）引き換えに、配布と容量は自分持ち窓口に持ち込めるのは約4GBまで。①の「4GB」と同じ数字だが別物（理由は次のスライド）

04 HANDS-ON ② の実装 — JavaScript 数行 EDGE LLM —
LOCAL INFERENCE import { pipeline } from '@huggingface/transformers'; const generate = await pipeline('text-generation', 'onnx-community/Qwen3-0.6B-ONNX', { device: 'webgpu' }); // ← モデルは自由（BYOM） const out = await generate('このエラーログを3行で要約して: ' + log); 同じタスク: ログを3行で要約

04 HANDS-ON 4GBの壁 — メモリが余っていても、使えない結論 — ページが番号札で指せる範囲は 4GB だけ
4GB 番号札が届かない領域 PCに64GB積んでいても、ここはWebページから見えない理由番号札が 32bit → 2³² ≈ 42億枚 × 1バイト = 4GB だから、どうなる？ ① Gemini Nano 壁の外（Chrome本体 = 店の奥）にいる → 4GBの影響なし ② Transformers.js 壁の中（ページの中）で動く → だから小型モデルを選ぶ ※ 64bit番号札（Memory64）は2025年に解禁済み。ただし遅くなるため、実用はまだ 32bit が主流

04 HANDS-ON ③ OS標準型 — fm CLI（macOS 27）ネッ
ト不要ターミナル = 注文の窓口 $ echo ログ | fm respond "要約して" ▼ 注文 ▲ 答えが返る OS領域 Apple が配布・全アプリ共有あなたのPC Apple のモデルが GPU / Neural Engine で推論モデルも計算も、ここで完結店の奥 = macOS（Apple Intelligence） ✕ 出番なしクラウドターミナルから1行。パイプにそのまま挟める Apple のモデルが OS領域に最初から住んでいる全アプリ共有・Apple が配布 $ echo ログ | fm respond "要約して" このために macOS 27 ベータを入れました。

04 HANDS-ON ③ の実装 — コード0行、シェル1行 EDGE LLM — LOCAL
INFERENCE $ git log --oneline -20 | fm respond -i "作業内容を日本語3行で要約して" ※ macOS 27 Beta が必要同じタスク: ログを3行で要約

05 OS LAYER ④ OS持ち込み型 — 代表例: Ollama 初回DLのみモデル（数
GB） 2回目からはローカル完結ターミナル / アプリ = 注文の窓口 ▼ 注文 ▲ 答えが返る ~/.ollama/models 自分で管理あなたのPC 持ち込んだモデルが GPU で推論目安〜30B級・メモリ64GBをフル活用店の奥 = Ollama（自分でインストール）役割はモデル配布だけ推論はゼロクラウド自分でインストールするアプリ。ブラウザの外なので制限なし好きなモデルを目安〜30B級まで持ち込める（量子化すれば 70B 級も可・速度とのトレード） Mac が向く理由: ユニファイドメモリ — 職人（CPU）と工場（GPU）が同じ64GBを共有構図は ② と同じ「持ち込み」。場所がブラウザの外になっただけ。

05 OS LAYER ④ の実装 — こちらもシェル1行 EDGE LLM —
LOCAL INFERENCE $ ollama run qwen3 "このエラーログを3行で要約して: $(cat error.log)" どれも実装は数行。違うのはモデルの居場所だけ。同じタスク: ログを3行で要約

軽いデモやります。 EDGE LLM — LOCAL INFERENCE

05 OS LAYER 4つの選択肢 — 2×2で整理する EDGE LLM — LOCAL
INFERENCE 配布済み標準モデル BYOM（自分で持ち込む）ブラウザ層 ① Chrome Prompt API Gemini Nano・Chrome本体 ② Transformers.js ページの中・上限4GB OS層 ③ fm CLI Apple のモデル・OS領域 ④ Ollama 目安〜30B級・自分で管理

06 RECAP まとめ方式動く環境モデルのDL 賢さ向いている場面 ① Chrome
Prompt API Chrome 148+（138+はフラグ要）自動（Chrome・ 4GB）小型・固定 Webに無料のAI機能を足す ② Transformers.js WebGPU対応ブラウザ自分で（0.5GB〜）小型・自由モデルを選びたいWebアプリ ③ fm CLI macOS 27 のみ OSに同梱小型※PCC切替可 Macの自動化・パイプ処理 ④ Ollama OS問わず・メモリ次第自分で（数GB〜）メモリ次第・目安〜30B 本気のローカル運用クラウドAPI ネットがあればどこでもなし — 手元に来ないフロンティア級賢さが要る仕事 Webに足すなら ①②、Macの自動化なら ③、本気なら ④。データを外に出せない仕事はローカルで — 賢さが要るところだけ、クラウドへ。

07 APPENDIX もう少し広げてみる EDGE LLM — LOCAL INFERENCE レイヤー配布済み標準モデル
BYOM（自分で持ち込む）ブラウザ ① Prompt API（Gemini Nano） ② Transformers.js デスクトップOS ③ fm（macOS） / Phi Silica（Windows） ④ Ollama / Foundry Local（Windows）モバイルOS AICore + ML Kit（Android） / Foundation Models （iOS） MediaPipe LLM / MLC アプリ同梱 —（胴元がいない） llama.cpp / MLX をバイナリに埋め込み専用筐体 / LAN — DGX Spark / Jetson / Mac Studio に ollama serve

ご清聴ありがとうございました。 EDGE LLM — LOCAL INFERENCE

FableはすごいがローカルPCで動くLLMも活用していきたい.pdf

FableはすごいがローカルPCで動くLLMも活用していきたい.pdf

松尾淳平

More Decks by 松尾淳平

Featured

Transcript

? 2026.06.12 LIGHTNING TALK Fableはすごいが、ローカルPCで動くLLM も活用していきたい EDGE LLM —

01 ABOUT 自己紹介 EDGE LLM — LOCAL INFERENCE 松尾淳平 M20株式会社

02 NEWS 個人的な直近の2大発表 — その①: Google I/O EDGE LLM —

02 NEWS 個人的な直近の2大発表 — その②: WWDC EDGE LLM — LOCAL

03 BASICS クラウドAPI型インターネット（必須）プロンプト（数 KB）答え（数KB）数百GBのモデルは一切動かない

04 HANDS-ON ① ブラウザ標準型 — Chrome Prompt API ネッ

04 HANDS-ON ① の実装 — JavaScript 2行 EDGE LLM —

04 HANDS-ON ② 持ち込み型 — Transformers.js 初回DLのみモデル（約 0.5GB） 2回目からはロ

04 HANDS-ON ② の実装 — JavaScript 数行 EDGE LLM —

04 HANDS-ON 4GBの壁 — メモリが余っていても、使えない結論 — ページが番号札で指せる範囲は 4GB だけ

04 HANDS-ON ③ OS標準型 — fm CLI（macOS 27）ネッ

04 HANDS-ON ③ の実装 — コード0行、シェル1行 EDGE LLM — LOCAL

05 OS LAYER ④ OS持ち込み型 — 代表例: Ollama 初回DLのみモデル（数

05 OS LAYER ④ の実装 — こちらもシェル1行 EDGE LLM —

軽いデモやります。 EDGE LLM — LOCAL INFERENCE

05 OS LAYER 4つの選択肢 — 2×2で整理する EDGE LLM — LOCAL

06 RECAP まとめ方式動く環境モデルのDL 賢さ向いている場面 ① Chrome

07 APPENDIX もう少し広げてみる EDGE LLM — LOCAL INFERENCE レイヤー配布済み標準モデル

ご清聴ありがとうございました。 EDGE LLM — LOCAL INFERENCE