ローカルLLMを使ったエージェント開発の現在地〜社内PR自動レビューに「ローカルLLM」は使えるか？コスト×精度で検証してみた〜

©Fusic Co., Ltd. 0 ローカルLLMを使ったエージェント開発の現在地 2026.06.23 AIエージェント時代のローカルLLM活用浦田大貴
/ Fusic 社内PR自動レビューに「ローカルLLM」は使えるか？コスト×精度で検証してみた

©Fusic Co., Ltd. 1 自己紹介はじめに浦田大貴
D A I K I U R ATA 株式会社Fusic エンジニア社内AI活用推進を担当。業務ではAI活用の勉強会開催、基盤整備や実プロジェクトでの相談役として活動中。個人開発が趣味。最近はローカルで動くリアルタイム文字起こし/翻訳アプリ（macのライブキャプションやWhisper Transcriptionのようなもの）を開発中（挫折中） X: @daiki7nohe GitHub: @7nohe

©Fusic Co., Ltd. 2 CONTENTS 1. なぜローカルLLMを試したか 2. 何をどう検証したか 3.
結果 4. 結論と、これからの話

©Fusic Co., Ltd. 3 なぜローカルLLMを試したか 01

©Fusic Co., Ltd. 4 きっかけはコスト削減 ▪ 社内でもAI利用料が無視できない額になってきた ▪ Devin
Reviewの場合は約$2/review https://cognition.com/blog/new-self-serve-plans-for-devin

©Fusic Co., Ltd. 5 全部ローカルは無理。でもPRレビューなら任せられそう、という仮説から始めた PRレビューは非同期。即答が要らないので多少遅くても運用に乗せられる遅くてもOK 1次レビュー用途なら、人間が最終確認する前提で精度を多少妥協できる
精度は妥協できる従量課金が乗らないので、push毎に何度でも気兼ねなく回せる気兼ねなく使えるコーディングタスクはGPT5.5/Opusなどのフロンティアモデルには勝てない。レビューならローカルでもいけるのでは？

©Fusic Co., Ltd. 6 何をどう検証したのか？ 02

©Fusic Co., Ltd. 7 社内にあったGPUサーバーで検証 RTX3090(24GB)に載る 24GB 1枚でQ4量子化が載る20〜32Bクラスに限定。これを超える大型モデルは対象外
商用OKなライセンス Apache 2.0等の商用利用可ライセンスのみ採用。非商用ライセンスのモデルは除外したコード系ベンチがHaiku級コード系ベンチでクラウド小型(Haiku級) に近い数字を出すこと。以下モデルを選定 ▪ Qwen3-Coder 30B (MoE・本命) ▪ Qwen2.5-Coder 32B (dense・比較用) ▪ Gemma4 31B (最近出てよさそう)

©Fusic Co., Ltd. 8 Fusicの実PRで測定評価データ18件実PR9件注入バグ3件クリーンPR6件 01
PR-Agentでローカル(Gemma4/Qwen-Coder)とクラウド(Haiku/Sonnet)のレビューを生成 5モデルで共通生成 02 2モデルで採点 Opus＋GPT-5.5のクロス採点で recall(見逃しの少なさ)と precision(誤検知の少なさ)を採点 03

©Fusic Co., Ltd. 9 結果 03

©Fusic Co., Ltd. 10 評価結果モデル recall全体単純バグ precision Sonnet（クラウド）
0.70 0.85 0.62 Haiku（クラウド） 0.71 0.83 0.48 Gemma4（ローカル） 0.67 0.83 0.57 Qwen3-Coder（ローカル） 0.54 0.67 0.30 Qwen2.5（ローカル） 0.48 0.46 0.46 Recall（見逃しの少なさ）: バグをAIレビューが拾えたか。高いほど見逃しが少ない。 Precision（誤検知の少なさ）: AI の指摘がdiff に本当に存在するか（＝幻覚をしていないか）。高いほどノイズが少ない Diffで分かるバグはGemma4はHaiku並み。仕様依存と誤検知抑制はSonnetの勝ち。

©Fusic Co., Ltd. 11 ローカルは大型PRで崩壊・タイムアウトも Haiku / Sonnet（クラウド）約9秒 /
約20秒。大型PRも安定して完走 Gemma4（ローカル） 5分くらいかかる。大型PRで生成が崩壊することあり Qwen-Coder系（ローカル）さらに遅く、生成失敗が多発前提古い社内GPUでの参考値。業務利用には実用的なGPUが必要コンテキスト16k固定、Ollama、小サンプル、マシンスペックなど環境の制約があり、ローカルに不利な傾向あり

©Fusic Co., Ltd. 12 Haikuの方がまだコスパがよさそう 0 20000 40000 60000 80000
100000 120000 140000 100件 500件 1,000件 3,000件 5,000件月間コスト比較（円/月） Haiku 直API AWS 業務時間固定 AWS オンデマンド起動 Haiku直APIは固定費ほぼゼロ。約3,700件/月まではHaikuが最安で、それ以上はAWS業務時間固定が下回る。オンデマンド起動はHaikuが常に安く交差点なし AWS想定（東京・Spot概算）: 業務時間固定＝g6.xlarge（L4 24GB）約220h/月で約1.1万円、オンデマンド起動＝g6e.xlarge（L40S 48GB）従量。Haiku直API≒3円/件月数百〜数千件の現実的な規模では、自前GPUは損益分岐に届かない

©Fusic Co., Ltd. 14 自前GPU・Bedrock・専用AWSのレビュー基盤は、現時点ではまだ要らない ◼ 速度・大型PR・運用の安定性でクラウドが明らかに有利クラウドが楽な理由
◼ クラウド直APIが現状もっともコスパが良いただし限定条件つき ◼ これはFusicのPRレビューに限った話 ◼ 機密データ処理など別用途でローカルが要る場面は否定しない

©Fusic Co., Ltd. 15 じゃあどうする？ Qwen・Gemma・Kimiがこの1〜2年で躍進。性能の伸びに期待モデル進化が速い DGX Spark等の登場でローカル実行が現
実味ハードも進化社内ガイドライン＋評価データセットを整備来たる日に向けて https://x.com/satyanadella/article/2066182223213293753 「重要なのは最良のモデルを選ぶことではなく、モデルの上に学習ループを築くこと」評価も "not just external benchmarks" （外部ベンチだけでなく自社にとって意味のある成果で測る private eval）が必要「汎用モデルを差し替えても自社に蓄積した知見を失わないこと」がこれからの主権の試金石だ

©Fusic Co., Ltd. 16 まとめ単純バグのレビューならローカルも健闘。「ローカル＝使えない」ではないコスパ的には現状クラウドが優位自社データで評価する基盤づくりが採用判断の鍵なのでは！？ローカルも健闘現状はクラウド優位
今は基盤準備

©Fusic Co., Ltd. 18 パネルディスカッション今ローカルLLMを開発業務でつかうとしたらどこですか？論点1 ローカルLLMのセキュリティ、ガバナンスどうすれば良いですか？論点2 今社内でやっておくべきことってなんですか？（評価基盤など）
論点3 論点4 あと何が揃えばローカルLLMが実用的になりますか？

ローカルLLMを使ったエージェント開発の現在地〜社内PR自動レビューに「ローカルLLM」は使...

ローカルLLMを使ったエージェント開発の現在地〜社内PR自動レビューに「ローカルLLM」は使えるか？コスト×精度で検証してみた〜

daiki7nohe

More Decks by daiki7nohe

Featured

Transcript

©Fusic Co., Ltd. 0 ローカルLLMを使ったエージェント開発の現在地 2026.06.23 AIエージェント時代のローカルLLM活用浦田大貴

©Fusic Co., Ltd. 1 自己紹介はじめに浦田大貴

©Fusic Co., Ltd. 2 CONTENTS 1. なぜローカルLLMを試したか 2. 何をどう検証したか 3.

©Fusic Co., Ltd. 3 なぜローカルLLMを試したか 01

©Fusic Co., Ltd. 4 きっかけはコスト削減 ▪ 社内でもAI利用料が無視できない額になってきた ▪ Devin

©Fusic Co., Ltd. 6 何をどう検証したのか？ 02

©Fusic Co., Ltd. 7 社内にあったGPUサーバーで検証 RTX3090(24GB)に載る 24GB 1枚でQ4量子化が載る20〜32Bクラスに限定。これを超える大型モデルは対象外

©Fusic Co., Ltd. 8 Fusicの実PRで測定評価データ18件実PR9件注入バグ3件クリーンPR6件 01

©Fusic Co., Ltd. 9 結果 03

©Fusic Co., Ltd. 10 評価結果モデル recall全体単純バグ precision Sonnet（クラウド）

©Fusic Co., Ltd. 11 ローカルは大型PRで崩壊・タイムアウトも Haiku / Sonnet（クラウド）約9秒 /

©Fusic Co., Ltd. 12 Haikuの方がまだコスパがよさそう 0 20000 40000 60000 80000

©Fusic Co., Ltd. 13 結論と、これからの話 04

©Fusic Co., Ltd. 14 自前GPU・Bedrock・専用AWSのレビュー基盤は、現時点ではまだ要らない ◼ 速度・大型PR・運用の安定性でクラウドが明らかに有利クラウドが楽な理由

©Fusic Co., Ltd. 15 じゃあどうする？ Qwen・Gemma・Kimiがこの1〜2年で躍進。性能の伸びに期待モデル進化が速い DGX Spark等の登場でローカル実行が現

©Fusic Co., Ltd. 17 Thank You We are Hiring! https://recruit.fusic.co.jp/

ローカルLLMを使ったエージェント開発の現在地 〜社内PR自動レビューに「ローカルLLM」は使...

ローカルLLMを使ったエージェント開発の現在地 〜社内PR自動レビューに「ローカルLLM」は使えるか？コスト×精度で検証してみた〜

More Decks by daiki7nohe

Featured

Transcript

ローカルLLMを使ったエージェント開発の現在地〜社内PR自動レビューに「ローカルLLM」は使...

ローカルLLMを使ったエージェント開発の現在地〜社内PR自動レビューに「ローカルLLM」は使えるか？コスト×精度で検証してみた〜