Slide 1

Slide 1 text

ローカルLLMを使って B2Bサービスを作っていての学び はんなり「ローカルLLMやってみたLT会」 海野弘成(@yaotti/やおっち) / ACK Craft株式会社 代表 1

Slide 2

Slide 2 text

自己紹介 海野弘成(@yaotti / やおっち) Qiita (プログラミング情報共有サービス) の創業社長 newmo (タクシー・ライドシェア) でLLMによる電話対応サービスのプロトタイ プ→運用(対応率が70%から100% / GENIAC PRIZE 1位) 今年2月に ACK Craft 株式会社 を京都で創業、 「ツギキ(継木)AI」を開発中 「頭の中にある知見や経験を形にする」 に興味があります 2

Slide 3

Slide 3 text

業務引き継ぎ支援AI「ツギキ」— ロ ーカルLLM前提のMacアプリ 退職・異動で消える 業務の暗黙知 を、 作業中の画面録画を見せるだけ でマニュアルに するサービス Macアプリ(メニューバー常駐) 業務情報が対象 → 外部APIは使わずロー カルLLM(gemma4:e4b(約9.6GB) + Ollama)で ローカル完結 観る → まとめる → 聞く の3ステップで、 そこそこ妥当な叩き台 が出る 現在、一部の企業とトライアル(PoC)中 3

Slide 4

Slide 4 text

失敗①:映っていないChromeを見たと言ってきた 開発中の画面録画を見せたら観察ログにこう出た 録画37枚を全確認 → やはり無い OCRで裏取りさせても 捏造は止まらない 4

Slide 5

Slide 5 text

直し方: 「無ければ“不明”でいい」と許可する プロンプトに一言追加 画面に確実にあるものだけ記述。無ければ「不明」でよい → 正直に答えるように。 「答えなければならない」というプレッシャーが捏造を生んで いた 1年ほど前のフロンティアモデルのハルシネーション対策と同じ定石 ( 「分からないなら“分からない”と言わせる」 ) 。ローカルも同じ道を辿って良くなるは ず。 5

Slide 6

Slide 6 text

失敗②:処理に時間がかかりすぎる マニュアル生成が30分待っても 2/6 しか進まない。ログを見ると 10s: 0トークン受信 20s: 0トークン受信 ... 170s: 0トークン受信 最初のトークン受信: 170s 170秒沈黙し続けており、その間ずっとMacは発熱していた 6

Slide 7

Slide 7 text

原因:thinking の出力を、content だけ見ていた gemma4:e4b は デフォルトで thinkingモード 出力の大半が message.thinking へ message.content は 空のまま → 「沈黙」に見えた Ollama /api/chat に渡す body に think: false を1つ const payload = { model: "gemma4:e4b", messages, stream: true, think: false, // ← options の中ではなく body 直下! options: { temperature: 0.3, num_ctx: 8192 }, }; // fetch(`${OLLAMA}/api/chat`, { body: JSON.stringify(payload) }) 7

Slide 8

Slide 8 text

まとめ ローカルLLMを使ってB2Bプロダクトを作っています 出力の裏を取る — 平気で嘘をつくから(映ってないChrome) モデルのデフォルトを知る — thinking みたいな初期設定の罠 クラウドに出さずに一定の精度は出せそうという手応えが出てきた 8

Slide 9

Slide 9 text

ローカルLLMで作ってる・実験してる人、話 しましょう 今作っているツギキAIはローカルLLM前提ですが、ローカ ルLLMを活用したプロダクトはあまりありません。 同じくローカルLLMで何か作っている・試している方、 ぜひ情報交換させてください。 Discord でも X(@yaotti)でも — 気軽に連絡ください 9