ローカルLLMを使ってB2Bサービスを作っていての学び

by Hiroshige Umino

Embed

Start on current slide

Slide 1

Slide 1 text

ローカルLLMを使って B2Bサービスを作っていての学びはんなり「ローカルLLMやってみたLT会」海野弘成（@yaotti/やおっち） / ACK Craft株式会社代表 1

Slide 2

Slide 2 text

自己紹介海野弘成（@yaotti / やおっち） Qiita (プログラミング情報共有サービス) の創業社長 newmo (タクシー・ライドシェア) でLLMによる電話対応サービスのプロトタイプ→運用（対応率が70%から100% / GENIAC PRIZE 1位）今年2月に ACK Craft 株式会社を京都で創業、「ツギキ(継木)AI」を開発中「頭の中にある知見や経験を形にする」に興味があります 2

Slide 3

Slide 3 text

業務引き継ぎ支援AI「ツギキ」— ローカルLLM前提のMacアプリ退職・異動で消える業務の暗黙知を、作業中の画面録画を見せるだけでマニュアルにするサービス Macアプリ（メニューバー常駐）業務情報が対象 → 外部APIは使わずローカルLLM(gemma4:e4b(約9.6GB) + Ollama)でローカル完結観る → まとめる → 聞くの3ステップで、そこそこ妥当な叩き台が出る現在、一部の企業とトライアル（PoC）中 3

Slide 4

Slide 4 text

失敗①：映っていないChromeを見たと言ってきた開発中の画面録画を見せたら観察ログにこう出た録画37枚を全確認 → やはり無い OCRで裏取りさせても捏造は止まらない 4

Slide 5

Slide 5 text

直し方：「無ければ“不明”でいい」と許可するプロンプトに一言追加画面に確実にあるものだけ記述。無ければ「不明」でよい → 正直に答えるように。「答えなければならない」というプレッシャーが捏造を生んでいた 1年ほど前のフロンティアモデルのハルシネーション対策と同じ定石（「分からないなら“分からない”と言わせる」）。ローカルも同じ道を辿って良くなるはず。 5

Slide 6

Slide 6 text

失敗②：処理に時間がかかりすぎるマニュアル生成が30分待っても 2/6 しか進まない。ログを見ると 10s: 0トークン受信 20s: 0トークン受信 ... 170s: 0トークン受信最初のトークン受信: 170s 170秒沈黙し続けており、その間ずっとMacは発熱していた 6

Slide 7

Slide 7 text

原因：thinking の出力を、content だけ見ていた gemma4:e4b はデフォルトで thinkingモード出力の大半が message.thinking へ message.content は空のまま → 「沈黙」に見えた Ollama /api/chat に渡す body に think: false を1つ const payload = { model: "gemma4:e4b", messages, stream: true, think: false, // ← options の中ではなく body 直下！ options: { temperature: 0.3, num_ctx: 8192 }, }; // fetch(`${OLLAMA}/api/chat`, { body: JSON.stringify(payload) }) 7

Slide 8

Slide 8 text

まとめローカルLLMを使ってB2Bプロダクトを作っています出力の裏を取る — 平気で嘘をつくから（映ってないChrome）モデルのデフォルトを知る — thinking みたいな初期設定の罠クラウドに出さずに一定の精度は出せそうという手応えが出てきた 8

Slide 9

Slide 9 text

ローカルLLMで作ってる・実験してる人、話しましょう今作っているツギキAIはローカルLLM前提ですが、ローカルLLMを活用したプロダクトはあまりありません。同じくローカルLLMで何か作っている・試している方、ぜひ情報交換させてください。 Discord でも X（@yaotti）でも — 気軽に連絡ください 9