Slide 1

Slide 1 text

新規事業における「一部だけどコア」な
 の優先順位づけ AI精度 Kokoro Higuchi ML/DSバックグラウンドだからこそ面白い。AIエージェントをプロダクトに実装する、泥臭い裏側と挑戦 2026/01/27 2026 | © Commune Inc. All rights reserved

Slide 2

Slide 2 text

Wantedlyのデータサイエンティスト 推薦システムの改善・実装 コミューンのデータサイエンティスト コミュニティのデータ分析・AIを使った社内業務支援 コミューンのプロダクトマネージャー 新規事業 Commune Voiceの立ち上げ 自己紹介 樋口 心 /@zerebom_3 コミューン株式会社 Product Manager / Data Scientist 2 / 35

Slide 3

Slide 3 text

プロダクト紹介 3 / 35

Slide 4

Slide 4 text

プロダクト紹介 Commune Voiceについて どんな製品か コミュニティやSNSに寄せられた
 膨大なユーザーの声を生成AIを活用して
 分析出来るサービス できること 大量の声から事業改善につながる
 課題や期待を抽出し、深い顧客理解ができる 4 / 35

Slide 5

Slide 5 text

プロダクト紹介 Commune Voiceについて 5 / 35

Slide 6

Slide 6 text

Voiceで採用しているトピックの生成(今回話すAI精度の題材) 大量のVoCを意味でまとめ、短時間での理解と、比較を可能に 6 / 35

Slide 7

Slide 7 text

プロダクトのイメージ 全文を読まずに、 どんな声が 届いているか 定量的に
 理解できる 7 / 35

Slide 8

Slide 8 text

AIと事業の優先順位 8 / 35

Slide 9

Slide 9 text

新規事業でAIを組み込んだプロダクト開発をすることになった! 元DSとして、AIを活用したVoCの理解を実現するためにまず考えたくなったこと どうやったらタスク (VoC理解のためのタグ付与)を解けるか モデルの入出力は何にするか どうやったら精度はあがるか どんなプロンプトにするか どのモデルプロバイダーを使うか... 9 / 35

Slide 10

Slide 10 text

しかし、AIの本番運用において、精度やコードベースは一部 MLシステムと同様に、モニタリング、パイプラインのマネジメントなど考慮点が多数ある 10 / 35 D. Sculley et al., Hidden Technical Debt in ML Systems, NeurIPS 2015.

Slide 11

Slide 11 text

さらに、AIの本番運用すら、事業全体から見たらごく一部 どのように実現するかのHow以前に、誰をどんな状態にしたいか決めないといけない D. Sculley et al., Hidden Technical Debt in ML Systems, 
 NeurIPS 2015. 11 / 35 及川 卓也; 小城 久美子; 曽根原 春樹. 
 プロダクトマネジメントのすべて 事業戦略・IT開発・UXデザイン・マーケティングからチーム・組織運営まで

Slide 12

Slide 12 text

AIでタスクを精度高く解けても それは事業の一部 他にも考えるべきことが多くある 12 / 35

Slide 13

Slide 13 text

AIの活用や精度改善は 事業の一部にすぎないのであれば、 優先度も後回しで良いのか? 13 / 35

Slide 14

Slide 14 text

No → AIの精度や技術インフラは依然として重要 AI活用でハイパフォーマンスな企業はそうでない企業に比べ Human in the Loop, テクノロジーインフラなどを推進している 14 / 35 https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai#

Slide 15

Slide 15 text

No → VoiceにおいてAI活用(トピックの付与)は価値提供のコア 15 / 35 VoCから示唆を出し、意思決定に繋げるには 必要な声に素早くたどり着くための要約・定量化が必要

Slide 16

Slide 16 text

Commune Voiceにおいて 「一部だけど必須なコア要素」
 と言えそう AI精度は 16 / 35

Slide 17

Slide 17 text

新規事業において「一部だけどコア」な
 どう優先順位づけて 進めれば良いのか? AI精度は 17 / 35

Slide 18

Slide 18 text

いきなり作り込み過ぎない。まず売れるかを確かめる 市場の不確実性を減らさないと手戻りが大きい 要求を理解しながら、本当に作れるか確かめる 徐々に改善し続けられる仕組みを育てる AIの精度は一度に良くならないので改善の基盤を作る 手動、デモアプリ、本番実装と、徐々にコストをかけ検証 新規事業における「一部だけどコア」なAI精度の優先順位づけ 18 / 35

Slide 19

Slide 19 text

いきなり作り込み過ぎない。まず売れるかを確かめる 作るには時間がかかるのでまず市場の不確実性を削減。技術不確実性の解消は徐々に解消。 19 / 35 売れるのか? 作れるのか?

Slide 20

Slide 20 text

要求を理解しながら、本当に作れるか確かめる フィットジャーニーを進めながら、その各段階で精度改善できる準備を進めていく 必要な精度と
 スケーラビリティ 事業の不確実性 20 / 35

Slide 21

Slide 21 text

徐々に改善し続けられる仕組みを育てる 精度改善には継続的な取り組み・技術基盤が必要なので、 併せてAI側の仕込みを進める 21 / 35

Slide 22

Slide 22 text

Commune Voiceにおける と の両輪 価値の検証 AI精度改善 22 / 35

Slide 23

Slide 23 text

CPF:業務フローを聞き、課題の存在と濃さを理解する 広くVoC分析をしている/したい人に業務を聞きに行く CPF = Customer Problem Fit (顧客の課題が存在するか確認するフェーズ) 23 / 35

Slide 24

Slide 24 text

CPF:業務フローの解像度を高めながら、AIを活用するための情報を仕入れる 課題の存在を確かめつつ、現状がどんなプロセス・入出力になっているか聞く CPF = Customer Problem Fit (顧客の課題が存在するか確認するフェーズ) 入力: ユーザーは日頃、何を見ているのか? 手順: どういう切り口・軸で分析している? 出力: 誰に、どういう形式で報告している? コスト: 日々の分析にどれくらい時間や労力をかけている? etc.. 24 / 35

Slide 25

Slide 25 text

PSF:人の業務のどこをプロダクト化できるとスケールするか考える 人力でやっているフローやその時の思考を洗い出し プロダクト・AIで代替すべき場所を見つける PSF = Problem Solution Fit (課題を解決出来るか確認するフェーズ) 25 / 35

Slide 26

Slide 26 text

PSF:人力で「精度」と「価値」を測る 実際に手でエクセルにまとめる、Notebookで可視化するなど 手動でレポートをつくり、どんな形なら価値につながるのか検証する PSF = Problem Solution Fit (課題を解決出来るか確認するフェーズ) 26 / 35

Slide 27

Slide 27 text

SPF:捨てられるコードで「精度」と「実現可能性」を検証する Streamlitなどのデモツールで、高速に価値を生めるか検証する SPF = Solution Product Fit (解決策がプロダクトとして実装できるか確認するフェーズ) 27 / 35

Slide 28

Slide 28 text

Commune Voiceにおける プロダクトの開発とAI精度改善の両輪 28 / 35

Slide 29

Slide 29 text

PMF:スケール出来るように改善方針を評価指標でピン止め 評価指標を定義・計測し、行き当たりばったりの改善にならないようにする PMF = Product Market Fit (プロダクトが市場に受け入れられたかを確認するフェーズ) 29 / 35

Slide 30

Slide 30 text

トピック品質の精度 名前の形・表記の適切さ スタイルガイドを守れているか (ex. 文体・文字数・NGワード) 原文忠実さ 元の声の内容と矛盾していないか
 (ハルシネーションがないか) ビジネス上の有用性 事業者にとってアクションのヒン トになるか 論点カバー率 VoCから抽出するべき論点が抜け もれなくトピックになっているか トピックへの要求を評価に落とし込む 生成されたトピックが事業成果につながるものになっているか確認する 30 / 35

Slide 31

Slide 31 text

トピックの生成 これまでの実験結果を基に
 パラメータやモデルを調整し、トピックを生成する 定量評価 定量的な指標による実験結果の確認。
 実験がうまくいっているかを機械的に比較 定性評価 トピックをUIに近い形で確認。
 指標に現れない違和感がないかをチェック 分析と改善 評価結果から改善点を特定し、
 精度改善に生かす 指標に基づく短いフィードバックループを回し続ける 評価指標を短いスパンで何度も計測し、改善することで事業に使える形にする 31 / 35

Slide 32

Slide 32 text

リリース前にLLMで評価(LLM as a Judge)し、チューニングする 生成したトピックを自動評価する仕組みを作り、複数の実験を比較する 生成されたトピックを入力に評価値を出力するスクリプトを実装 スプレッドシートで比較出来るようにcsvで出力する 32 / 35

Slide 33

Slide 33 text

本番品質のトピックを提供出来るようにLLMOpsパイプラインも整備 33 / 35 ワークフローエンジンを活用し、AIパイプラインの安定性・監視性を担保

Slide 34

Slide 34 text

(Future Work) VoiceにおけるAI Agentの開発 トピックの生成により分析が容易になり開発の土壌ができた
 示唆だしなどの自動化に取り組む予定 34 / 35

Slide 35

Slide 35 text

いきなり作り込み過ぎない。まず売れるかを確かめる 市場の不確実性を減らさないと手戻りが大きい 要求を理解しながら、本当に作れるか確かめる 徐々に改善し続けられる仕組みを育てる AIの精度は一度に良くならないので改善の基盤を作る 手動、デモアプリ、本番実装と、徐々にコストをかけ検証 新規事業における「一部だけどコア」なAI精度の優先順位づけ 35 / 35