Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
新規事業における「一部だけどコア」な AI精度改善の優先順位づけ
Search
Higuchi kokoro
January 27, 2026
Technology
0
78
新規事業における「一部だけどコア」な AI精度改善の優先順位づけ
ML/DSバックグラウンドだからこそ面白い。AIエージェントをプロダクトに実装する、泥臭い裏側と挑戦
Higuchi kokoro
January 27, 2026
Tweet
Share
More Decks by Higuchi kokoro
See All by Higuchi kokoro
普段使ってるClaude Skillsの紹介(by Notebooklm)
zerebom
9
2.9k
曖昧なLLMの出力をプロダクト価値へつなげる、要求の具体化と評価
zerebom
4
600
PMとしてLLMと上手くプロダクトを作るための抽象度レイヤーの設計
zerebom
3
1.1k
PMになって痛感した未知の未知とその対策
zerebom
1
560
Pythonによるネットワーク分析の基礎とコミュニティサクセスへの応用
zerebom
4
1.5k
Polarsの成長: v0.14からv1.0までの変遷と今後の展望
zerebom
1
1.1k
ダッシュボードを使ってもらうには、 現場へのヒアリングが重要だと 改めて気づいた話
zerebom
5
2.1k
非同期処理でLLMにもっと働いてもらおう
zerebom
2
2.2k
使い回しやすい 2-stage recommender systemの デザインパターンを考えて実装した話
zerebom
3
2.2k
Other Decks in Technology
See All in Technology
Azure SRE Agent x PagerDutyによる近未来インシデント対応への期待 / The Future of Incident Response: Azure SRE Agent x PagerDuty
aeonpeople
0
140
Behind the Stream - How AbemaTV Engineers Build Video Apps at Scale
ygoto3
0
130
Kaggleコンペティション「MABe Challenge - Social Action Recognition in Mice」振り返り
yu4u
1
740
クラウドセキュリティの進化 — AWSの20年を振り返る
kei4eva4
0
160
ビジュアルプログラミングIoTLT vol.22
1ftseabass
PRO
0
140
Exadata Database Service ソフトウェアのアップデートとアップグレードの概要
oracle4engineer
PRO
1
1.2k
これまでのネットワーク運用を変えるかもしれないアプデをおさらい
hatahata021
4
270
Models vs Bounded Contexts for Domain Modularizati...
ewolff
0
220
Hardware/Software Co-design: Motivations and reflections with respect to security
bcantrill
1
250
SREの仕事を自動化する際にやっておきたい5つのポイント
jacopen
6
940
ファシリテーション勉強中 その場に何が求められるかを考えるようになるまで / 20260123 Naoki Takahashi
shift_evolve
PRO
3
360
Regional_NAT_Gatewayについて_basicとの違い_試した内容スケールアウト_インについて_IPv6_dual_networkでの使い分けなど.pdf
cloudevcode
1
120
Featured
See All Featured
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
42
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.1k
Avoiding the “Bad Training, Faster” Trap in the Age of AI
tmiket
0
61
Mind Mapping
helmedeiros
PRO
0
54
Money Talks: Using Revenue to Get Sh*t Done
nikkihalliwell
0
140
30 Presentation Tips
portentint
PRO
1
190
WCS-LA-2024
lcolladotor
0
430
Un-Boring Meetings
codingconduct
0
190
Are puppies a ranking factor?
jonoalderson
1
2.6k
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
900
Docker and Python
trallard
47
3.7k
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
58
42k
Transcript
新規事業における「一部だけどコア」な の優先順位づけ AI精度 Kokoro Higuchi ML/DSバックグラウンドだからこそ面白い。AIエージェントをプロダクトに実装する、泥臭い裏側と挑戦 2026/01/27 2026 | ©
Commune Inc. All rights reserved
Wantedlyのデータサイエンティスト 推薦システムの改善・実装 コミューンのデータサイエンティスト コミュニティのデータ分析・AIを使った社内業務支援 コミューンのプロダクトマネージャー 新規事業 Commune Voiceの立ち上げ 自己紹介 樋口
心 /@zerebom_3 コミューン株式会社 Product Manager / Data Scientist 2 / 35
プロダクト紹介 3 / 35
プロダクト紹介 Commune Voiceについて どんな製品か コミュニティやSNSに寄せられた 膨大なユーザーの声を生成AIを活用して 分析出来るサービス できること 大量の声から事業改善につながる 課題や期待を抽出し、深い顧客理解ができる
4 / 35
プロダクト紹介 Commune Voiceについて 5 / 35
Voiceで採用しているトピックの生成(今回話すAI精度の題材) 大量のVoCを意味でまとめ、短時間での理解と、比較を可能に 6 / 35
プロダクトのイメージ 全文を読まずに、 どんな声が 届いているか 定量的に 理解できる 7 / 35
AIと事業の優先順位 8 / 35
新規事業でAIを組み込んだプロダクト開発をすることになった! 元DSとして、AIを活用したVoCの理解を実現するためにまず考えたくなったこと どうやったらタスク (VoC理解のためのタグ付与)を解けるか モデルの入出力は何にするか どうやったら精度はあがるか どんなプロンプトにするか どのモデルプロバイダーを使うか... 9 /
35
しかし、AIの本番運用において、精度やコードベースは一部 MLシステムと同様に、モニタリング、パイプラインのマネジメントなど考慮点が多数ある 10 / 35 D. Sculley et al., Hidden
Technical Debt in ML Systems, NeurIPS 2015.
さらに、AIの本番運用すら、事業全体から見たらごく一部 どのように実現するかのHow以前に、誰をどんな状態にしたいか決めないといけない D. Sculley et al., Hidden Technical Debt in
ML Systems, NeurIPS 2015. 11 / 35 及川 卓也; 小城 久美子; 曽根原 春樹. プロダクトマネジメントのすべて 事業戦略・IT開発・UXデザイン・マーケティングからチーム・組織運営まで
AIでタスクを精度高く解けても それは事業の一部 他にも考えるべきことが多くある 12 / 35
AIの活用や精度改善は 事業の一部にすぎないのであれば、 優先度も後回しで良いのか? 13 / 35
No → AIの精度や技術インフラは依然として重要 AI活用でハイパフォーマンスな企業はそうでない企業に比べ Human in the Loop, テクノロジーインフラなどを推進している 14
/ 35 https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai#
No → VoiceにおいてAI活用(トピックの付与)は価値提供のコア 15 / 35 VoCから示唆を出し、意思決定に繋げるには 必要な声に素早くたどり着くための要約・定量化が必要
Commune Voiceにおいて 「一部だけど必須なコア要素」 と言えそう AI精度は 16 / 35
新規事業において「一部だけどコア」な どう優先順位づけて 進めれば良いのか? AI精度は 17 / 35
いきなり作り込み過ぎない。まず売れるかを確かめる 市場の不確実性を減らさないと手戻りが大きい 要求を理解しながら、本当に作れるか確かめる 徐々に改善し続けられる仕組みを育てる AIの精度は一度に良くならないので改善の基盤を作る 手動、デモアプリ、本番実装と、徐々にコストをかけ検証 新規事業における「一部だけどコア」なAI精度の優先順位づけ 18 / 35
いきなり作り込み過ぎない。まず売れるかを確かめる 作るには時間がかかるのでまず市場の不確実性を削減。技術不確実性の解消は徐々に解消。 19 / 35 売れるのか? 作れるのか?
要求を理解しながら、本当に作れるか確かめる フィットジャーニーを進めながら、その各段階で精度改善できる準備を進めていく 必要な精度と スケーラビリティ 事業の不確実性 20 / 35
徐々に改善し続けられる仕組みを育てる 精度改善には継続的な取り組み・技術基盤が必要なので、 併せてAI側の仕込みを進める 21 / 35
Commune Voiceにおける と の両輪 価値の検証 AI精度改善 22 / 35
CPF:業務フローを聞き、課題の存在と濃さを理解する 広くVoC分析をしている/したい人に業務を聞きに行く CPF = Customer Problem Fit (顧客の課題が存在するか確認するフェーズ) 23 /
35
CPF:業務フローの解像度を高めながら、AIを活用するための情報を仕入れる 課題の存在を確かめつつ、現状がどんなプロセス・入出力になっているか聞く CPF = Customer Problem Fit (顧客の課題が存在するか確認するフェーズ) 入力: ユーザーは日頃、何を見ているのか?
手順: どういう切り口・軸で分析している? 出力: 誰に、どういう形式で報告している? コスト: 日々の分析にどれくらい時間や労力をかけている? etc.. 24 / 35
PSF:人の業務のどこをプロダクト化できるとスケールするか考える 人力でやっているフローやその時の思考を洗い出し プロダクト・AIで代替すべき場所を見つける PSF = Problem Solution Fit (課題を解決出来るか確認するフェーズ) 25
/ 35
PSF:人力で「精度」と「価値」を測る 実際に手でエクセルにまとめる、Notebookで可視化するなど 手動でレポートをつくり、どんな形なら価値につながるのか検証する PSF = Problem Solution Fit (課題を解決出来るか確認するフェーズ) 26
/ 35
SPF:捨てられるコードで「精度」と「実現可能性」を検証する Streamlitなどのデモツールで、高速に価値を生めるか検証する SPF = Solution Product Fit (解決策がプロダクトとして実装できるか確認するフェーズ) 27 /
35
Commune Voiceにおける プロダクトの開発とAI精度改善の両輪 28 / 35
PMF:スケール出来るように改善方針を評価指標でピン止め 評価指標を定義・計測し、行き当たりばったりの改善にならないようにする PMF = Product Market Fit (プロダクトが市場に受け入れられたかを確認するフェーズ) 29 /
35
トピック品質の精度 名前の形・表記の適切さ スタイルガイドを守れているか (ex. 文体・文字数・NGワード) 原文忠実さ 元の声の内容と矛盾していないか (ハルシネーションがないか) ビジネス上の有用性 事業者にとってアクションのヒン
トになるか 論点カバー率 VoCから抽出するべき論点が抜け もれなくトピックになっているか トピックへの要求を評価に落とし込む 生成されたトピックが事業成果につながるものになっているか確認する 30 / 35
トピックの生成 これまでの実験結果を基に パラメータやモデルを調整し、トピックを生成する 定量評価 定量的な指標による実験結果の確認。 実験がうまくいっているかを機械的に比較 定性評価 トピックをUIに近い形で確認。 指標に現れない違和感がないかをチェック 分析と改善
評価結果から改善点を特定し、 精度改善に生かす 指標に基づく短いフィードバックループを回し続ける 評価指標を短いスパンで何度も計測し、改善することで事業に使える形にする 31 / 35
リリース前にLLMで評価(LLM as a Judge)し、チューニングする 生成したトピックを自動評価する仕組みを作り、複数の実験を比較する 生成されたトピックを入力に評価値を出力するスクリプトを実装 スプレッドシートで比較出来るようにcsvで出力する 32 / 35
本番品質のトピックを提供出来るようにLLMOpsパイプラインも整備 33 / 35 ワークフローエンジンを活用し、AIパイプラインの安定性・監視性を担保
(Future Work) VoiceにおけるAI Agentの開発 トピックの生成により分析が容易になり開発の土壌ができた 示唆だしなどの自動化に取り組む予定 34 / 35
いきなり作り込み過ぎない。まず売れるかを確かめる 市場の不確実性を減らさないと手戻りが大きい 要求を理解しながら、本当に作れるか確かめる 徐々に改善し続けられる仕組みを育てる AIの精度は一度に良くならないので改善の基盤を作る 手動、デモアプリ、本番実装と、徐々にコストをかけ検証 新規事業における「一部だけどコア」なAI精度の優先順位づけ 35 / 35