新規事業における「一部だけどコア」な AI精度改善の優先順位づけ

by Higuchi kokoro

Embed

Start on current slide

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Wantedlyのデータサイエンティスト推薦システムの改善・実装コミューンのデータサイエンティストコミュニティのデータ分析・AIを使った社内業務支援コミューンのプロダクトマネージャー新規事業 Commune Voiceの立ち上げ自己紹介樋口心 /@zerebom_3 コミューン株式会社 Product Manager / Data Scientist 2 / 35

Slide 3

Slide 3 text

プロダクト紹介 3 / 35

Slide 4

Slide 4 text

プロダクト紹介 Commune Voiceについてどんな製品かコミュニティやSNSに寄せられた  膨大なユーザーの声を生成AIを活用して  分析出来るサービスできること大量の声から事業改善につながる  課題や期待を抽出し、深い顧客理解ができる 4 / 35

Slide 5

Slide 5 text

プロダクト紹介 Commune Voiceについて 5 / 35

Slide 6

Slide 6 text

Voiceで採用しているトピックの生成(今回話すAI精度の題材) 大量のVoCを意味でまとめ、短時間での理解と、比較を可能に 6 / 35

Slide 7

Slide 7 text

プロダクトのイメージ全文を読まずに、どんな声が届いているか定量的に  理解できる 7 / 35

Slide 8

Slide 8 text

AIと事業の優先順位 8 / 35

Slide 9

Slide 9 text

新規事業でAIを組み込んだプロダクト開発をすることになった！元DSとして、AIを活用したVoCの理解を実現するためにまず考えたくなったことどうやったらタスク (VoC理解のためのタグ付与)を解けるかモデルの入出力は何にするかどうやったら精度はあがるかどんなプロンプトにするかどのモデルプロバイダーを使うか... 9 / 35

Slide 10

Slide 10 text

しかし、AIの本番運用において、精度やコードベースは一部 MLシステムと同様に、モニタリング、パイプラインのマネジメントなど考慮点が多数ある 10 / 35 D. Sculley et al., Hidden Technical Debt in ML Systems, NeurIPS 2015.

Slide 11

Slide 11 text

さらに、AIの本番運用すら、事業全体から見たらごく一部どのように実現するかのHow以前に、誰をどんな状態にしたいか決めないといけない D. Sculley et al., Hidden Technical Debt in ML Systems,   NeurIPS 2015. 11 / 35 及川卓也; 小城久美子; 曽根原春樹.   プロダクトマネジメントのすべて事業戦略・IT開発・UXデザイン・マーケティングからチーム・組織運営まで

Slide 12

Slide 12 text

AIでタスクを精度高く解けてもそれは事業の一部他にも考えるべきことが多くある 12 / 35

Slide 13

Slide 13 text

AIの活用や精度改善は事業の一部にすぎないのであれば、優先度も後回しで良いのか? 13 / 35

Slide 14

Slide 14 text

No → AIの精度や技術インフラは依然として重要 AI活用でハイパフォーマンスな企業はそうでない企業に比べ Human in the Loop, テクノロジーインフラなどを推進している 14 / 35 https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai#

Slide 15

Slide 15 text

No → VoiceにおいてAI活用(トピックの付与)は価値提供のコア 15 / 35 VoCから示唆を出し、意思決定に繋げるには必要な声に素早くたどり着くための要約・定量化が必要

Slide 16

Slide 16 text

Commune Voiceにおいて「一部だけど必須なコア要素」  と言えそう AI精度は 16 / 35

Slide 17

Slide 17 text

新規事業において「一部だけどコア」な  どう優先順位づけて進めれば良いのか? AI精度は 17 / 35

Slide 18

Slide 18 text

いきなり作り込み過ぎない。まず売れるかを確かめる市場の不確実性を減らさないと手戻りが大きい要求を理解しながら、本当に作れるか確かめる徐々に改善し続けられる仕組みを育てる AIの精度は一度に良くならないので改善の基盤を作る手動、デモアプリ、本番実装と、徐々にコストをかけ検証新規事業における「一部だけどコア」なAI精度の優先順位づけ 18 / 35

Slide 19

Slide 19 text

いきなり作り込み過ぎない。まず売れるかを確かめる作るには時間がかかるのでまず市場の不確実性を削減。技術不確実性の解消は徐々に解消。 19 / 35 売れるのか? 作れるのか?

Slide 20

Slide 20 text

要求を理解しながら、本当に作れるか確かめるフィットジャーニーを進めながら、その各段階で精度改善できる準備を進めていく必要な精度と  スケーラビリティ事業の不確実性 20 / 35

Slide 21

Slide 21 text

徐々に改善し続けられる仕組みを育てる精度改善には継続的な取り組み・技術基盤が必要なので、併せてAI側の仕込みを進める 21 / 35

Slide 22

Slide 22 text

Commune Voiceにおけるとの両輪価値の検証 AI精度改善 22 / 35

Slide 23

Slide 23 text

CPF：業務フローを聞き、課題の存在と濃さを理解する広くVoC分析をしている/したい人に業務を聞きに行く CPF = Customer Problem Fit (顧客の課題が存在するか確認するフェーズ) 23 / 35

Slide 24

Slide 24 text

CPF：業務フローの解像度を高めながら、AIを活用するための情報を仕入れる課題の存在を確かめつつ、現状がどんなプロセス・入出力になっているか聞く CPF = Customer Problem Fit (顧客の課題が存在するか確認するフェーズ) 入力: ユーザーは日頃、何を見ているのか？手順: どういう切り口・軸で分析している? 出力: 誰に、どういう形式で報告している？コスト: 日々の分析にどれくらい時間や労力をかけている? etc.. 24 / 35

Slide 25

Slide 25 text

PSF：人の業務のどこをプロダクト化できるとスケールするか考える人力でやっているフローやその時の思考を洗い出しプロダクト･AIで代替すべき場所を見つける PSF = Problem Solution Fit (課題を解決出来るか確認するフェーズ) 25 / 35

Slide 26

Slide 26 text

PSF：人力で「精度」と「価値」を測る実際に手でエクセルにまとめる、Notebookで可視化するなど手動でレポートをつくり、どんな形なら価値につながるのか検証する PSF = Problem Solution Fit (課題を解決出来るか確認するフェーズ) 26 / 35

Slide 27

Slide 27 text

SPF：捨てられるコードで「精度」と「実現可能性」を検証する Streamlitなどのデモツールで、高速に価値を生めるか検証する SPF = Solution Product Fit (解決策がプロダクトとして実装できるか確認するフェーズ) 27 / 35

Slide 28

Slide 28 text

Commune Voiceにおけるプロダクトの開発とAI精度改善の両輪 28 / 35

Slide 29

Slide 29 text

PMF：スケール出来るように改善方針を評価指標でピン止め評価指標を定義・計測し、行き当たりばったりの改善にならないようにする PMF = Product Market Fit (プロダクトが市場に受け入れられたかを確認するフェーズ) 29 / 35

Slide 30

Slide 30 text

トピック品質の精度名前の形・表記の適切さスタイルガイドを守れているか（ex. 文体・文字数・NGワード）原文忠実さ元の声の内容と矛盾していないか  （ハルシネーションがないか）ビジネス上の有用性事業者にとってアクションのヒントになるか論点カバー率 VoCから抽出するべき論点が抜けもれなくトピックになっているかトピックへの要求を評価に落とし込む生成されたトピックが事業成果につながるものになっているか確認する 30 / 35

Slide 31

Slide 31 text

トピックの生成これまでの実験結果を基に  パラメータやモデルを調整し、トピックを生成する定量評価定量的な指標による実験結果の確認。  実験がうまくいっているかを機械的に比較定性評価トピックをUIに近い形で確認。  指標に現れない違和感がないかをチェック分析と改善評価結果から改善点を特定し、  精度改善に生かす指標に基づく短いフィードバックループを回し続ける評価指標を短いスパンで何度も計測し、改善することで事業に使える形にする 31 / 35

Slide 32

Slide 32 text

リリース前にLLMで評価(LLM as a Judge)し、チューニングする生成したトピックを自動評価する仕組みを作り、複数の実験を比較する生成されたトピックを入力に評価値を出力するスクリプトを実装スプレッドシートで比較出来るようにcsvで出力する 32 / 35

Slide 33

Slide 33 text

本番品質のトピックを提供出来るようにLLMOpsパイプラインも整備 33 / 35 ワークフローエンジンを活用し、AIパイプラインの安定性・監視性を担保

Slide 34

Slide 34 text

(Future Work) VoiceにおけるAI Agentの開発トピックの生成により分析が容易になり開発の土壌ができた  示唆だしなどの自動化に取り組む予定 34 / 35