Upgrade to Pro — share decks privately, control downloads, hide ads and more …

PdMからみた品質管理の行いやすいLLMの開発テーマ選定

 PdMからみた品質管理の行いやすいLLMの開発テーマ選定

片山燎平

August 18, 2023
Tweet

Other Decks in Technology

Transcript

  1. © 2015 - 2022 Nowcast Inc. 2 はじめに • より多くのデータの価値をより多くの人へ届けるために、ビッグデータの

    Two-sided Platformビジネスをしています • 「データを取得」→「プロダクトを作ってマネタイズ」→「実績や顧客とのつながりによりデータ開拓の交渉力が上がる」 →「データ が増える」→…という好循環を回すビジネスです • クレカ、POS、位置情報、求人データ、Eメールレシートデータなど、様々なデータを取り扱っています。 Nowcastはどんな会社?
  2. © 2015 - 2022 Nowcast Inc. 3 はじめに • クレカデータ、POSデータ、位置情報データ、求人データ、

    TV CMデータ、海外のクレカデータなど、様々なデータを扱っていま す Nowcastはどんな会社?
  3. © 2015 - 2022 Nowcast Inc. 4 はじめに • メインのビジネスは機関投資家向けの分析サービスです。

    • ニッチな市場ですが、伸びてる市場で、日本におけるトッププレイヤーです。 • 決算で開示される売上を予測したり、企業の深掘り分析に活用したり、様々なユースケースを提供しています。 海外の機関投資家にビッグデータを売っています 工場の人流データで FANUCの売上が予測できる事例 2030年に米国は16兆円以上の市場規模になると言われている
  4. © 2015 - 2022 Nowcast Inc. 5 はじめに 簡単な自己紹介 •

    データエンジニアリングやデータ分析を5年く らいやってました。 • WEB開発やMLの案件も数年ずつやってま した。 • 最近はPdMとして機関投資家向け事業全般 を担当しています。 • LLMに魅せられてLLM×データ基盤を軸にし た研究開発兼ソリューションチームの立ち上 げを行っています。 • 趣味はカラオケ、ピアノ、登山、スキー、アニ メです • (注)最前線でゴリゴリコードを書いてるわけ ではないので、今回はPdMの立場から発表 します
  5. © 2015 - 2022 Nowcast Inc. 6 LLMのプロダクト化への私見 PdM的視点で見るとLLMのプロダクト化は人類には少し早い(個人的見解) プロンプトの曖昧性

    どの表現がどの出力に影響してるかが不明瞭。人 が書いた長文プロンプトのメンテなんて想像もしたく ない。 レイテンシー 単純に遅い。これだけでユースケースがめちゃく ちゃ限られる。 ガードレールの不足 誰にどの情報を出すかわからないから、怖くて機密 情報とか与えられない。 RAGの限界 ベクトル検索の頼りなさ。トークン数によるコスト増 加。必要なデータ整備の手間。ドメイン知識やコン テキストの言語化の難しさ ファインチューニングの難易度 ファインチューニングには可能性を感じるが、手間 はかかるしできる人も限られる。 これらの課題は1年もすれば世界中のプレイヤーが解決してくれると考えている。 ただ、LLMを中心にプロダクトを実装するタイミングは ”今”ではない。
  6. © 2015 - 2022 Nowcast Inc. 7 LLMのプロダクト化への私見 LLMを自然言語処理の要素技術として捉え直してテーマを選定する 万能アシス

    タント AGI 分析の 完全自動化 簡単なコメ ント生成 テキスト 分類 情報抽出 冗長検索 派手なユースケースに引っ張られず、派手なユースケースに引っ張られた意思決定者を冷静に説得し、 LLMが確実に成果を出せる大きさまでス コープを狭める。 LLMは何も知らないけど超頭の良い新卒 1年目のようなもの。身の丈にあったタスクを渡して上げるのが大事。 「なんでもできるAI」ではなく「自然言語処理の要素技術」としてシステムに組み込むことで品質の管理もしやすくなる。
  7. © 2015 - 2022 Nowcast Inc. 8 LLMのプロダクト化への私見 良い開発テーマの条件 2.

    深いドメイン知識が必要ない。もしくはそのドメインに関 する知識が世に広く出回っている RAGにも限界がある。できるだけドメイン知識が求められないタスクを選ぶこ とが望ましい。ただし、法律、医療、コーディングなどインターネット上にそのド メインに関する資料が豊富な場合は、既にLLMがそのドメイン知識を有してい る可能性が高い。 1. タスクの正解が簡単に判断できる。もしくは正解がない レポート作成や複雑なQA対応など、正解の判断を人が行っても難しいもの は、もちろんLLMにやらせても難しい。利用者が1秒で正解か判断できる、もし くは機械的に精度が検証できるテーマが望ましい。 もしくは、キャッチコピー生成の様に唯一の正解がないテーマもやりやすい。 3. タスクの完了に必要なコンテキストが少なく、かつコンテ キストの言語化が容易 必要なコンテキストが1つのプロンプトに収まることがほぼ必須要件。加えてコ ンテキストの言語化が容易である必要もある。 例えば、提案書作成などは一見できそうに見えても、商談の背景、ステークホ ルダー、会社の事業戦略、担当者の能力など、言語化の難しいコンテキストが 多く存在。 4. ユーザーがプロンプトを入力しない ユーザーは想像の10倍思ったように動いてくれない。一般的なWEBアプリ ケーションですら、開発者の想定しない使い方をされる。ただでさえLLMの出 力ロジックがブラックボックスな中で、ユーザーの入力という変数まで加わると 難易度が跳ね上がる。 ※あくまで自分の開発経験の中でのまとめであり、 MECEなものではありません
  8. © 2015 - 2022 Nowcast Inc. 9 良い例と悪い例 悪い例)アナリストレポートをLLMに生成させる 右図はナウキャストが毎月出して

    いる機関投資家向けのPOSデータ のレポートからの1枚。 一見、事実を記述しているだけの 短いコメントに見えるが、裏には 様々なドメイン知識、コンテキスト、 作者の狙いが存在する。 実際にLLMでのコメント生成も試み たが、単純にテーブルデータの数 字を並べただけの無味乾燥なコメ ントとなってしまった。 ①正解の判断  △ ②ドメイン知識  ✕ ③コンテキスト  ✕ ④ユーザー対話  ◯
  9. © 2015 - 2022 Nowcast Inc. 10 良い例と悪い例 悪い例)アナリストレポートをLLMに生成させる ドメイン知識

    • 株式市場では引き続き食品メーカーの 値上げに注目が集まっている • 値上げの成功は株価にも大きく影響す るため、投資家は成否を予想している • 企業は値上げをする際、その幅を事前 にアナウンスする。ただし、そのとおり に値上げができるかは小売とのコミュ ニケーションにも依存する コンテキスト • このレポートはロング・ショート戦略を取 るヘッジファンドにメインで提供している • WEBポータルで顧客が自身でデータを 分析しているケースも有る 作者の意図 • 直近数ヶ月でメインプレイヤーが同時 に値上げをしてきたので、その成否を 企業ごとに解説すれば面白いはず。 ①正解の判断  △ ②ドメイン知識  ✕ ③コンテキスト  ✕ ④ユーザー対話  ◯
  10. © 2015 - 2022 Nowcast Inc. 11 良い例と悪い例 悪い例)金融市場のサマリーレポートを自動生成する 金融機関のお客様からは良く市場のサマリーレポート

    を自動化できないか?と聞かれる。 一見、事実を羅列してるだけなのでできそうに見える が、情報の取捨選択と情報同士の関係性を見抜くた めに、膨大なコンテキストを理解する必要がある。 米小売売上高のコンセンサスはいくつだったのか?ど の程度上回ると”予想を上回る”のか?他にも様々な ファクターがあるなかでなぜ小売売上高が金利へ影響 を与えると判断したのか?利上げ休止確率に変化が なかったのになぜ懸念が発生したのか? こういったコンテキストを言語化し、必要な情報を全て RAGで与えるのはほぼ不可能。 https://jp.reuters.com/article/ny-markets-summary-idJPL4N39W46Z ロイターの米国市場サマリー ①正解の判断  △ ②ドメイン知識  ✕ ③コンテキスト  ✕ ④ユーザー対話  ◯
  11. © 2015 - 2022 Nowcast Inc. 12 良い例と悪い例 悪い例)自社サービスのカスタマーサポートbotを実装する ナウキャストの機関投資家向け事業のカスタマーサポート

    bot を実装するために、社内のSlackで社員向けの環境を用意し 実験中 正しく回答できる質問も多数あるが、ユーザーの入力方法へ のロバストさが足りず、曖昧な表現が来ると誤った情報を返し てしまうケースが増える。 また、高いUXを実現するにはサービスに関する情報を網羅的 に言語化する必要もある。 提供できるユーザー価値の期待値に比べて、かかる工数が大 きいと判断し、優先度を少し下げた。 ※チャットボットについてはナウキャストも現在探索中のステー タスです
  12. © 2015 - 2022 Nowcast Inc. 13 良い例と悪い例 良い例)GA4のデータに簡単なコメントを付ける ①正解の判断 

    ◯ ②ドメイン知識  ◯ ③コンテキスト  ◯ ④ユーザー対話  ◯ NowcastのHPのGoogle Analyticsのデータにコメント をつけてみる
  13. © 2015 - 2022 Nowcast Inc. 14 良い例と悪い例 良い例)GA4のデータに簡単なコメントを付ける レポートから読み取れる事実

    : 1. 日本が最も多くのユーザー数 (2405人)と新規ユーザー数(2256人)を持っており、エンゲージのあったセッション数も最も多い (1929回)。 2. エンゲージメント率が最も高いのはメキシコで 1.0、次いでドイツで0.857143。 3. 平均エンゲージメント時間が最も長いのはアルジェリアで 498秒、次いでバングラデシュで 507秒。 4. イベント数が最も多いのは日本で 18930回、次いでアメリカで 772回。 5. コンバージョンと合計収益はすべての国で 0。 事実から構築できる仮説 : 1. 日本のユーザーが最も多いため、ナウキャストの認知拡大には日本市場が重要である。 2. エンゲージメント率が高い国 (メキシコ、ドイツ)では、ユーザーがコンテンツに興味を持っている可能性が高い。 3. 平均エンゲージメント時間が長い国 (アルジェリア、バングラデシュ )では、ユーザーがコンテンツをじっくりと読んでいる可能性がある。 効果的なデジタルマーケティング施策 : 1. 日本市場を重点的にターゲットにし、日本語コンテンツの充実や日本向けのプロモーション活動を行う。 2. エンゲージメント率が高い国 (メキシコ、ドイツ)に対して、ターゲット広告やコンテンツのローカライズを行い、さらなるエンゲージメントの向上を図 る。 3. 平均エンゲージメント時間が長い国 (アルジェリア、バングラデシュ )では、より詳細な情報提供や専門的なコンテンツを提供することで、ユーザー の興味を引き続き維持する。 4. すべての国でコンバージョンが 0であるため、コンバージョンを促す施策 (例: サービスの無料トライアルやデモの提供 )を検討する。 ①正解の判断  ◯ ②ドメイン知識  ◯ ③コンテキスト  ◯ ④ユーザー対話  ◯
  14. © 2015 - 2022 Nowcast Inc. 15 良い例と悪い例 良い例)GA4のデータに簡単なコメントを付ける レポートから読み取れる事実

    : 1. 日本が最も多くのユーザー数 (2405人)と新規ユーザー数(2256人)を持っており、エンゲージのあったセッション数も最も多い (1929回)。 2. エンゲージメント率が最も高いのはメキシコで 1.0、次いでドイツで0.857143。 3. 平均エンゲージメント時間が最も長いのはアルジェリアで 498秒、次いでバングラデシュで 507秒。 4. イベント数が最も多いのは日本で 18930回、次いでアメリカで 772回。 5. コンバージョンと合計収益はすべての国で 0。 事実から構築できる仮説 : 1. 日本のユーザーが最も多いため、ナウキャストの認知拡大には日本市場が重要である。 2. エンゲージメント率が高い国 (メキシコ、ドイツ)では、ユーザーがコンテンツに興味を持っている可能性が高い。 3. 平均エンゲージメント時間が長い国 (アルジェリア、バングラデシュ )では、ユーザーがコンテンツをじっくりと読んでいる可能性がある。 効果的なデジタルマーケティング施策 : 1. 日本市場を重点的にターゲットにし、日本語コンテンツの充実や日本向けのプロモーション活動を行う。 2. エンゲージメント率が高い国 (メキシコ、ドイツ)に対して、ターゲット広告やコンテンツのローカライズを行い、さらなるエンゲージメントの向上を図 る。 3. 平均エンゲージメント時間が長い国 (アルジェリア、バングラデシュ )では、より詳細な情報提供や専門的なコンテンツを提供することで、ユーザー の興味を引き続き維持する。 4. すべての国でコンバージョンが 0であるため、コンバージョンを促す施策 (例: サービスの無料トライアルやデモの提供 )を検討する。 ①正解の判断  ◯ ②ドメイン知識  ◯ ③コンテキスト  ◯ ④ユーザー対話  ◯ WEB上にこういった分析のソースが多いためか、単純なプロンプトでも投資分析領域 のコメント生成よりも雄弁に語っている。( =ドメイン知識を事前に体得している) デジタルマーケティングの領域は、 WEBサイト、広告などのテキストもLLMは理解でき るし、数字情報も比較的きれいにまとまっているので、コンテキストも与えやすい。 数値の抽出が正しいかの確認は必要だが、簡単なポイントの説明ではそこまで品質 チェックは大変ではない。
  15. © 2015 - 2022 Nowcast Inc. 16 良い例と悪い例 良い例)SNSで不適切なコメントを検知する [書き込み]

    株式投資都市伝説 あなただけにそっと教えます 絶対儲かる投資法 信じるか信じないかは あなた次第です [ラベル] スパム [理由] `株式投資都市伝説 あなただけにそっと教えます 絶対儲かる投資法 信じるか信じないかは あなた次第です`という文言が宣伝目 的の定型的な内容だから。 [書き込み] って思うなら過度なブロックはやめりゃええのに。 ブロック権を行使するか否かは、あんたの自由だから、ああしろこうしろと言うつ もりはないけど。 ようわからん人やわ。 [ラベル] 喧嘩腰 [理由] `あんた`, `ようわからん人`といった文言が失礼にあたるから。 [書き込み] マスコミの受け売りしかできないオツムなら、3密の意味ぐらいググれカス [ラベル] 誹謗中傷 [理由] `オツムなら、3密の意味ぐらいググれカス `という文言が他のユーザーを攻撃しているから。 ①正解の判断  △ ②ドメイン知識  ◯ ③コンテキスト  ◯ ④ユーザー対話  ◯ FinatextのプロダクトであるSNS型株取引サービ スの「Stream」の掲示板に書き込まれた不適切表 現を分類するタスク。 スパム、誹謗中傷、インサイダーなどのラベルを 内容に応じてコメントに付与する。 全ての不正コメントの内、 9割以上を正しく検知。 一般的な判断であるため、ドメイン知識もそこまで 必要ない。 対象がコメントに閉じているので、コンテキストも そこまで必要ない。
  16. © 2015 - 2022 Nowcast Inc. 17 良い例と悪い例 良い例)決算説明資料に対する質問を生成する 企業HP、決算説明資料などの複数のソースを参

    照し、投資家による企業へのインタビューでの質 問を自動生成。 質問を生成するだけでなく、質問の背景、目的な ども同時に生成できる。 ある程度のドメイン知識は求められるが、 LLMが 事前に習得している知識で対応できる範囲内。 コンテキストも質問の観点と資料の内容で概ね完 結する。 Question 1: Context: 株式会社フィナテキストホールディングスは、独立系IFA企業であるファイナンシャルスタンダード様と提携して、弊社の投 資一任のプラットフォームのDigital Wealth Managerを用いた米国株の投資一任サービスをリリースする運びとなりました。 Purpose: この提携による投資一任サービスの将来的な成長や収益性について理解するため。 Question: このファイナンシャルスタンダード様との提携による米国株の投資一任サービスは、今後どのような成長や収益性が見込 まれていますか? Question 2: Context: 保険インフラストラクチャ事業が非常に強い成長を見せ、+267%を記録いたしました。 Purpose: 保険インフラストラクチャ事業の今後の成長戦略や市場環境について理解するため。 Question: 保険インフラストラクチャ事業の今後の成長戦略や市場環境について、どのような見通しを持っていますか? Question 3: Context: 販管費が圧倒的に改善されまして、前年同期比で99%から60%と大きく改善がされました。 Purpose: 販管費の改善が持続可能であるかどうかを確認するため。 Question: 今後も販管費の改善が持続可能であると考えていますか?また、その理由は何ですか? Question 4: Context: 金融インフラストラクチャ事業は基幹システムなので、立ち上げ初期の段階では非常に重たいコストが発生するのですが、 これを前年度に比べて大幅に圧縮することができました。 Purpose: 金融インフラストラクチャ事業のコスト圧縮が今後も継続できるかどうかを確認するため。 Question: 今後も金融インフラストラクチャ事業のコスト圧縮が継続できると考えていますか?また、その理由は何ですか? Question 5: Context: ビッグデータ解析事業が38%の成長を実現しました。その中でも、特にAlterna Dataというデータライセンスビジネスが前年 同期比+51%という力強い成長を見せました。 Purpose: ビッグデータ解析事業の今後の成長戦略や市場環境について理解するため。 Question: ビッグデータ解析事業の今後の成長戦略や市場環境について、どのような見通しを持っていますか? ChatGPTが生成した質問の例 ①正解の判断  △ ②ドメイン知識  ◯ ③コンテキスト  ◯ ④ユーザー対話  ◯
  17. © 2015 - 2022 Nowcast Inc. 18 良い例と悪い例 テーマが良ければ品質担保もやりやすい まとめ

    • LLMの品質担保はめちゃくちゃ難易度が高い。これだけLLMが世界中で話題になっているが、Nice to haveで はなくMustなレベルで価値を感じられるサービスはGithub Copilotくらい(独断と偏見) • アイディアドリブンでサービスを考えるのではなく、品質担保の簡単さドリブンでサービスを考える方がうまくいく のでは • 品質担保の問題が解消されると、どんどんリリースができる。リリースを重ねると実践的な品質管理の知見もた めやすい。 • PdM的にはユーザーに価値が提供できる&開発難易度が低いテーマを選定し、小さくリリースを重ねることが 大切だと思っている