Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLM活用プロダクトを作るときに気をつけたこと〜問題は小さく分けて、いい分析にはいいデータを〜

mento _official
September 02, 2024
820

 LLM活用プロダクトを作るときに気をつけたこと〜問題は小さく分けて、いい分析にはいいデータを〜

mento _official

September 02, 2024
Tweet

Transcript

  1. mento Inc. どう直していくのか? 録音データ 文字起こし 要約データ (AIサマリー) 機械学習のプロダクト実装の基本通り、愚直に解きました 「問題は小さく分けて、いい分析にはいいデータを」 文字起こしの精度が低い

    • 誤字が存在する • 脱字が存在する • 発話していない単語が存在する 要約結果の精度が低い • 誤字が存在する • 抽出したい内容が含まれていない • 発言していない内容が含まれる • 意味がある抽象度ではない • フォーマットを守れていない
  2. mento Inc. 文字起こしの精度について 誤字が存在 • コーチングのデータに対して、複数のモデルを適用し検証 ◦ Amazon transcribe/Gemini/Azure Speech

    to text/AmiVoice/Whipser(v2/v3)/… 脱字が存在 • 話者が重なった場合に誤りが増えるケースが多い • 音声認識問題の前提として、音声ファイルが分離されているケースの精度が良い • そもそも録音時に、音声ファイルを話者分離できるサービスを利用 発言していない内容が存在 • コーチングが1on1のため、話者分離されている場合、無音期間が長くなる • 無音期間に対して、特定のモデルは文字起こしの精度が非常に不安定になる ◦ 「ご視聴ありがとうございました」問題 • 発話区間推定(Voice Activity Detection)を行い、発生部分のみを文字起こしを実施 ※もちろん精度以外の運用観点/法務観点も考慮し最終意思決定
  3. mento Inc. どう直していくのか? 録音データ (音源分離済み) 文字起こし 要約データ (AIサマリー) 機械学習のプロダクト実装の基本通り、愚直に解きました 「問題は小さく分けて、いい分析にはいいデータを」

    要約結果の精度が低い • 誤字が存在する • 抽出したい内容が含まれていない • 発言していない内容が含まれる • 意味がある抽象度ではない • フォーマットを守れていない VAD
  4. mento Inc. 要約の精度 誤字が存在 • 誤字の中でも「人名」「専門用語」など一定のパターン化が可能なものは、個別の前処理で対応 抽出したい内容が含まれていない • 文字起こし全体をいきなり要約させるのではなく段落分けから開始 発言していない内容が含まれる/意味がある抽象度ではない

    • 要約を「キーワード特定」「ネクストアクション特定」「テーマ特定」の3タスクに分けて実施 フォーマットを守れていない • Function calling/Structured Outputなどフォーマットをある程度固められるものを利用 ※もちろん精度以外の運用観点/法務観点も考慮し最終意思決定
  5. mento Inc. 補足 軽く試したけどうまくいかなかったので、もしいいアイデアあったら教えて下さい、なこと • Whisperに対するprompting ◦ トークン数少ない... • 文字起こし自体のLLMによる修正

    ◦ 誤字脱字の修正 ◦ 事前情報(プロフィールなど)に応じた修正 逆に、mentoでは試してないし、弊社の今のフェーズではやらないと決めていること • 自社モデルの構築 • Fine-tuning