Upgrade to Pro — share decks privately, control downloads, hide ads and more …

実運用で学んだ 音声対話システムの評価とテスト

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.

実運用で学んだ 音声対話システムの評価とテスト

三田データ vol.1での資料です

Avatar for Yuichiro Machida

Yuichiro Machida

November 26, 2025
Tweet

More Decks by Yuichiro Machida

Other Decks in Technology

Transcript

  1. ⾃⼰紹介 ▪ 学⽣時代: 京都⼤学・⼤学院  ⾃然⾔語処理を学ぶ ▪ 2015年: 株式会社リクルートホールディングス  アプリ・Webのディレクター、データ分析等 ▪

    2019年: エクサウィザーズ  NLPエンジニア、チームリード、エンジニアリングマネージャー ▪ 2022年: IVRy  Point: 休⽇はボルダリングしかしていません 町⽥ 雄⼀郎 2 Head of AIE
  2. 基本的なオフライン評価 
 IVRyではパイプライン中の処理に合わせて評価データを複数作成しています
 - ASR(音声認識)用の音声データ
 - 主要対話の発話データ 
 - 住所・名前などの固有名詞

    
 - 評価指標: Word Error Rate
 - NLU用の発話と意図分類データ
 - 主要ドメインの発話データ 
 - サンプルのナレッジベース 
 - 評価指標: Precision / Recall / F1-Score

  3. オフライン評価に救われた話 
 古いLLMモデルから新しいモデルへの移行 
 ベンチマークスコアでは新モデルが良い。このままモデルを差し替えて問題ない?
 
 → オフライン評価で肯定・否定の確認発話は精度が低下 してしまうことが発覚
 (原因)

    与えていたFewShotデータが逆に精度を下げる原因になっていた
 たくさんのモデルが頻繁に各社から出てくるからこそ 
 オフライン評価で何がどう変わるかを確認することが大事 

  4. 自動架電テスト 1: シナリオベース 
 1件あたり30秒 ~ 2分程度かかるとして、30シナリオでも⼈間は30分程度かかる → ⾃動テストにより5分程度まで短縮 (6倍⾼速化)

    XXXです お名前は? 架電 Agent IVRy mainマージで最新ブランチを テスト環境にデプロイ ⾃動架電テスト開始 発話 シナリオ
  5. 人間による評価 
 
 - 許諾を得た⼀部の通話は各所の協⼒を得て直接評価する - わかることが多い - セールス /

    カスタマーサポート とも連携が必要 - ユーザーインタビュー形式になることも - ⼈的コストは⼤分かかる - 幅広いドメインを扱う対話だとスケールしない