Upgrade to Pro — share decks privately, control downloads, hide ads and more …

実運用で学んだ音声対話システムの評価とテスト

 実運用で学んだ音声対話システムの評価とテスト

2025/11/13に開催された「三田データ vol.1」に、IVRyの町田 雄一郎が登壇しました。

■リンク集
・コーポレートサイト:https://ivry.jp/company/
・採用ページ:https://ivry-jp.notion.site/
・イベント一覧:https://ivry.connpass.com/event/
・IVRy Tech(Xアカウント):https://x.com/IVRy_tech

Transcript

  1. ⾃⼰紹介 ▪ 学⽣時代: 京都⼤学・⼤学院  ⾃然⾔語処理を学ぶ ▪ 2015年: 株式会社リクルートホールディングス  アプリ・Webのディレクター、データ分析等 ▪

    2019年: エクサウィザーズ  NLPエンジニア、チームリード、エンジニアリングマネージャー ▪ 2022年: IVRy  Point: 休⽇はボルダリングしかしていません 町⽥ 雄⼀郎 2 Head of AIE
  2. 基本的なオフライン評価 
 IVRyではパイプライン中の処理に合わせて評価データを複数作成しています
 - ASR(音声認識)用の音声データ
 - 主要対話の発話データ 
 - 住所・名前などの固有名詞

    
 - 評価指標: Word Error Rate
 - NLU用の発話と意図分類データ
 - 主要ドメインの発話データ 
 - サンプルのナレッジベース 
 - 評価指標: Precision / Recall / F1-Score

  3. オフライン評価に救われた話 
 古いLLMモデルから新しいモデルへの移行 
 ベンチマークスコアでは新モデルが良い。このままモデルを差し替えて問題ない?
 
 → オフライン評価で肯定・否定の確認発話は精度が低下 してしまうことが発覚
 (原因)

    与えていたFewShotデータが逆に精度を下げる原因になっていた
 たくさんのモデルが頻繁に各社から出てくるからこそ 
 オフライン評価で何がどう変わるかを確認することが大事 

  4. 自動架電テスト 1: シナリオベース 
 1件あたり30秒 ~ 2分程度かかるとして、30シナリオでも⼈間は30分程度かかる → ⾃動テストにより5分程度まで短縮 (6倍⾼速化)

    XXXです お名前は? 架電 Agent IVRy mainマージで最新ブランチを テスト環境にデプロイ ⾃動架電テスト開始 発話 シナリオ
  5. 人間による評価 
 
 - 許諾を得た⼀部の通話は各所の協⼒を得て直接評価する - わかることが多い - セールス /

    カスタマーサポート とも連携が必要 - ユーザーインタビュー形式になることも - ⼈的コストは⼤分かかる - 幅広いドメインを扱う対話だとスケールしない