$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
実運用で学んだ 音声対話システムの評価とテスト
Search
Yuichiro Machida
November 26, 2025
Technology
0
2
実運用で学んだ 音声対話システムの評価とテスト
三田データ vol.1での資料です
Yuichiro Machida
November 26, 2025
Tweet
Share
More Decks by Yuichiro Machida
See All by Yuichiro Machida
累計2500万着電を支える大規模 電話自動応答サービスのアーキテクチャ / Architecture of a Large-Scale Automated Phone Response Service Supporting 25 Million Cumulative Calls
ymachida
9
9.9k
LLMでIVRyのAI周りのソフトウェア開発がどう変化したか / How IVRy's software engineering was changed after LLM
ymachida
0
690
Other Decks in Technology
See All in Technology
Kill the Vibe?Architecture in the age of AI
stoth
1
120
.NET 10のEntity Framework Coreの新機能
htkym
0
140
Active Directory 勉強会 第 6 回目 Active Directory セキュリティについて学ぶ回
eurekaberry
10
3.9k
Bill One 開発エンジニア 紹介資料
sansan33
PRO
4
15k
20251127 BigQueryリモート関数で作る、お手軽AIバッチ実行環境
daimatz
0
340
『ソフトウェア』で『リアル』を動かす:クレーンゲームからデータ基盤までの統一アーキテクチャ / アーキテクチャConference 2025
genda
0
1.9k
TypeScript 6.0で非推奨化されるオプションたち
uhyo
15
5.6k
PostgreSQL で列データ”ファイル”を利用する ~Arrow/Parquet を統合したデータベースの作成~
kaigai
0
180
履歴テーブル、今回はこう作りました 〜 Delegated Types編 〜 / How We Built Our History Table This Time — With Delegated Types
moznion
12
7.4k
TypeScript×CASLでつくるSaaSの認可 / Authz with CASL
saka2jp
2
160
Claude Code はじめてガイド -1時間で学べるAI駆動開発の基本と実践-
oikon48
20
11k
MySQL AIとMySQL Studioを使ってみよう
ikomachi226
0
100
Featured
See All Featured
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
11
950
Build your cross-platform service in a week with App Engine
jlugia
234
18k
A designer walks into a library…
pauljervisheath
210
24k
Become a Pro
speakerdeck
PRO
30
5.6k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
34
2.3k
Building a Scalable Design System with Sketch
lauravandoore
463
34k
Site-Speed That Sticks
csswizardry
13
970
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.6k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
10
690
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1k
Into the Great Unknown - MozCon
thekraken
40
2.2k
Transcript
実運用で学んだ 音声対話システムの評価とテスト
⾃⼰紹介 ▪ 学⽣時代: 京都⼤学・⼤学院 ⾃然⾔語処理を学ぶ ▪ 2015年: 株式会社リクルートホールディングス アプリ・Webのディレクター、データ分析等 ▪
2019年: エクサウィザーズ NLPエンジニア、チームリード、エンジニアリングマネージャー ▪ 2022年: IVRy Point: 休⽇はボルダリングしかしていません 町⽥ 雄⼀郎 2 Head of AIE
電話⾃動応答サービスIVRy 3 電話AI SaaS IVRy(アイブリー)は、 ⽉額3,000円からカスタム電話をカンタンに作成できるサービス。 全ての電話業務を誰でもすぐにAIを使って効率化できます
業態に合わせた⾃由な応答設定 4 ダイヤルプッシュとAIの対話をハイブリッドで設定し、 受けたい電話と⾃動化したい電話を分類。電話業務を効率化できる
⾳声対話システムの本番運⽤で⼤切なこと
1. 落ちないこと 2. 成功すること
落ちないこと あたりまえだが一番神経を使うポイント LLMはいつも通り動いている?遅くなっていない? STT / TTSなど、各種APIも問題ない?
「IVRy 社員登壇資料」で検索してみてください https://speakerdeck.com/ivry_presentationmaterials
落ちないこと あたりまえだが一番神経を使うポイント LLMはいつも通り動いている?遅くなっていない? STT / TTSなど、各種APIも問題ない?
「IVRy 社員登壇資料」で検索してみてください https://speakerdeck.com/ivry_presentationmaterials
成功すること 今日の話はこちら 音声対話システムの実運用で 「うまくいく」をどう保証する? 「うまくいっていない」をどう知る?
音声対話システムの品質担保 一般的に2種類のモデル評価に加えてシステムテストも関連する オフライン評価 - 静的なテストデータを用いた精度検証 オンライン評価 -
本番環境でのユーザー行動に基づいた評価 システムテスト - システムが要件どおり動くか
オフライン評価
開発した⾳声対話システムの 性能はどの程度なのか?
基本的なオフライン評価 IVRyではパイプライン中の処理に合わせて評価データを複数作成しています - ASR(音声認識)用の音声データ - 主要対話の発話データ - 住所・名前などの固有名詞
- 評価指標: Word Error Rate - NLU用の発話と意図分類データ - 主要ドメインの発話データ - サンプルのナレッジベース - 評価指標: Precision / Recall / F1-Score
オフライン評価に救われた話 古いLLMモデルから新しいモデルへの移行 ベンチマークスコアではほぼ大きな違いがないことはわかっていた。 このままモデルを差し替えて問題ないか? ベンチマークスコア (Chatbot arena)
オフライン評価に救われた話 古いLLMモデルから新しいモデルへの移行 ベンチマークスコアではほぼ大きな違いがないことはわかっていた。 このままモデルを差し替えて問題ないか? ベンチマークスコア (Chatbot arena)
オフライン評価結果
オフライン評価に救われた話 古いLLMモデルから新しいモデルへの移行 ベンチマークスコアではほぼ大きな違いがないことはわかっていた。 このままモデルを差し替えて問題ないか? → オフライン評価で肯定・否定の確認発話は精度が低下 してしまうことが発覚
たくさんのモデルが頻繁に各社から出てくるからこそ オフライン評価で何がどう変わるかを確認することが大事
オフライン評価に救われた話 古いLLMモデルから新しいモデルへの移行 ベンチマークスコアでは新モデルが良い。このままモデルを差し替えて問題ない? → オフライン評価で肯定・否定の確認発話は精度が低下 してしまうことが発覚 (原因)
与えていたFewShotデータが逆に精度を下げる原因になっていた たくさんのモデルが頻繁に各社から出てくるからこそ オフライン評価で何がどう変わるかを確認することが大事
システムテスト
開発した⾳声対話システムは ちゃんと電話で動くのか?
実際に架電してテストする 実際に通話(対話)して動くかどうかの確認が音声対話システムでは大切 しかし、実際にやってみると時間が非常にかかる あるテストアカウントの年間の発着信数
自動架電テスト 1: シナリオベース 1件あたり30秒 ~ 2分程度かかるとして、30シナリオでも⼈間は30分程度かかる → ⾃動テストにより5分程度まで短縮 (6倍⾼速化)
XXXです お名前は? 架電 Agent IVRy mainマージで最新ブランチを テスト環境にデプロイ ⾃動架電テスト開始 発話 シナリオ
自動架電テスト 2: LLMベース 「目的に従って自由に対話するAgent」「対話内容をみて目的が達成されたか評価する Agent」に完全に自由に対話させるテストも検証中 XXXです お名前は? この対話の評価は... 架電 Agent
IVRy 対話評価 Agent 指⽰ プロンプト 評価 プロンプト
オンライン評価
開発した⾳声対話システムで ユーザーは⽬的を達成できているか?
オンライン評価 - 対話ログを利用した客観指標によりモニタリングできる - タスク指向対話でよくある評価指標 - タスク達成率 - 予約が成功した
- ユーザーが対話の最後までたどり着いた. etc - 対話ターン回数
タスク完了率ダッシュボード (会場のみ)
タスク完了率がわかればよい? 次に知りたいのは「タスク完了率を上げるにはどうしたらよいか」 → むしろ「うまくいっていない対話」 が重要 うまくいっていないことを把握するには -
人間による評価 - LLM as a judgeによる評価 - 対話状態ログによる評価
人間による評価 - 許諾を得た⼀部の通話は各所の協⼒を得て直接評価する - わかることが多い - セールス /
カスタマーサポート とも連携が必要 - ユーザーインタビュー形式になることも - ⼈的コストは⼤分かかる - 幅広いドメインを扱う対話だとスケールしない
LLM as a judgeによる評価 - LLMに代わりをやらせてみる → ⼈間評価との⼀致率はそれほど⾼くはない
-
対話状態ログによる評価 対話システムをWorkflowとして組んだ場合 それぞれのモジュールの状態を出力することで内部挙動がわかる
対話状態ログによる評価 対話システムをWorkflowとして組んだ場合 それぞれのモジュールの状態を出力することで内部挙動がわかる?? 会場のみ
対話状態ログによる評価 対話システムをWorkflowとして組んだ場合 それぞれのモジュールの状態を出力することで内部挙動がわかる?? 会場のみ 対話を深く追っていくには部分的な情報から細部を復元するため の複雑なクエリを
Expertが書く必要がある
DFA(決定性オートマトン )による状態定義 XXXです 080... お名前は? 電話番号は? 対話状態‧遷移イベントを定義し出⼒することで正確性と解釈性を向上させる (モジュールに組み込む or
⽣成させる研究もある) event:1 event:2 event:1 State:1 State:2
DFA(決定性オートマトン )による状態定義 会場のみ
まとめ: 「うまくいく」には準備が必要 - オンライン/オフラインの精度評価に加えて、実運⽤ではシステムテストも重 要な品質評価項⽬ - ベンチマークスコアがいいからといって、⾃分が解いているタスクでも精度 が上がるとは限らない。オフライン評価⽤データは⼤切。 - 「うまくいく」には「うまくいかない」をどう把握するかが⼤事
- 幅広い運⽤まで考えてログ設計しよう
絶賛採⽤中です! カンパニー採⽤ページもリニューアルしたので是⾮⾒てみてください!