Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
実運用で学んだ 音声対話システムの評価とテスト
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
Yuichiro Machida
November 26, 2025
Technology
0
84
実運用で学んだ 音声対話システムの評価とテスト
三田データ vol.1での資料です
Yuichiro Machida
November 26, 2025
Tweet
Share
More Decks by Yuichiro Machida
See All by Yuichiro Machida
累計2500万着電を支える大規模 電話自動応答サービスのアーキテクチャ / Architecture of a Large-Scale Automated Phone Response Service Supporting 25 Million Cumulative Calls
ymachida
9
10k
LLMでIVRyのAI周りのソフトウェア開発がどう変化したか / How IVRy's software engineering was changed after LLM
ymachida
0
710
Other Decks in Technology
See All in Technology
OWASP Top 10:2025 リリースと 少しの日本語化にまつわる裏話
okdt
PRO
3
850
制約が導く迷わない設計 〜 信頼性と運用性を両立するマイナンバー管理システムの実践 〜
bwkw
3
1.1k
pool.ntp.orgに ⾃宅サーバーで 参加してみたら...
tanyorg
0
1.4k
外部キー制約の知っておいて欲しいこと - RDBMSを正しく使うために必要なこと / FOREIGN KEY Night
soudai
PRO
12
5.6k
AzureでのIaC - Bicep? Terraform? それ早く言ってよ会議
torumakabe
1
620
Ruby版 JSXのRuxが気になる
sansantech
PRO
0
170
StrandsとNeptuneを使ってナレッジグラフを構築する
yakumo
1
130
茨城の思い出を振り返る ~CDKのセキュリティを添えて~ / 20260201 Mitsutoshi Matsuo
shift_evolve
PRO
1
430
フルカイテン株式会社 エンジニア向け採用資料
fullkaiten
0
10k
Webhook best practices for rock solid and resilient deployments
glaforge
2
310
10Xにおける品質保証活動の全体像と改善 #no_more_wait_for_test
nihonbuson
PRO
2
340
コンテナセキュリティの最新事情 ~ 2026年版 ~
kyohmizu
7
2.4k
Featured
See All Featured
Bash Introduction
62gerente
615
210k
Effective software design: The role of men in debugging patriarchy in IT @ Voxxed Days AMS
baasie
0
230
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
Visual Storytelling: How to be a Superhuman Communicator
reverentgeek
2
440
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.2k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
1k
Introduction to Domain-Driven Design and Collaborative software design
baasie
1
590
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
38
2.7k
How to optimise 3,500 product descriptions for ecommerce in one day using ChatGPT
katarinadahlin
PRO
0
3.4k
What the history of the web can teach us about the future of AI
inesmontani
PRO
1
440
Done Done
chrislema
186
16k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.4k
Transcript
実運用で学んだ 音声対話システムの評価とテスト
⾃⼰紹介 ▪ 学⽣時代: 京都⼤学・⼤学院 ⾃然⾔語処理を学ぶ ▪ 2015年: 株式会社リクルートホールディングス アプリ・Webのディレクター、データ分析等 ▪
2019年: エクサウィザーズ NLPエンジニア、チームリード、エンジニアリングマネージャー ▪ 2022年: IVRy Point: 休⽇はボルダリングしかしていません 町⽥ 雄⼀郎 2 Head of AIE
電話⾃動応答サービスIVRy 3 電話AI SaaS IVRy(アイブリー)は、 ⽉額3,000円からカスタム電話をカンタンに作成できるサービス。 全ての電話業務を誰でもすぐにAIを使って効率化できます
業態に合わせた⾃由な応答設定 4 ダイヤルプッシュとAIの対話をハイブリッドで設定し、 受けたい電話と⾃動化したい電話を分類。電話業務を効率化できる
⾳声対話システムの本番運⽤で⼤切なこと
1. 落ちないこと 2. 成功すること
落ちないこと あたりまえだが一番神経を使うポイント LLMはいつも通り動いている?遅くなっていない? STT / TTSなど、各種APIも問題ない?
「IVRy 社員登壇資料」で検索してみてください https://speakerdeck.com/ivry_presentationmaterials
落ちないこと あたりまえだが一番神経を使うポイント LLMはいつも通り動いている?遅くなっていない? STT / TTSなど、各種APIも問題ない?
「IVRy 社員登壇資料」で検索してみてください https://speakerdeck.com/ivry_presentationmaterials
成功すること 今日の話はこちら 音声対話システムの実運用で 「うまくいく」をどう保証する? 「うまくいっていない」をどう知る?
音声対話システムの品質担保 一般的に2種類のモデル評価に加えてシステムテストも関連する オフライン評価 - 静的なテストデータを用いた精度検証 オンライン評価 -
本番環境でのユーザー行動に基づいた評価 システムテスト - システムが要件どおり動くか
オフライン評価
開発した⾳声対話システムの 性能はどの程度なのか?
基本的なオフライン評価 IVRyではパイプライン中の処理に合わせて評価データを複数作成しています - ASR(音声認識)用の音声データ - 主要対話の発話データ - 住所・名前などの固有名詞
- 評価指標: Word Error Rate - NLU用の発話と意図分類データ - 主要ドメインの発話データ - サンプルのナレッジベース - 評価指標: Precision / Recall / F1-Score
オフライン評価に救われた話 古いLLMモデルから新しいモデルへの移行 ベンチマークスコアではほぼ大きな違いがないことはわかっていた。 このままモデルを差し替えて問題ないか? ベンチマークスコア (Chatbot arena)
オフライン評価に救われた話 古いLLMモデルから新しいモデルへの移行 ベンチマークスコアではほぼ大きな違いがないことはわかっていた。 このままモデルを差し替えて問題ないか? ベンチマークスコア (Chatbot arena)
オフライン評価結果
オフライン評価に救われた話 古いLLMモデルから新しいモデルへの移行 ベンチマークスコアではほぼ大きな違いがないことはわかっていた。 このままモデルを差し替えて問題ないか? → オフライン評価で肯定・否定の確認発話は精度が低下 してしまうことが発覚
たくさんのモデルが頻繁に各社から出てくるからこそ オフライン評価で何がどう変わるかを確認することが大事
オフライン評価に救われた話 古いLLMモデルから新しいモデルへの移行 ベンチマークスコアでは新モデルが良い。このままモデルを差し替えて問題ない? → オフライン評価で肯定・否定の確認発話は精度が低下 してしまうことが発覚 (原因)
与えていたFewShotデータが逆に精度を下げる原因になっていた たくさんのモデルが頻繁に各社から出てくるからこそ オフライン評価で何がどう変わるかを確認することが大事
システムテスト
開発した⾳声対話システムは ちゃんと電話で動くのか?
実際に架電してテストする 実際に通話(対話)して動くかどうかの確認が音声対話システムでは大切 しかし、実際にやってみると時間が非常にかかる あるテストアカウントの年間の発着信数
自動架電テスト 1: シナリオベース 1件あたり30秒 ~ 2分程度かかるとして、30シナリオでも⼈間は30分程度かかる → ⾃動テストにより5分程度まで短縮 (6倍⾼速化)
XXXです お名前は? 架電 Agent IVRy mainマージで最新ブランチを テスト環境にデプロイ ⾃動架電テスト開始 発話 シナリオ
自動架電テスト 2: LLMベース 「目的に従って自由に対話するAgent」「対話内容をみて目的が達成されたか評価する Agent」に完全に自由に対話させるテストも検証中 XXXです お名前は? この対話の評価は... 架電 Agent
IVRy 対話評価 Agent 指⽰ プロンプト 評価 プロンプト
オンライン評価
開発した⾳声対話システムで ユーザーは⽬的を達成できているか?
オンライン評価 - 対話ログを利用した客観指標によりモニタリングできる - タスク指向対話でよくある評価指標 - タスク達成率 - 予約が成功した
- ユーザーが対話の最後までたどり着いた. etc - 対話ターン回数
タスク完了率ダッシュボード (会場のみ)
タスク完了率がわかればよい? 次に知りたいのは「タスク完了率を上げるにはどうしたらよいか」 → むしろ「うまくいっていない対話」 が重要 うまくいっていないことを把握するには -
人間による評価 - LLM as a judgeによる評価 - 対話状態ログによる評価
人間による評価 - 許諾を得た⼀部の通話は各所の協⼒を得て直接評価する - わかることが多い - セールス /
カスタマーサポート とも連携が必要 - ユーザーインタビュー形式になることも - ⼈的コストは⼤分かかる - 幅広いドメインを扱う対話だとスケールしない
LLM as a judgeによる評価 - LLMに代わりをやらせてみる → ⼈間評価との⼀致率はそれほど⾼くはない
-
対話状態ログによる評価 対話システムをWorkflowとして組んだ場合 それぞれのモジュールの状態を出力することで内部挙動がわかる
対話状態ログによる評価 対話システムをWorkflowとして組んだ場合 それぞれのモジュールの状態を出力することで内部挙動がわかる?? 会場のみ
対話状態ログによる評価 対話システムをWorkflowとして組んだ場合 それぞれのモジュールの状態を出力することで内部挙動がわかる?? 会場のみ 対話を深く追っていくには部分的な情報から細部を復元するため の複雑なクエリを
Expertが書く必要がある
DFA(決定性オートマトン )による状態定義 XXXです 080... お名前は? 電話番号は? 対話状態‧遷移イベントを定義し出⼒することで正確性と解釈性を向上させる (モジュールに組み込む or
⽣成させる研究もある) event:1 event:2 event:1 State:1 State:2
DFA(決定性オートマトン )による状態定義 会場のみ
まとめ: 「うまくいく」には準備が必要 - オンライン/オフラインの精度評価に加えて、実運⽤ではシステムテストも重 要な品質評価項⽬ - ベンチマークスコアがいいからといって、⾃分が解いているタスクでも精度 が上がるとは限らない。オフライン評価⽤データは⼤切。 - 「うまくいく」には「うまくいかない」をどう把握するかが⼤事
- 幅広い運⽤まで考えてログ設計しよう
絶賛採⽤中です! カンパニー採⽤ページもリニューアルしたので是⾮⾒てみてください!