Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
通話/ 音声認識プロダクトのテストの取り組みと課題
Search
Seki Ryoma
May 19, 2025
0
2
通話/ 音声認識プロダクトのテストの取り組みと課題
Seki Ryoma
May 19, 2025
Tweet
Share
More Decks by Seki Ryoma
See All by Seki Ryoma
QA業務効率化 / 自動テスト &AI活用リアル
rymsk21
0
190
並行する複数開発ラインを横断する 一人QAの取り組みと工夫
rymsk21
0
5
QAで超えてきた壁とこれから - ししとうLT #4
rymsk21
0
96
Featured
See All Featured
Into the Great Unknown - MozCon
thekraken
40
1.9k
KATA
mclloyd
30
14k
Become a Pro
speakerdeck
PRO
29
5.4k
Six Lessons from altMBA
skipperchong
28
3.9k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
50
5.5k
A better future with KSS
kneath
238
17k
How to Think Like a Performance Engineer
csswizardry
25
1.8k
Code Reviewing Like a Champion
maltzj
524
40k
Thoughts on Productivity
jonyablonski
69
4.7k
Stop Working from a Prison Cell
hatefulcrawdad
271
21k
How GitHub (no longer) Works
holman
314
140k
Being A Developer After 40
akosma
90
590k
Transcript
2024.10.30 IVRy 関 通話/ 音声認識プロダクトのテストの取り組みと課題
Ryoma Seki (@IvryQa) QAエンジニア 2022年1月にIVRyに参画 現在はIVRyのプロダクト全般のQAを担当 最近ハマっていること クラヴマガ 自己紹介
1. IVRyのプロダクト概要 2. LLMプロダクトのテストの実態と課題 a. 音声認識編 b.
要約機能 3. 今後の取り組み 4. まとめ アジェンダ
IVRyのプロダクトについて
IVRyのプロダクトについて❶ 2,980円
IVRyのプロダクトについて❷
IVRyのプロダクトについて❸ 要約 音声認識機能 IVRyでのLLMの活用例 通話内容の要約機能
LLMを使ったプロダクトにおける品質評価
品質評価について 評価基準(LLMを使った機能全般) - 機能やプロダクトの要件が満たされているか - 出力してほしくない内容が出ていないか -
他クライアント様のデータを使って、結果を出力してないか - 在庫連携機能では、誤った予約がされていないか 確率的な動作の評価(要約機能) - そこまで厳密な評価は行なっておらず、最低限のパターンを確認しながら、探 索的なアプローチを実施 実際の評価に関しては、人 +自動テストの仕組みで行っています
LLMプロダクトのテストの実態と課題 音声認識編
音声認識機能について AI受付機能 一問一答機能
音声認識機能について 一問一答機能 AI受付機能 AI対話システム
LLMからの出力を安定させる工夫 例:レストラン予約 Writing 「はい、予約できます」 「4人ですね」 「承りました」 Reading {人数:
4人} 4人で予約できますか?
AI対話システムのテストについて 目的/ゴール スムーズな対話と、音声認識による正確な応答を 確認し、想定シナリオが完了するか 評価観点 - 対話可能かどうか -
音声認識され、適切な回答が返ってくるか - 想定しているシナリオが完了するかどうか テスト方法 - 実際に電話をかけて、対話を実施 - 発話内容に関しては、様々なパターンを検証し ている
AI対話システムのテストの課題点 発話パターン表 ※一部 単純な発話パターンだけではなく、環境や発話内容を変 える必要からテストパターンの増加やテスト工数が膨ら んでしまう 影響要因のマトリクス表
音声対話の自動テストの誕生 詳しくは、 電話自動応答システムの QAのための自動応答システムを作った話 テストケースの一例 電話をかけて予約完了までのシナリオを 自動化
大まかな仕組み 無音検知 + TTS(Text-to-Speech)を活用 して、音声対話の自動テストを実現してい る 実際の発話に近い環境下での検証も可能 ですが、現時点では、シナリオに組み込め ていません。
音声対話の自動テストの効果 手動テストの工数削減 - 対話完了までのテストケースは、ほぼ 100%自動化 され、1~1.5時間ほどのテスト工数の削減 リリース頻度の向上
- 自動テストによって品質が担保されているため、 QA が関与せずともリリースが可能 - CIにも組み込み、マージのタイミングでテストが実行 され、検証がスムーズに 仮に人で実行してたとすると ....
LLMプロダクトのテストの実態と課題 要約機能編
要約機能について IVRyで利用された通話内容や録音内容を要 約して表示する機能 書き起こした内容を要約する際に、 LLMを活 用している
要約機能のテストについて 目的/ゴール 書き起こした内容を元に、正確かつ要点を押さえた要約がされているか 評価観点 - 通話内容に沿った適切な要約が生成されているか。 -
内容にそぐわない要約が出力されていないか。 - 無音やセンシティブな内容が適切に処理されているか。 etc….
テスト方法 - 実際に電話を掛けて、様々な通話内容・録音 内容のパターンを作成 - 無音やセンシティブな内容を含む通話での処 理が正しいかを確認 要約の精度については、実際に出力された内容 をもとに、PdM、エンジニア、QAが共同で評価を
行っています 要約機能のテストについて 通話内容・録音内容のパターン
- 人による検証が中心になっているので、予想以上 の人的工数が発生してしまっている - 現状の要約の評価基準が、人の主観に依存して しまっている 要約機能のテストの課題感
今後取り組んでいきたいこと
自動テストの対話パターンの拡充 - 音声認識のテストで、より多様な対話パターンに対応。 - 実際の環境に近い状態を再現するため、 ノイズを含めた対話パターンの拡充 -
将来的には、LLMが対話内容を考えたり、、 consistency test の導入 - LLMのモデルのアップデートで、意図しない出力の変化が生じていないかを確認し、 一貫性が保たれているかを検証するテストの実施 WebUIとの一貫した自動テストの構築 - 対話の自動テストだけでなく、WebUIとの連携も一気通貫で検証できる仕組みの整 備 今後の取り組み❶
今後の取り組み❷ 生成音声のテスト • AIと少しズレますが、生成音声の品質を評価するテスト の導入 ※一部で検証を始めている。
まとめ
まとめ - 通話 / 音声認識プロダクトのテストの取り組みと課題についてお話ししました。 - IVRyでは、アウトプットの出力がある程度制御されているため、主にインプットのパ ターンに重点をおいてテスト設計しています。 LLMをプロダクトに組み込むと、周辺
機能への影響が生じたり、音声認識に組み込むことで環境要因の影響が出たりす るため、検証パターンが増加する傾向があると個人的に感じています。 - エンジニアチームや自動テストの導入によって、テスト範囲を最適化し、効率的な 検証で品質を担保しています。
None