通話/ 音声認識プロダクトのテストの取り組みと課題

2024.10.30 IVRy 関  通話/ 音声認識プロダクトのテストの取り組みと課題  

Ryoma Seki (@IvryQa)  QAエンジニア  2022年1月にIVRyに参画  現在はIVRyのプロダクト全般のQAを担当  最近ハマっていること　クラヴマガ   自己紹介

1. IVRyのプロダクト概要   2. LLMプロダクトのテストの実態と課題   a. 音声認識編   b.
要約機能   3. 今後の取り組み   4. まとめ  アジェンダ

IVRyのプロダクトについて  

IVRyのプロダクトについて❶ 2,980円 

IVRyのプロダクトについて❷

IVRyのプロダクトについて❸ 要約音声認識機能 IVRyでのLLMの活用例通話内容の要約機能

LLMを使ったプロダクトにおける品質評価  

品質評価について   評価基準(LLMを使った機能全般)  - 機能やプロダクトの要件が満たされているか   - 出力してほしくない内容が出ていないか   -
他クライアント様のデータを使って、結果を出力してないか   - 在庫連携機能では、誤った予約がされていないか   確率的な動作の評価(要約機能)  - そこまで厳密な評価は行なっておらず、最低限のパターンを確認しながら、探索的なアプローチを実施    実際の評価に関しては、人 +自動テストの仕組みで行っています  

LLMプロダクトのテストの実態と課題   音声認識編  

音声認識機能について   AI受付機能一問一答機能

音声認識機能について   一問一答機能 AI受付機能 AI対話システム  

LLMからの出力を安定させる工夫   例：レストラン予約   Writing 「はい、予約できます」「4人ですね」「承りました」 Reading {人数:
4人} 4人で予約できますか？

AI対話システムのテストについて   目的/ゴール  スムーズな対話と、音声認識による正確な応答を確認し、想定シナリオが完了するか   評価観点  - 対話可能かどうか  -
音声認識され、適切な回答が返ってくるか   - 想定しているシナリオが完了するかどうか   テスト方法  - 実際に電話をかけて、対話を実施   - 発話内容に関しては、様々なパターンを検証している 

AI対話システムのテストの課題点   発話パターン表 ※一部   単純な発話パターンだけではなく、環境や発話内容を変える必要からテストパターンの増加やテスト工数が膨らんでしまう  影響要因のマトリクス表  

音声対話の自動テストの誕生   詳しくは、電話自動応答システムの QAのための自動応答システムを作った話   テストケースの一例   電話をかけて予約完了までのシナリオを自動化 
大まかな仕組み  無音検知 + TTS(Text-to-Speech)を活用して、音声対話の自動テストを実現している  実際の発話に近い環境下での検証も可能ですが、現時点では、シナリオに組み込めていません。 

音声対話の自動テストの効果   手動テストの工数削減   - 対話完了までのテストケースは、ほぼ 100%自動化され、1~1.5時間ほどのテスト工数の削減   リリース頻度の向上 
- 自動テストによって品質が担保されているため、 QA が関与せずともリリースが可能  - CIにも組み込み、マージのタイミングでテストが実行され、検証がスムーズに  仮に人で実行してたとすると .... 

LLMプロダクトのテストの実態と課題   要約機能編  

要約機能について IVRyで利用された通話内容や録音内容を要約して表示する機能  書き起こした内容を要約する際に、 LLMを活用している 

要約機能のテストについて目的/ゴール  書き起こした内容を元に、正確かつ要点を押さえた要約がされているか     評価観点  - 通話内容に沿った適切な要約が生成されているか。   -
内容にそぐわない要約が出力されていないか。   - 無音やセンシティブな内容が適切に処理されているか。 etc…. 

テスト方法  - 実際に電話を掛けて、様々な通話内容・録音内容のパターンを作成  - 無音やセンシティブな内容を含む通話での処理が正しいかを確認    要約の精度については、実際に出力された内容をもとに、PdM、エンジニア、QAが共同で評価を
行っています  要約機能のテストについて通話内容・録音内容のパターン

- 人による検証が中心になっているので、予想以上の人的工数が発生してしまっている   - 現状の要約の評価基準が、人の主観に依存してしまっている  要約機能のテストの課題感

今後取り組んでいきたいこと  

自動テストの対話パターンの拡充   - 音声認識のテストで、より多様な対話パターンに対応。   - 実際の環境に近い状態を再現するため、ノイズを含めた対話パターンの拡充   -
将来的には、LLMが対話内容を考えたり、、  consistency test の導入  - LLMのモデルのアップデートで、意図しない出力の変化が生じていないかを確認し、一貫性が保たれているかを検証するテストの実施   WebUIとの一貫した自動テストの構築   - 対話の自動テストだけでなく、WebUIとの連携も一気通貫で検証できる仕組みの整備  今後の取り組み❶  

今後の取り組み❷   生成音声のテスト  • AIと少しズレますが、生成音声の品質を評価するテストの導入  ※一部で検証を始めている。 

まとめ 

まとめ - 通話 / 音声認識プロダクトのテストの取り組みと課題についてお話ししました。   - IVRyでは、アウトプットの出力がある程度制御されているため、主にインプットのパターンに重点をおいてテスト設計しています。 LLMをプロダクトに組み込むと、周辺
機能への影響が生じたり、音声認識に組み込むことで環境要因の影響が出たりするため、検証パターンが増加する傾向があると個人的に感じています。   - エンジニアチームや自動テストの導入によって、テスト範囲を最適化し、効率的な検証で品質を担保しています。 

通話/ 音声認識プロダクトのテストの取り組みと課題

通話/ 音声認識プロダクトのテストの取り組みと課題

Seki Ryoma

More Decks by Seki Ryoma

Featured

Transcript

2024.10.30 IVRy 関  通話/ 音声認識プロダクトのテストの取り組みと課題

Ryoma Seki (@IvryQa)  QAエンジニア  2022年1月にIVRyに参画  現在はIVRyのプロダクト全般のQAを担当  最近ハマっていること　クラヴマガ   自己紹介

1. IVRyのプロダクト概要   2. LLMプロダクトのテストの実態と課題   a. 音声認識編   b.

IVRyのプロダクトについて

IVRyのプロダクトについて❶ 2,980円

IVRyのプロダクトについて❷

IVRyのプロダクトについて❸ 要約音声認識機能 IVRyでのLLMの活用例通話内容の要約機能

LLMを使ったプロダクトにおける品質評価

品質評価について   評価基準(LLMを使った機能全般)  - 機能やプロダクトの要件が満たされているか   - 出力してほしくない内容が出ていないか   -

LLMプロダクトのテストの実態と課題   音声認識編

音声認識機能について   AI受付機能一問一答機能

音声認識機能について   一問一答機能 AI受付機能 AI対話システム

LLMからの出力を安定させる工夫   例：レストラン予約   Writing 「はい、予約できます」「4人ですね」「承りました」 Reading {人数:

AI対話システムのテストについて   目的/ゴール  スムーズな対話と、音声認識による正確な応答を確認し、想定シナリオが完了するか   評価観点  - 対話可能かどうか  -

AI対話システムのテストの課題点   発話パターン表 ※一部   単純な発話パターンだけではなく、環境や発話内容を変える必要からテストパターンの増加やテスト工数が膨らんでしまう  影響要因のマトリクス表

音声対話の自動テストの誕生   詳しくは、電話自動応答システムの QAのための自動応答システムを作った話   テストケースの一例   電話をかけて予約完了までのシナリオを自動化

音声対話の自動テストの効果   手動テストの工数削減   - 対話完了までのテストケースは、ほぼ 100%自動化され、1~1.5時間ほどのテスト工数の削減   リリース頻度の向上

LLMプロダクトのテストの実態と課題   要約機能編

要約機能について IVRyで利用された通話内容や録音内容を要約して表示する機能  書き起こした内容を要約する際に、 LLMを活用している

要約機能のテストについて目的/ゴール  書き起こした内容を元に、正確かつ要点を押さえた要約がされているか     評価観点  - 通話内容に沿った適切な要約が生成されているか。   -

- 人による検証が中心になっているので、予想以上の人的工数が発生してしまっている   - 現状の要約の評価基準が、人の主観に依存してしまっている  要約機能のテストの課題感

今後取り組んでいきたいこと

自動テストの対話パターンの拡充   - 音声認識のテストで、より多様な対話パターンに対応。   - 実際の環境に近い状態を再現するため、ノイズを含めた対話パターンの拡充   -

今後の取り組み❷   生成音声のテスト  • AIと少しズレますが、生成音声の品質を評価するテストの導入  ※一部で検証を始めている。

まとめ