Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AIでAIをテストする - 音声AIエージェントの品質保証戦略

Sponsored · SiteGround - Reliable hosting with speed, security, and support you can count on.
Avatar for Morix Morix
April 23, 2026

AIでAIをテストする - 音声AIエージェントの品質保証戦略

音声AIエージェントの品質保証は、プロンプト変更によるデグレ、コンポーネント間の結合不具合、実際の通話品質と、テスト対象が多層にわたります。本発表では、飲食店向けAI電話注文システムの開発で構築した「LLM振る舞いテスト」「E2Eテスト」「テストエージェント」の3層テスト戦略を紹介し、品質と開発速度を両立するアプローチを共有します。

Avatar for Morix

Morix

April 23, 2026

More Decks by Morix

Other Decks in Technology

Transcript

  1. 音声AIでテストしたい観点は色々ある - プロンプトの品質 - LLMが期待通りの振る舞いを毎回してくれるか? - LLMと他のシステムとの連携 - 人間との会話の結果がAPIやDBにどう反映されているか? -

    STT/TTS/電話との実挙動 - STT(Speech To Text)の結果は意図通りLLMに渡っているか? - LLMの結果はTTS(Text To Speech)でどう発話されているか? - 電話で正しく応対できるか?
  2. LLM振る舞いテストとは - LLMがプロンプトの指示通りの振る舞いをするかテストする - テスト対象はLLMのみ - どのようなテストをしているのか - ユーザーが「A」といったら「B」と答えること -

    ユーザーが「C」といったらツールを呼び出すこと - ツールの呼び出し結果がxxとなること - 会話例: - ユーザー「カレー1つ」 - LLM「カレー1つでよろしいですか?」 - ユーザー「はい」 - LLMはツールを呼び出し注文確定 - このような会話の組み合わせを多数用意し、プロンプトの修正が発生した ら全部テストしデグレを防いでいる
  3. E2Eテストとは - LLMが関連システムと連携し期待通りの会話ができるかをテストする - テスト対象はLLMとAPIとDB - どのようなテストをしているのか - LLMが期待通りの受け答えをしていること -

    APIが期待通りの呼び出し方をされていること - DBに期待通りのデータが格納されていること - 事前にテストをいくつか用意しているわけではなく、 開発内容に応じてシナリオを用意し実行している
  4. E2Eテストスキルの仕組み Claude Code E2Eテスト エージェント 電話注文エージェン ト 仮想オーディ オデバイス 1.スキル経由で起動

    テストシナリオ渡す 2. 起動 3. ログ監視 4. 音声入出力 5. 音声入力 - E2EテストエージェントはLLM とTTSの機能のみ持ってい る。目的を達成するまで話し 続ける。 - 電話注文エージェントの発話 内容はログ出力されるのでそ れを拾い、発話内容を考え る。そのためSTTの機能は不 要。 - 電話注文エージェントの発話 スピードを限界まで上げてる ため高速に会話可能。 6. 結果を報告
  5. テストエージェントとは - ユーザーと同じ環境でテストをする音声AIエージェント - テスト対象は電話での通信を含めた全体 - どのようなテストをしているか - 期待通りの会話結果になるか -

    外部システムと正しく連携できているか - 事前にテストをいくつか用意しているわけではなく、 開発内容に応じてシナリオを用意し実行している - Staging環境のテストの際に使用している
  6. テストエージェントの仕組み 電話注文エージェント テストエージェント GitHub Actions 1. 起動・シナリオ渡す 2. 電話をかけシナリオ通り会話を進める 3.

    結果報告 - テストエージェントは電話をか ける機能を持っている。目的 を達成するまで話し続ける。
  7. 3層テストを開発フローにどう組み込んでいるのか 計画 UnitTest LLM振る舞いテ スト 実装 実装 UnitTest全部実 行 LLM振る舞いテ

    スト全部実行 E2Eテスト実行 問題あり 自動レビュー 問題あり 人間レビュー プルリク作成 CI実行 Stagingデプロイ テストエージェン トでテスト プルリクマージ 本番デプロイ 動作確認 yes no no yes : 人間が介在している箇所