Slides from "Google AI Stack Deep Dive @ Ubie" (June 29, 2026).
This talk introduces how to apply User Simulation — a built-in feature of Google's Agent Development Kit (ADK) — to multi-turn evaluation of healthcare AI agents.
Healthcare conversations include many patterns that single-turn evaluation cannot capture, where users disclose information that could pose medical risk later in the dialogue. While this creates strong demand for multi-turn evaluation, managing scenarios and datasets at this scale tends to become unwieldy. ADK User Simulation lets you declaratively define behaviors, personas, and scenarios; the framework then handles everything from user-side utterance generation to LLM-as-a-Judge scoring automatically.
For the experiment, we prepared 100 scenarios from 3 behavior patterns × 100 personas, and evaluated two agent variants differing only in their instructions (safety-oriented vs. overconfident), using Gemini 2.5 Flash for the agent, user utterance generation, and judge. The safe agent passed 100/100 while the overconfident one passed only 38/100, confirming that the framework can reliably distinguish quality differences between agents. Per-rubric pass/fail outcomes and judge rationales were clearly available, making it straightforward to translate failures into concrete instruction improvements.
2026 年 6 月 29 日 「現場のための Google AI Stack Deep Dive @ Ubie」 での登壇資料です。
Google の Agent Development Kit (ADK) に built-in されている User Simulation 機能を、 ヘルスケア領域の AI エージェントの multi-turn 評価に適用する方法を紹介します。
ヘルスケア領域は single-turn の評価では捉えきれないパターンが多く、医学的リスクとなりうる情報を後出しすることがあります。
そのため multi-turn の評価のニーズが大きい一方で、multi-turn の評価はシナリオやデータセットの管理が煩雑になります。
ADK User Simulation を使えば、 振る舞い・ペルソナ・シナリオを宣言的に定義するだけで、 ユーザ側の発話生成と LLM-as-a-Judge による採点までフレームワークが自動で行ってくれます。
検証内容としては、振る舞い 3 パターン × ペルソナ 100 パターンから 100 シナリオを用意し、 instruction のみを変更した 2 種類の agent (安全寄り / 自信過剰気味) に対して、agent・ユーザ発話生成・judge のすべてに Gemini 2.5 Flash を利用して評価。 結果、 安全寄り agent は 100/100 PASS、 自信過剰気味は 38/100 PASS となり、 framework が agent 間の品質の違いを安定して捉えられることを確認しました。各 rubric 単位での合否と判定理由が明確に得られ、 failure を instruction の改善アクションに繋げやすい、という結果になりました。