AIエージェントの評価・改善サイクル

2025.7.1 AIエージェントの評価・改善サイクル

（C）PharmaX Inc. 2025 All Rights Reserve 2 自己紹介上野彰大 PharmaX共同創業者・CTO/AX事業部長
好きな料理はオムライスと白湯とコーラマイブームは真夜中のVibe Coding X：@ueeeeniki

（C）PharmaX Inc. 2025 All Rights Reserve 3 個人でも勉強会コミュニティ StudyCoも運営

（C）PharmaX Inc. 2025 All Rights Reserve 4 自社としては LLMを中心に勉強会を月 1回程度開催

（C）PharmaX Inc. 2025 All Rights Reserve 5 StudyCo:7/10

（C）PharmaX Inc. 2025 All Rights Reserve 6 StudyCo:7/16

（C）PharmaX Inc. 2025 All Rights Reserve 7 AOAI Dev Day:7/18

（C）PharmaX Inc. 2025 All Rights Reserve 8 医療アドバイザーに体調のことをいつでも気軽に相談できる
相談型医療体験 30種類以上の漢方薬からあなたに合ったものを月毎に提案パーソナライズ漢方薬定期的に漢方をお届けし、一人ひとりに寄り添うかかりつけ医療を提供継続的なかかりつけ一生涯にわたって寄り添うかかりつけ漢方薬局「 YOJO」

（C）PharmaX Inc. 2025 All Rights Reserve 9 患者向けチャットシステムと薬剤師向け管理画面を自作患者とのスムーズなコミュニケーション薬剤師向け管理画面
チャット形式での診断・相談・購入患者向けチャットシステム

（C）PharmaX Inc. 2025 All Rights Reserve 10 YOJOで稼働する OTC医薬品相談 AIエージェント
患者さまからの一次対応をすべて AIエージェントが行う（裏側では 100近いのプロンプトが稼働）基本的にはメッセージを自動送信し、必要があれば薬剤師に承認を求める一次的な漢方選択や、こちらから送信する体調確認などもエージェントが自律的に作成薬剤師に重要な返信や判断の確認を依頼一次的な漢方選択なども行う薬剤師が返信する場合もある AIエージェント薬剤師ユーザー AIが人に指示をするような体験

（C）PharmaX Inc. 2025 All Rights Reserve 11 YOJOにおけるAgentic Workflow（フローエンジニアリング） ①
② ④ • ①ルールベースでLLM処理可能かを判定 • ②LLMで会話を分類しLLM処理可能かを判定 • ③LLMで次のフェーズに移るべきかどうかを判定 • ④LLMでメッセージを作成 • ⑤LLMで作成されたメッセージを評価（LLM-as-a-Judge）し、一定の水準を下回ったら再生成して、クリアしたもののみをサジェストする現時点では精度高くメッセージ提案できないため薬剤師が対応 ③ ⑤ ※②〜⑤： GPT-4o

（C）PharmaX Inc. 2025 All Rights Reserve 12 LangGraphで実際に構築したグラフルール1 ルール2
LLM-メッセージ作成 _ 分類4 LLM-会話分類 LLM-メッセージ作成 _ 分類1 LLM-メッセージ作成 _ 分類2 LLM-メッセージ作成 _ 分類3 LLM-フェーズ切替 LangGraphで作成したグラフはmermaidで出力しテストにも使用している

（C）PharmaX Inc. 2025 All Rights Reserve 13 LangSmithによるトレーシング rule1 ①
② ③ ④ ⑤ ・・・ rule2 ④ ⑤ ① ② ④ ③ ⑤ ※②〜⑤： GPT-4o

（C）PharmaX Inc. 2025 All Rights Reserve 14 医療業界を横断する 2つの事業領域 YOJO
toC事業 BtoC/BtoB両事業でAIエージェントを実装することで患者満足度世界一の医療体験を実現 AX toB事業 “まだ誰も見たことのない ”10Xな医療体験の実現既存医療インフラの AIによる劇的なアップデート

15 （C）PharmaX Inc. 2025 All Rights Reserve Agentic WorkﬂowとAIエージェント

（C）PharmaX Inc. 2025 All Rights Reserve 16 プロンプト内にタスクの計画ルールや選択肢を明示する
Agentic Workflow（フローエンジニアリング）とは • Agentic WorkflowとはLLMの組み合わせをデザインし、目的とする処理系を作り上げること • 途中で人が対応することがあってもいい • Agentic Workflowのようにワークフローを組むパターンはエージェントと呼ばないのでは？という指摘もある分類・計画タスクタスクA タスクB タスクC タスクD タスクE タスクF 分岐人の承認を挟む途中から人が引き継ぐ分類・計画結果によって分岐させる

Agentic Workflow（フローエンジニアリング）の評価分類・計画タスクタスクA タスクB タスクC タスクD タスクE タスクF 分岐人の承認を挟む途中から人が引き継ぐ各タスクごとに Outputを評価する必要がある分類・計画結果によって分岐させる処理系全体の最終的な Outputも評価する必要がある

18 （C）PharmaX Inc. 2025 All Rights Reserve LLMの評価

（C）PharmaX Inc. 2025 All Rights Reserve 19 出力の質の評価指標のパターン LLMアプリケーションの出力結果の評価という時にも、複数の評価指標を指すことがあるので注意 •
ヒューリスティックな自動評価では限界がある ◦ 「絵文字は2つまで」のようなレベルならルールベースで評価することも可能 ◦ 期待するアウトプットと実際のアウトプットを（ embedding distanceやlevenshtein distanceで）比較してスコアリングすることはできる • LLMエージェントの出力の妥当性をLLMでスコアリング（合格/不合格判定）する LLM-as-a-Judgeも有効 ◦ 一般的な観点だけではなく、下記のようなアプリケーション独自の観点でも評価する必要がある ▪ 自社の回答のライティングマニュアルに従っているか ▪ （VTuberなどが）キャラクター設定に合っているか

（C）PharmaX Inc. 2025 All Rights Reserve 20 評価用のプロンプトのイメージ LLMからのメッセージ提案を評価させるためのプロンプトを定義し、 LLMにLLMの評価をさせる
System あなた(assistant)には、別のassistant(chat-assistant)のメッセージを評価していただきます。 ## chat-assistantの前提 chat-assistantの役割は、PharmaX株式会社のYOJOというサービスのかかりつけ薬剤師です。健康や漢方の専門家として、常にユーザーの感情に寄り添いアドバイスをします。 ...（略） User chat-assistantの最後の返答がどの程度下記の文章作成マニュアルに従っているかで0〜100点のスコアを付けて下さい ## 文章のライティング方針・丁寧に対応する・謝罪では絵文字を使わずに、文章だけで表現する・難しい漢字はひらがなで書く・細かい説明は箇条書きで書く ...（略）評価用プロンプト

（C）PharmaX Inc. 2025 All Rights Reserve 21 リリース前には各タスク対してデータセットを用いた評価を実施リリース前には各タスクごとに評価用のデータセットを作って評価し、十分な結果が得られたらリリース experiment6
experiment13 experiment12 experiment11 experiment10 experiment9 experiment7 LLM-as-a-Judge1 LLM-as-a-Judge2 LLM-as-a-Judge1 評価指標が向上 LLM-as-a-Judge Grand Truthとの距離

（C）PharmaX Inc. 2025 All Rights Reserve 22 プロンプトの変更前後での評価スコアの変化をモニタリングリリース後の
LLM-as-a-Judgeでの評価結果を可視化各LLM-as-a-Judgeのスコアを可視化することで、プロンプト変更による改善の可否を判断する

（C）PharmaX Inc. 2025 All Rights Reserve 23 リリース後に人手でアノテーションすることで本番環境での正答率も測定 xxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx 正解・不正解 /良し悪しを人手でチェック LangSmithのAnnotation Queuesに蓄積して正解・不正解をチェックすることで正答率が測定できる

（C）PharmaX Inc. 2025 All Rights Reserve 24 データセットに蓄積 LangSmith上で蓄積したデータセットは下記のように見ることができる inputと(あるべき
)outputのセット

（C）PharmaX Inc. 2025 All Rights Reserve 25 主要エージェントをファインチューニングし精度向上＆コスト削減蓄積したデータセットを用いて GPT-4o-miniなどの安価なモデルをファインチューニング
データセットを upload Base modelはgpt-4o-mini

（C）PharmaX Inc. 2025 All Rights Reserve 26 ファインチューニングしたモデルでもデータセットに対して評価を実施ファインチューニング用に使ったデータと評価用のデータを分けて評価を実施 experiment6
experiment13 experiment12 experiment11 experiment10 experiment9 experiment7 LLM-as-a-Judge1 LLM-as-a-Judge2 LLM-as-a-Judge1 fine-tuned model 評価指標が向上 LLM-as-a-Judge Grand Truthとの距離

Agentic Workflow（フローエンジニアリング）のファインチューニング分類・計画タスクタスクA タスクB タスクC タスクD タスクE タスクF 分岐人の承認を挟む途中から人が引き継ぐ分類・計画結果によって分岐させる • 処理の計画や分岐を決める LLMが全体の精度を決める上で最も重要なので、重要なところから精度改善を行うべき • 一方で、基本的にはプロンプトエンジニアリングで改善の努力をして、それでもダメならファインチューニングに手を出すというのが

28 （C）PharmaX Inc. 2025 All Rights Reserve We're hiring!!! •
AXカンパニーのカンパニーCTO • AXカンパニーのPdM などを募集しております！！医療・ヘルスケア業界で AIエージェントを実装していく toB事業を行うAXカンパニーを立ち上げました

AIエージェントの評価・改善サイクル

AIエージェントの評価・改善サイクル

PharmaX（旧YOJO Technologies）開発チーム

More Decks by PharmaX（旧YOJO Technologies）開発チーム

Other Decks in Technology

Featured

Transcript

2025.7.1 AIエージェントの評価・改善サイクル

（C）PharmaX Inc. 2025 All Rights Reserve 2 自己紹介上野彰大 PharmaX共同創業者・CTO/AX事業部長

（C）PharmaX Inc. 2025 All Rights Reserve 3 個人でも勉強会コミュニティ StudyCoも運営

（C）PharmaX Inc. 2025 All Rights Reserve 4 自社としては LLMを中心に勉強会を月 1回程度開催

（C）PharmaX Inc. 2025 All Rights Reserve 5 StudyCo:7/10

（C）PharmaX Inc. 2025 All Rights Reserve 6 StudyCo:7/16

（C）PharmaX Inc. 2025 All Rights Reserve 7 AOAI Dev Day:7/18

（C）PharmaX Inc. 2025 All Rights Reserve 8 医療アドバイザーに体調のことをいつでも気軽に相談できる

（C）PharmaX Inc. 2025 All Rights Reserve 9 患者向けチャットシステムと薬剤師向け管理画面を自作患者とのスムーズなコミュニケーション薬剤師向け管理画面

（C）PharmaX Inc. 2025 All Rights Reserve 10 YOJOで稼働する OTC医薬品相談 AIエージェント

（C）PharmaX Inc. 2025 All Rights Reserve 11 YOJOにおけるAgentic Workflow（フローエンジニアリング） ①

（C）PharmaX Inc. 2025 All Rights Reserve 12 LangGraphで実際に構築したグラフルール1 ルール2

（C）PharmaX Inc. 2025 All Rights Reserve 13 LangSmithによるトレーシング rule1 ①

（C）PharmaX Inc. 2025 All Rights Reserve 14 医療業界を横断する 2つの事業領域 YOJO

15 （C）PharmaX Inc. 2025 All Rights Reserve Agentic WorkﬂowとAIエージェント

（C）PharmaX Inc. 2025 All Rights Reserve 16 プロンプト内にタスクの計画ルールや選択肢を明示する

（C）PharmaX Inc. 2025 All Rights Reserve 17 プロンプト内にタスクの計画ルールや選択肢を明示する

18 （C）PharmaX Inc. 2025 All Rights Reserve LLMの評価

（C）PharmaX Inc. 2025 All Rights Reserve 19 出力の質の評価指標のパターン LLMアプリケーションの出力結果の評価という時にも、複数の評価指標を指すことがあるので注意 •

（C）PharmaX Inc. 2025 All Rights Reserve 20 評価用のプロンプトのイメージ LLMからのメッセージ提案を評価させるためのプロンプトを定義し、 LLMにLLMの評価をさせる

（C）PharmaX Inc. 2025 All Rights Reserve 21 リリース前には各タスク対してデータセットを用いた評価を実施リリース前には各タスクごとに評価用のデータセットを作って評価し、十分な結果が得られたらリリース experiment6

（C）PharmaX Inc. 2025 All Rights Reserve 22 プロンプトの変更前後での評価スコアの変化をモニタリングリリース後の

（C）PharmaX Inc. 2025 All Rights Reserve 23 リリース後に人手でアノテーションすることで本番環境での正答率も測定 xxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxx

（C）PharmaX Inc. 2025 All Rights Reserve 24 データセットに蓄積 LangSmith上で蓄積したデータセットは下記のように見ることができる inputと(あるべき

（C）PharmaX Inc. 2025 All Rights Reserve 25 主要エージェントをファインチューニングし精度向上＆コスト削減蓄積したデータセットを用いて GPT-4o-miniなどの安価なモデルをファインチューニング

（C）PharmaX Inc. 2025 All Rights Reserve 26 ファインチューニングしたモデルでもデータセットに対して評価を実施ファインチューニング用に使ったデータと評価用のデータを分けて評価を実施 experiment6

（C）PharmaX Inc. 2025 All Rights Reserve 27 プロンプト内にタスクの計画ルールや選択肢を明示する

28 （C）PharmaX Inc. 2025 All Rights Reserve We're hiring!!! •