Slide 1

Slide 1 text

2025.7.1 AIエージェントの評価・改善サイクル

Slide 2

Slide 2 text

(C)PharmaX Inc. 2025 All Rights Reserve 2 自己紹介 上野彰大 PharmaX共同創業者・CTO/AX事業部長 好きな料理はオムライスと白湯とコーラ マイブームは真夜中のVibe Coding X:@ueeeeniki

Slide 3

Slide 3 text

(C)PharmaX Inc. 2025 All Rights Reserve 3 個人でも勉強会コミュニティ StudyCoも運営

Slide 4

Slide 4 text

(C)PharmaX Inc. 2025 All Rights Reserve 4 自社としては LLMを中心に勉強会を月 1回程度開催

Slide 5

Slide 5 text

(C)PharmaX Inc. 2025 All Rights Reserve 5 StudyCo:7/10

Slide 6

Slide 6 text

(C)PharmaX Inc. 2025 All Rights Reserve 6 StudyCo:7/16

Slide 7

Slide 7 text

(C)PharmaX Inc. 2025 All Rights Reserve 7 AOAI Dev Day:7/18

Slide 8

Slide 8 text

(C)PharmaX Inc. 2025 All Rights Reserve 8 医療アドバイザーに体調 のことをいつでも気軽に相 談できる 相談型医療体験 30種類以上の漢方薬からあ なたに合ったものを月毎に 提案 パーソナライズ漢方薬 定期的に漢方をお届けし、 一人ひとりに寄り添うかか りつけ医療を提供 継続的なかかりつけ 一生涯にわたって寄り添うかかりつけ漢方薬局「 YOJO」

Slide 9

Slide 9 text

(C)PharmaX Inc. 2025 All Rights Reserve 9 患者向けチャットシステムと薬剤師向け管理画面を自作 患者とのスムーズなコミュニケーション 薬剤師向け管理画面 チャット形式での診断・相談・購入 患者向けチャットシステム

Slide 10

Slide 10 text

(C)PharmaX Inc. 2025 All Rights Reserve 10 YOJOで稼働する OTC医薬品相談 AIエージェント 患者さまからの一次対応をすべて AIエージェントが行う(裏側では 100近いのプロンプトが稼働) 基本的にはメッセージを自動送信し、必要があれば薬剤師に承認を求める 一次的な漢方選択や、こちらから送信する体調確認などもエージェントが自律的に作成 薬剤師に重要な 返信や判断の確認を依頼 一次的な漢方選択なども行う 薬剤師が返信する場合もある AIエージェント 薬剤師 ユーザー AIが人に指示をするような体験

Slide 11

Slide 11 text

(C)PharmaX Inc. 2025 All Rights Reserve 11 YOJOにおけるAgentic Workflow(フローエンジニアリング) ① ② ④ ● ①ルールベースでLLM処理可能かを 判定 ● ②LLMで会話を分類しLLM処理可能 かを判定 ● ③LLMで次のフェーズに移るべきかど うかを判定 ● ④LLMでメッセージを作成 ● ⑤LLMで作成されたメッセージを評価 (LLM-as-a-Judge)し、一定の水準を 下回ったら再生成して、クリアしたもの のみをサジェストする 現時点では精度高く メッセージ提案できない ため薬剤師が対応 ③ ⑤ ※②〜⑤: GPT-4o

Slide 12

Slide 12 text

(C)PharmaX Inc. 2025 All Rights Reserve 12 LangGraphで実際に構築したグラフ ルール1 ルール2 LLM-メッセージ作成 _ 分類4 LLM-会話分類 LLM-メッセージ作成 _ 分類1 LLM-メッセージ作成 _ 分類2 LLM-メッセージ作成 _ 分類3 LLM-フェーズ切替 LangGraphで作成したグラフはmermaidで出力しテストにも使用している

Slide 13

Slide 13 text

(C)PharmaX Inc. 2025 All Rights Reserve 13 LangSmithによるトレーシング rule1 ① ② ③ ④ ⑤ ・・・ rule2 ④ ⑤ ① ② ④ ③ ⑤ ※②〜⑤: GPT-4o

Slide 14

Slide 14 text

(C)PharmaX Inc. 2025 All Rights Reserve 14 医療業界を横断する 2つの事業領域 YOJO toC事業 BtoC/BtoB両事業でAIエージェントを実装することで患者満足度世界一の医療体験を実現 AX toB事業 “まだ誰も見たことのない ”10Xな医療体験の実現 既存医療インフラの AIによる劇的なアップデート

Slide 15

Slide 15 text

15 (C)PharmaX Inc. 2025 All Rights Reserve Agentic WorkflowとAIエージェント

Slide 16

Slide 16 text

(C)PharmaX Inc. 2025 All Rights Reserve 16 プロンプト内に タスクの計画ルールや 選択肢を明示する Agentic Workflow(フローエンジニアリング)とは ● Agentic WorkflowとはLLMの組み合わせをデザインし、目的とする処理系を作り上げること ● 途中で人が対応することがあってもいい ● Agentic Workflowのようにワークフローを組むパターンはエージェントと呼ばないのでは?という指摘もある 分類・計画 タスク タスクA タスクB タスクC タスクD タスクE タスクF 分岐 人の承認を挟む 途中から人が引き継ぐ 分類・計画結果に よって分岐させる

Slide 17

Slide 17 text

(C)PharmaX Inc. 2025 All Rights Reserve 17 プロンプト内に タスクの計画ルールや 選択肢を明示する Agentic Workflow(フローエンジニアリング)の評価 分類・計画 タスク タスクA タスクB タスクC タスクD タスクE タスクF 分岐 人の承認を挟む 途中から人が引き継ぐ 各タスクごとに Outputを 評価する必要がある 分類・計画結果に よって分岐させる 処理系全体の 最終的な Outputも 評価する必要がある

Slide 18

Slide 18 text

18 (C)PharmaX Inc. 2025 All Rights Reserve LLMの評価

Slide 19

Slide 19 text

(C)PharmaX Inc. 2025 All Rights Reserve 19 出力の質の評価指標のパターン LLMアプリケーションの出力結果の評価という時にも、複数の評価指標を指すことがあるので注意 ● ヒューリスティックな自動評価では限界がある ○ 「絵文字は2つまで」のようなレベルならルールベースで評価することも可能 ○ 期待するアウトプットと実際のアウトプットを( embedding distanceやlevenshtein distanceで)比較してスコアリングすることはできる ● LLMエージェントの出力の妥当性をLLMでスコアリング(合格/不合格判定)する LLM-as-a-Judgeも有効 ○ 一般的な観点だけではなく、下記のようなアプリケーション独自の観点でも評価する必要が ある ■ 自社の回答のライティングマニュアルに従っているか ■ (VTuberなどが)キャラクター設定に合っているか

Slide 20

Slide 20 text

(C)PharmaX Inc. 2025 All Rights Reserve 20 評価用のプロンプトのイメージ LLMからのメッセージ提案を評価させるためのプロンプトを定義し、 LLMにLLMの評価をさせる System あなた(assistant)には、別のassistant(chat-assistant)のメッ セージを評価していただきます。 ## chat-assistantの前提 chat-assistantの役割は、PharmaX株式会社のYOJOという サービスのかかりつけ薬剤師です。健康や漢方の専門家とし て、常にユーザーの感情に寄り添いアドバイスをします。 ...(略) User chat-assistantの最後の返答がどの程度下記の文章作成マニュ アルに従っているかで0〜100点のスコアを付けて下さい ## 文章のライティング方針 ・丁寧に対応する ・謝罪では絵文字を使わずに、文章だけで表現する ・難しい漢字はひらがなで書く ・細かい説明は箇条書きで書く ...(略) 評価用プロンプト

Slide 21

Slide 21 text

(C)PharmaX Inc. 2025 All Rights Reserve 21 リリース前には各タスク対してデータセットを用いた評価を実施 リリース前には各タスクごとに評価用のデータセットを作って評価し、十分な結果が得られたらリリース experiment6 experiment13 experiment12 experiment11 experiment10 experiment9 experiment7 LLM-as-a-Judge1 LLM-as-a-Judge2 LLM-as-a-Judge1 評価指標が向上 LLM-as-a-Judge Grand Truthとの距離

Slide 22

Slide 22 text

(C)PharmaX Inc. 2025 All Rights Reserve 22 プロンプトの変更前後での 評価スコアの変化をモニタリング リリース後の LLM-as-a-Judgeでの評価結果を可視化 各LLM-as-a-Judgeのスコアを可視化することで、プロンプト変更による改善の可否を判断する

Slide 23

Slide 23 text

(C)PharmaX Inc. 2025 All Rights Reserve 23 リリース後に人手でアノテーションすることで本番環境での正答率も測定 xxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx 正解・不正解 /良し悪し を人手でチェック LangSmithのAnnotation Queuesに蓄積して正解・不正解をチェックすることで正答率が測定できる

Slide 24

Slide 24 text

(C)PharmaX Inc. 2025 All Rights Reserve 24 データセットに蓄積 LangSmith上で蓄積したデータセットは下記のように見ることができる inputと(あるべき )outputのセット

Slide 25

Slide 25 text

(C)PharmaX Inc. 2025 All Rights Reserve 25 主要エージェントをファインチューニングし精度向上&コスト削減 蓄積したデータセットを用いて GPT-4o-miniなどの安価なモデルをファインチューニング データセットを upload Base modelはgpt-4o-mini

Slide 26

Slide 26 text

(C)PharmaX Inc. 2025 All Rights Reserve 26 ファインチューニングしたモデルでもデータセットに対して評価を実施 ファインチューニング用に使ったデータと評価用のデータを分けて評価を実施 experiment6 experiment13 experiment12 experiment11 experiment10 experiment9 experiment7 LLM-as-a-Judge1 LLM-as-a-Judge2 LLM-as-a-Judge1 fine-tuned model 評価指標が向上 LLM-as-a-Judge Grand Truthとの距離

Slide 27

Slide 27 text

(C)PharmaX Inc. 2025 All Rights Reserve 27 プロンプト内に タスクの計画ルールや 選択肢を明示する Agentic Workflow(フローエンジニアリング)のファインチューニング 分類・計画 タスク タスクA タスクB タスクC タスクD タスクE タスクF 分岐 人の承認を挟む 途中から人が引き継ぐ 分類・計画結果に よって分岐させる ● 処理の計画や分岐を決める LLMが全体の精度を決める上で最も重要なので、重要なところから精度改善を 行うべき ● 一方で、基本的にはプロンプトエンジニアリングで改善の努力をして、それでもダメならファインチューニング に手を出すというのが

Slide 28

Slide 28 text

28 (C)PharmaX Inc. 2025 All Rights Reserve We're hiring!!! ● AXカンパニーのカンパニーCTO ● AXカンパニーのPdM などを募集しております!! 医療・ヘルスケア業界で AIエージェントを実装していく toB事業を行うAXカンパニーを立ち上げました