PharmaXは、オンライン完結で医薬品を購入することが可能な薬局を運営するスタートアップです。
PharmaXでは、薬剤師がチャットする内容をLLMでサジェストするシステムを本番運用しています。
LLMで精度高くチャット内容をサジェストするために、チャット相手であるユーザーのステータスに合わせてLLMエージェントを切り替えていくというマルチエージェントの仕組みを取り入れています。
このマルチエージェントの精度を継続的に改善していくためには、評価を行うことが重要です。 PharmaXでは、LLM-as-a-Judgeと呼ばれる「LLMにLLMの出力を評価させる手法」を使って評価しています。
これまでもPharmaXの評価の運用については、下記のようにいくつかの記事やイベントで公開して来ました。
LLMアプリケーションの実験管理の運用をまとめてみた〜PromptLayerを使った本番運用〜
LLMアプリケーションの評価の運用についてまとめてみた
LLMの事前評価のシステムアーキテクチャを紹介します
LLMによるLLMの評価(LLM as a judge)の精度改善のための試行錯誤〜評価分割・モデル間比較
LLMによるLLMの評価(LLM as a judge)の精度改善のためのプロンプトエンジニアリング
本発表では、現時点でPharmaXでLLM as a judgeがどのように活用され、どのような課題感を感じているのか、そして、今後どのように発展させていきたいのかということを改めてまとめたいと思います。