LLMアプリケーションの開発が行われるようになり、本番運用している企業も増えてきました。 よいLLMアプリケーションを作るための工夫としてのプロンプトエンジニアリングやRAGなどの手法は、エンジニア界隈では広く一般に知られるようになってきました。
一方、LLMの実験管理や評価の方法についてはまだベストプラクティスが出揃っておらず、各社が手探りで行っているような状態です。
評価ができなれば、どれだけLLMアプリケーションの精度改善のプラクティスが出ても、継続的に精度改善していくことはできません。
また、本番運用されるLLMアプリケーションは、精度やビジネスインパクトへの評価だけではなく、コストやレイテンシーを継続的にモニタリングしていくことも重要です。
発表者が所属するPharmaX社でも例に漏れず、手探りで評価方法を確立しようと奮闘しています。本発表では、発表者が得た知見や工夫を整理して発表したいと思います。