『LLMアプリケーションの実験管理・評価についての知見をまとめてみた』(https://yojo.connpass.com/event/305679/)で発表した資料です。
------------------------
概要
LLMアプリケーションの開発が行われるようになり、本番運用している企業も増えてきました。
よいLLMアプリケーションを作るための工夫としてのプロンプトエンジニアリングやRAGなどの手法は、エンジニア界隈では広く一般に知られるようになってきました。
一方、LLMの実験管理や評価の方法についてはまだベストプラクティスが出揃っておらず、各社が手探りで行っているような状態です。評価ができなれば、どれだけLLMアプリケーションの精度改善のプラクティスが出ても、継続的に精度改善していくことはできません。
また、本番運用されるLLMアプリケーションは、精度やビジネスインパクトへの評価だけではなく、コストやレイテンシーを継続的にモニタリングしていくことも重要です。
PharmaXでも例に漏れず、手探りで評価方法を確立しようと奮闘しています。本発表では、PharmaX内で得た知見と、現時点で世間的に言われている知見を整理して発表したいと思います。
こんな人におすすめ
LLMアプリケーション開発の最新トレンドを知りたい方
LLMアプリケーションの実験管理・評価について他社事例などを詳しく知りたい方
LLMアプリケーションを開発して本番運用しているorしようとしているPdM・エンジニアの方
対象者
少しでもLLMを活用したアプリケーション開発をしたことがある方
Pythonのコードをざっくりとでもいいので理解できる方
LLM・AIの基礎知識のある方(数学的な話はあまり出てきません)