① LLMアプリケーションの評価という時、事前に用意したデータセットを入力とし、出力結果を定 量的に評価することを指すことが多いが、まだ手付かず ◦ プロンプトのテンプレートを変更した時に、その変更の良し悪しを事前に用意した入力データセットに 対して出力を計算し、その出力を評価する ◦ 例えば、正解となる答えと出力との類似度を計算したり、出力自体の読みやすさを LLMに評価させ る • ② 本番環境で実際にサジェストされた内容の受け入れ率やその他評価項目を非同期で計算 し、PromptLayerに記録していく ◦ サジェスト内容が医学的に正しい内容だったか、マニュアルに従っているかなどを評価 ◦ 例えば、受け入れ率は LLMがサジェストしたメッセージと実際に送ったメッセージの文章の類似度 (Levenshtein-distanceやembedding-distance)を計算する