プロンプトの運用期間を通しての評価の可視化を行いたい ◦ 現在はPromptLayerに記録している評価スコアを出力ごとに 1つずつ手動で見ており不便なため、 評価スコアを定期的に BigQueryにインポートして分析、可視化することを想定 ◦ プロンプトの変更前後でどの程度評価結果が変わったのかを統計データで比較できるようにしたい • 類似度計算以外の評価はLLMで評価を行っている以上、その評価が意図した通りの scoreを出 しているのか(直感に則した結果になっているか)を評価し、評価用のプロンプトそのものも改善 していく必要がある ◦ 出力された評価が評価者の直感に反していれば(明らかに医学的に間違ったことを出力しているの に点数は高くなっているなど)、評価用のプロンプトを改善して意味ある評価にする必要がある