Slide 16
Slide 16 text
そもそも「評価」って何?
◆大前提:AIが生成した回答の正解は1つではない
• (例)世界で一番高い山は?という問いに対して…
AI「エベレストです」→正解
AI「ヒマラヤ山脈にあるエベレストです。その標高は8848mで〜」→正解
AI「1位はエベレスト、2位はK2、3位はカンチェンジュンガです」→正解
• だが、どの回答を求めているかは利用者による
◆評価:AIの回答において「何を正解とするか」を定める行為
• 人間側で「正解」を設定し、そこからどのくらい差が生じているかを
定性的・定量的に判断する必要がある
• 回答に有害な内容やハルシネーションが含まれていないかをチェックする
(責任あるAI)