で他の q が original よりも有用な可能性があるから • テストセットの500事例を人手で評価 ⭕ • 専門的知識のある人を使って annotation する • 投稿と、ランダムに並べた10個の質問候補を見せてラベルづけしてもらう ◦ 最も良い質問に “best” ◦ 有用な質問に “valid”(bestにもvalidとつける) • 10人の Annotator を2つに分けて、1人100事例を Annotation する • Kappa 係数 best: 0.15 valid: 0.58 • 元の質問が2人の Annotator によって best, valid と選択される頻度を計算 ◦ 1人が best 72%, 2人が best 20% ◦ 1人が valid 88%, 2人が valid 76%