n Q=q->A=a’を学習することでQ=q->A=aではないことを学習 させる。これでReasoning shortcutを抑制する。 n この時、R=r’を条件づけておくことで、論拠によって回 答に差が出ることを学習。但し、誤った論拠自体は学習 したくないので、学習は回答部分のみ n また、論拠によって回答に差が出ることから、より論拠 に依拠したモデルになることを期待 Factualのみの場合 Counterfactualありの場合
n Simulatability: 論拠が加わった場合に正答a*を回答できているか。 l ACC(qr->a*) – ACC(q->a*) n Faithfulness: 生徒モデルの回答a”が論拠で変化しているか l ACC(qr->a”) – ACC(q->a”) Hose et al. Leakage-Adjusted Simulatability: Can Models Generate Non-Trivial Explanations of Their Behavior in Natural Language? Findings of EMNLP2020より q r