al., 2022) • GPT-3は自身の知識の程度をある程度判別できる How Can We Know When Language Models Know? On the Calibration of Language Models for Question Answering (Jiang et al., 2021) • (モデルによっては)確信度と正答率の間に相関が見られる Detecting Hallucinated Content in Conditional Neural Sequence Generation (Zhou et al., 2021) • ハルシネーションの内容は入力から予測が困難であると考えられる(という言及) Can Open-Domain QA Reader Utilize External Knowledge Efficiently like Humans? (Varshney et al., 2022) • 検索を使わないモデルで低確信度の出力が得られた際、検索を使うモデルに切り替えて生成すると好成績 検索を行うタイミングはLMが生成したトークンの確信度が低い時とすればよさそう FLARE(direct) 6
a law degree. 赤い部分の確信度が閾値θを下回っている→この文をクエリにして検索 Joe Biden attended [MASK], where he earned [MASK]. クエリとして使う際、確信度が低い (<β)トークンをマスクしてクエリとする。 マスクしたことがわかるトークンに置換している、と思っていたが、 Fig. 3 を見ると単にそのトークンを削除しているっぽい? FLARE(direct) 7
of nanomaterials? Answer (with Search): [Search(nanomaterial production risks)] Some nanomaterials may give rise to various kinds of lung damage. Question: The colors on the flag of Ghana have the following meanings. Answer (with Search): Red is for [Search(Ghana flag red meaning)] the blood of martyrs, green for forests, and gold for mineral wealth. Skill 2のinstruction例 Question: When did the director of film Hypocrite (Film) die? Answer (with step-by-step): The film Hypocrite was directed by Miguel Morayta. Miguel Morayta died on 19 June 2013. So the answer is 19 June 2013. FLARE(instruct) 10