Natural Questionsデータセットの例 Q: who is under the mask of darth vader A: Anakin Skywalker Q: who has the most gold medals in the winter olympics of all time A: Norway 10 Googleで検索された質問とその解答で構成されるデータセット
Natural Questionsデータセットの例 Q: who is under the mask of darth vader A: Anakin Skywalker Q: who has the most gold medals in the winter olympics of all time A: Norway Q: how many episodes are there in dragon ball z A: 291 11 Googleで検索された質問とその解答で構成されるデータセット
Natural Questionsデータセットの例 Q: who is under the mask of darth vader A: Anakin Skywalker Q: who has the most gold medals in the winter olympics of all time A: Norway Q: how many episodes are there in dragon ball z A: 291 Q: who has the most followers in the world on instagram A: Instagram 12 Googleで検索された質問とその解答で構成されるデータセット
Natural Questionsデータセットの例 Q: who is under the mask of darth vader A: Anakin Skywalker Q: who has the most gold medals in the winter olympics of all time A: Norway Q: how many episodes are there in dragon ball z A: 291 Q: who has the most followers in the world on instagram A: Instagram Q: ok google who was the second president of the united states A: John Adams 13 Googleで検索された質問とその解答で構成されるデータセット
抽出型Reader (DPR reader): 概要 ● Retrieverが出力した候補パッセージから、パッセージを 選択して、選択したパッセージから解答文字列を抽出 ● BERTなどの事前訓練済みモデルを使う ● 各パッセージは、質問と連結してモデルに入力される ● 下記の3つのヘッドを持つモデルを訓練 ○ トークンが解答の開始位置である確率(P start )を出力するヘッド ○ トークンが解答の終了位置である確率(P end )を出力するヘッド ○ パッセージが正例である確率(P selected )を出力するヘッド ● P selected でパッセージを選択しP start , P end で解答スパンを検出 35 [CLS] P CLS P 1 P N P SEP P 1’ P M’ P SEP Tok 1 Tok N [SEP] Tok 1’ Tok M’ [SEP] Transformer ... ... 質問 パッセージ 開始位置&終了位置 パッセージのスコア オープンドメイン質問応答で標準的に使われている抽出型 Reader P i : i番目のトークンの Transformerの出力ベクトル (全てのパッセージの [CLS]出力ベクトルを連結) Karpukhin et al. 2020 Dense Passage Retrieval for Open-Domain Question Answering. EMNLP.
抽出型Reader (DPR reader): 性能 ● DPRとBERT-baseベースの抽出型Readerを組み合わせる ● 2020年前半頃まで(?)のstate of the art 36 DPR readerのBERT-baseをELECTRA-largeに差し替えると、Natural Questionsで50%前後までは出せるよ
生成型Reader (T5+SSM): 概要 37 知識ソースを使わずに大規模言語モデルから解答を生成 ● T5(言語生成可能な大規模訓練済み言語モデル)に質問を読ませて解答を生成 ○ モデルのパラメータ数を増やせば、多くの情報を覚え込ませられるので、知識ソースを 参照しなくても質問に解答できる ● Salient span masking: Wikipediaにある固有表現及び日付をマスクして、モデルが正しく 穴埋めするように追加で事前訓練を行う ● Closed book質問応答: 知識ソースを使わない(Retriever-Readerアプローチではない) Roberts et al. 2020 How Much Knowledge Can You Pack Into the Parameters of a Language Model? EMNLP.