vader A: Anakin Skywalker Q: who has the most gold medals in the winter olympics of all time A: Norway Q: how many episodes are there in dragon ball z A: 291 11 Googleで検索された質問とその解答で構成されるデータセット
vader A: Anakin Skywalker Q: who has the most gold medals in the winter olympics of all time A: Norway Q: how many episodes are there in dragon ball z A: 291 Q: who has the most followers in the world on instagram A: Instagram 12 Googleで検索された質問とその解答で構成されるデータセット
vader A: Anakin Skywalker Q: who has the most gold medals in the winter olympics of all time A: Norway Q: how many episodes are there in dragon ball z A: 291 Q: who has the most followers in the world on instagram A: Instagram Q: ok google who was the second president of the united states A: John Adams 13 Googleで検索された質問とその解答で構成されるデータセット
• 負例数を大きくすることが性能向上につながると報告されている 27 Qu et al. RocketQA: An Optimized Training Approach to Dense Passage Retrieval for Open-Domain Question Answering より引用
各パッセージは、質問と連結してモデルに入力される • 下記の3つのヘッドを持つモデルを訓練 ◦ トークンが解答の開始位置である確率(P start )を出力するヘッド ◦ トークンが解答の終了位置である確率(P end )を出力するヘッド ◦ パッセージが正例である確率(P selected )を出力するヘッド • P selected でパッセージを選択しP start , P end で解答スパンを検出 35 [CLS] P CLS P 1 P N P SEP P 1’ P M’ P SEP Tok 1 Tok N [SEP] Tok 1’ Tok M’ [SEP] Transformer ... ... 質問 パッセージ 開始位置&終了位置 パッセージのスコア オープンドメイン質問応答で標準的に使われている抽出型 Reader P i : i番目のトークンの Transformerの出力ベクトル (全てのパッセージの [CLS]出力ベクトルを連結) Karpukhin et al. 2020 Dense Passage Retrieval for Open-Domain Question Answering. EMNLP.
• Salient span masking: Wikipediaにある固有表現及び日付をマスクして、モデルが正しく 穴埋めするように追加で事前訓練を行う • Closed book質問応答: 知識ソースを使わない(Retriever-Readerアプローチではない) Roberts et al. 2020 How Much Knowledge Can You Pack Into the Parameters of a Language Model? EMNLP.
入力長に余裕がある場合はテーブルの他の行をランダムに選択して加える • テーブルとリストを知識ソースに加えることで、上位20件/100件の候補 パッセージに解答文字列が含まれている確率が大幅に向上 51 テーブルとリストを加えて知識ソースを拡張する Oguz et al. 2020 Unified Open-Domain Question Answering with Structured and Unstructured Knowledge. ArXiv.
インデックスの容量を1.6GB程度まで削減 • Ousia-Tohoku Soseki: ◦ Learning to hashを適用し、パッセージのベクトル表現を訓練時にバイナリ化 ◦ ベクトルの各次元が1bitで表現され、インデックスの容量を2GB程度まで削減 54 Izacard et al. 2020 A Memory Efficient Baseline for Open Domain Question Answering. ArXiv.