Slide 1

Slide 1 text

DPR ベースラインによる オープンドメイン質問応答の取り組み https://github.com/cl-tohoku/AIO2_DPR_baseline 加藤拓真 / 宮脇峻平(東北大) 2022.03.11 第2回AI王最終報告会

Slide 2

Slide 2 text

第2回 AI 王:オープンドメイン質問応答 2022.03.11 第2回AI王最終報告会 雷門 雷門は浅草寺の山門。 
 東京都台東区浅草一丁 目2-3番地に位置する。 
 正式名称は風雷神門で あり …
 質問応答システム 関連文書 文書集合 東京都内で最も古 い寺院は何?
 質問 浅草寺
 解答 検索 1000 問中いくつ 正解したかを評価 2 ● ファクトイド型の質問に対して解答する際に参照する文書を指定しないタスク( ⇄ 機械読解タスク) ● 本コンペティションでは質問に対する 解答の正解率 で競う(最終的に人が正解を判定する) ● 参加者は システム+ 文書集合 + 実行環境を含む docker イメージを提出(30GB 以下 + 実行時間 6h 以内)

Slide 3

Slide 3 text

ベースライン:Retriever-Reader 型の質問応答システム 検索モジュール 解答モジュール 2022.03.11 第2回AI王最終報告会 東京都内で最も 古い寺院は何?
 Retriever 雷門は浅草寺 の山門 … 東 京都内で最も 古い寺院と…
 文書集合 関連文書 検索 解答モデル 質問 関連文書 東京都内で最も古 い寺院は何?
 Reader 質問 雷門は浅草寺 の山門 …
 関連度 計算 質問エンコーダ 文書エンコーダ 浅草寺
 解答 3 ● ベースラインシステムでは、以下の二段階で質問に対する解答を行う 1. 質問に関連する文書を文書集合から 検索 する(Retriever) 2. 検索した関連文書から質問の解答位置を 推定 する(Reader) 正例文書抽出 スパン推定

Slide 4

Slide 4 text

Retriever による検索:Dense Passage Retrieval [Karpukhin+’20] 2022.03.11 第2回AI王最終報告会 ● 二つのエンコーダがエンコードした質問と文書のベクトル表現( CLS 表現)を用いて検索を行う ● ベクトル表現を予め計算し保持することで、オフラインによる高速な検索を実現する ● 検索時は FAISS の IndexFlatIP(最大内積探索) を使用する 4 Retriever (デュアルエンコーダ ) 質問エンコーダ (BERT) 文書エンコーダ (BERT) = [0.9 0.2 0.3] 質問に対する 各文書の関連度 (内積値) 東京都内で最も古 い寺院は何?
 質問 雷門 雷門は浅草寺の山門。 
 東京都台東区浅草一丁 目2-3番地に位置する。 
 正式名称は風雷神門で あり …
 関連文書 文書集合 質問ベクトル 文書ベクトル集合 検索モジュール

Slide 5

Slide 5 text

Retriever の学習 ● 質問の解答が含まれている文書 を正例文書として関連度(内積値)が高くなるように学習 ● ミニバッチ内の他の正例文書 を負例文書として関連度が低くなるように学習 ● さらに 語のマッチング に基づいたハード負例( 質問に関連するが解答を含まない )文書も使用する 質問エンコーダ (BERT) 文書エンコーダ (BERT) Retriever (デュアルエンコーダ ) 1 n 負例文書 正例文書 質問 = 正例との関連度 が 高い 負例との関連度 が 低い ほどロスの値が低くなる … 2022.03.11 第2回AI王最終報告会 検索モジュール 5

Slide 6

Slide 6 text

抽出型 Reader 解答モデル 2022.03.11 第2回AI王最終報告会 6 ● Retriever が検索した関連文書の中から、質問に対する解答のスパンを推定する ● その際、各文書に対して解答が含まれるかどうかも推定する 雷門は浅草寺の山門。東京都 台東区浅草一丁目2-3番地に 位置する。正式名称は風雷神門 であり …
 関連文書 東京都内で最も古 い寺院は何?
 質問 雷門は浅草寺の山門。東京都 台東区浅草一丁目2-3番地に 位置する。正式名称は風雷神門 であり …
 浅草寺
 解答 答えが含まれるか? 上位 K 件の関連文書から 答える対象の文書を抽出 質問に対する 答えのスパンを推定 解答モジュール

Slide 7

Slide 7 text

抽出型 Reader 読解エンコーダ (BERT) 質問 i のトークン 文書 j のトークン 2022.03.11 第2回AI王最終報告会 7 開始位置 予測ヘッド 終了位置 予測ヘッド … … 文書選択 ヘッド … ● 文書選択ヘッドを用いて、関連文書から答えを含む正例文書を抽出する ● 抽出した正例文書から、質問に対する答えの開始・終了位置(スパン)を推定する 質問に対する 答えのスパンを推定 解答モジュール 上位 K 件の関連文書から 答える対象の文書を抽出

Slide 8

Slide 8 text

● 負例作成に関する工夫 : [Xiong+’20; Qu+’21; Ren+’21; Zhan+’21; Lu+’21] ○ ミニバッチ内から負例を作成 → 推論時における検索対象数との大きな差が検索性能に影響 ○ クエリと文書間の関係のみモデル化 → 文書間同士の類似関係を考慮しない ○ ハード負例文書を語のマッチングにより作成 → false negative 文書が負例となる可能性あり ● ベクトルのメモリ効率化 : [Izacard+’20; Yamada+’21; Zhan+’21; Santhanam+’21; Ma+’21; Zhan+’22] ○ 検索対象の文書数が膨大 → メモリコストが大きい ● クエリとのマッチング強化 : [Sciavolino+’21; Liu+’21; Khattab+’21; Gao+’21; Wang+’21; Wu+’22] ○ CLS トークンによるマッチング → トークンレベルなど粒度の高いマッチングが難しい ● 汎化性能の向上: [Zhuang+’21; Ni+’21; Liu+’21; Chen+’21; Wang+’21] ● データ・クエリ拡張: [Lee+’19; Guu+’20; Qu+’21; Izacard+’21; Mao+’21] ● アーキテクチャの工夫 :[Izacard+’20; Cheng+’21; Lee+’21; Tay+’22] DPR の問題点と改善案 2022.03.11 第2回AI王最終報告会 8 BPR

Slide 9

Slide 9 text

参考 ● ACL2020 Tutorial: Open Domain Question Answering [ACL][GitHub] ● Retrieving and Reading : A Comprehensive Survey on Open-domain Question Answering [arXiv] ● 山田+’21(Studio Ousia / RIKEN AIP)- オープンドメイン質問応答技術の最新動向 (NLP2021 WS 第1回AI王) [Speaker Deck] ● Karpukhin+’20 - Dense Passage Retrieval for Open-Domain Question Answering (EMNLP) [ACL Anthology][arXiv][GitHub] 2022.03.11 第2回AI王最終報告会 9