加藤拓真, 宮脇峻平, 第二回AI王最終報告会 - DPR ベースラインによるオープンドメイン質問応答の取り組み (2022)

DPR ベースラインによるオープンドメイン質問応答の取り組み https://github.com/cl-tohoku/AIO2_DPR_baseline 加藤拓真 / 宮脇峻平（東北大） 2022.03.11 第2回AI王最終報告会

第2回 AI 王：オープンドメイン質問応答 2022.03.11 第2回AI王最終報告会雷門雷門は浅草寺の山門。   東京都台東区浅草一丁目2-3番地に位置する。
  正式名称は風雷神門であり …  質問応答システム関連文書文書集合東京都内で最も古い寺院は何？  質問浅草寺  解答検索 1000 問中いくつ正解したかを評価 2 • ファクトイド型の質問に対して解答する際に参照する文書を指定しないタスク（ ⇄ 機械読解タスク） • 本コンペティションでは質問に対する解答の正解率で競う（最終的に人が正解を判定する） • 参加者はシステム+ 文書集合 + 実行環境を含む docker イメージを提出（30GB 以下 + 実行時間 6h 以内）

ベースライン：Retriever-Reader 型の質問応答システム検索モジュール解答モジュール 2022.03.11 第2回AI王最終報告会東京都内で最も古い寺院は何？  Retriever 雷門は浅草寺
の山門 … 東京都内で最も古い寺院と…  文書集合関連文書検索解答モデル質問関連文書東京都内で最も古い寺院は何？  Reader 質問雷門は浅草寺の山門 …  関連度計算質問エンコーダ文書エンコーダ浅草寺  解答 3 • ベースラインシステムでは、以下の二段階で質問に対する解答を行う 1. 質問に関連する文書を文書集合から検索する（Retriever） 2. 検索した関連文書から質問の解答位置を推定する（Reader）正例文書抽出スパン推定

Retriever による検索：Dense Passage Retrieval [Karpukhin+’20] 2022.03.11 第2回AI王最終報告会 • 二つのエンコーダがエンコードした質問と文書のベクトル表現（ CLS
表現）を用いて検索を行う • ベクトル表現を予め計算し保持することで、オフラインによる高速な検索を実現する • 検索時は FAISS の IndexFlatIP（最大内積探索）を使用する 4 Retriever (デュアルエンコーダ ) 質問エンコーダ (BERT) 文書エンコーダ (BERT) = [0.9 0.2 0.3] 質問に対する各文書の関連度 (内積値) 東京都内で最も古い寺院は何？  質問雷門雷門は浅草寺の山門。   東京都台東区浅草一丁目2-3番地に位置する。   正式名称は風雷神門であり …  関連文書文書集合質問ベクトル文書ベクトル集合検索モジュール

Retriever の学習 • 質問の解答が含まれている文書を正例文書として関連度（内積値）が高くなるように学習 • ミニバッチ内の他の正例文書を負例文書として関連度が低くなるように学習 • さらに
語のマッチングに基づいたハード負例（質問に関連するが解答を含まない）文書も使用する質問エンコーダ (BERT) 文書エンコーダ (BERT) Retriever (デュアルエンコーダ ) 1 n 負例文書正例文書質問 = 正例との関連度が高い負例との関連度が低いほどロスの値が低くなる … 2022.03.11 第2回AI王最終報告会検索モジュール 5

抽出型 Reader 解答モデル 2022.03.11 第2回AI王最終報告会 6 • Retriever が検索した関連文書の中から、質問に対する解答のスパンを推定する •
その際、各文書に対して解答が含まれるかどうかも推定する雷門は浅草寺の山門。東京都台東区浅草一丁目2-3番地に位置する。正式名称は風雷神門であり …  関連文書東京都内で最も古い寺院は何？  質問雷門は浅草寺の山門。東京都台東区浅草一丁目2-3番地に位置する。正式名称は風雷神門であり …  浅草寺  解答答えが含まれるか？上位 K 件の関連文書から答える対象の文書を抽出質問に対する答えのスパンを推定解答モジュール

抽出型 Reader 読解エンコーダ（BERT）質問 i のトークン文書 j のトークン
2022.03.11 第2回AI王最終報告会 7 開始位置予測ヘッド終了位置予測ヘッド … … 文書選択ヘッド … • 文書選択ヘッドを用いて、関連文書から答えを含む正例文書を抽出する • 抽出した正例文書から、質問に対する答えの開始・終了位置（スパン）を推定する質問に対する答えのスパンを推定解答モジュール上位 K 件の関連文書から答える対象の文書を抽出

• 負例作成に関する工夫： [Xiong+’20; Qu+’21; Ren+’21; Zhan+’21; Lu+’21] ◦ ミニバッチ内から負例を作成
→ 推論時における検索対象数との大きな差が検索性能に影響 ◦ クエリと文書間の関係のみモデル化 → 文書間同士の類似関係を考慮しない ◦ ハード負例文書を語のマッチングにより作成 → false negative 文書が負例となる可能性あり • ベクトルのメモリ効率化： [Izacard+’20; Yamada+’21; Zhan+’21; Santhanam+’21; Ma+’21; Zhan+’22] ◦ 検索対象の文書数が膨大 → メモリコストが大きい • クエリとのマッチング強化： [Sciavolino+’21; Liu+’21; Khattab+’21; Gao+’21; Wang+’21; Wu+’22] ◦ CLS トークンによるマッチング → トークンレベルなど粒度の高いマッチングが難しい • 汎化性能の向上： [Zhuang+’21; Ni+’21; Liu+’21; Chen+’21; Wang+’21] • データ・クエリ拡張： [Lee+’19; Guu+’20; Qu+’21; Izacard+’21; Mao+’21] • アーキテクチャの工夫：[Izacard+’20; Cheng+’21; Lee+’21; Tay+’22] DPR の問題点と改善案 2022.03.11 第2回AI王最終報告会 8 BPR

参考 • ACL2020 Tutorial: Open Domain Question Answering [ACL][GitHub] •
Retrieving and Reading : A Comprehensive Survey on Open-domain Question Answering [arXiv] • 山田+’21（Studio Ousia / RIKEN AIP）- オープンドメイン質問応答技術の最新動向（NLP2021 WS 第1回AI王） [Speaker Deck] • Karpukhin+’20 - Dense Passage Retrieval for Open-Domain Question Answering (EMNLP) [ACL Anthology][arXiv][GitHub] 2022.03.11 第2回AI王最終報告会 9

加藤拓真, 宮脇峻平, 第二回AI王最終報告会 - DPR ベースラインによるオープンドメイ...

加藤拓真, 宮脇峻平, 第二回AI王最終報告会 - DPR ベースラインによるオープンドメイン質問応答の取り組み (2022)

Shumpei Miyawaki

More Decks by Shumpei Miyawaki

Other Decks in Programming

Featured

Transcript

DPR ベースラインによるオープンドメイン質問応答の取り組み https://github.com/cl-tohoku/AIO2_DPR_baseline 加藤拓真 / 宮脇峻平（東北大） 2022.03.11 第2回AI王最終報告会

第2回 AI 王：オープンドメイン質問応答 2022.03.11 第2回AI王最終報告会雷門雷門は浅草寺の山門。   東京都台東区浅草一丁目2-3番地に位置する。

ベースライン：Retriever-Reader 型の質問応答システム検索モジュール解答モジュール 2022.03.11 第2回AI王最終報告会東京都内で最も古い寺院は何？  Retriever 雷門は浅草寺

Retriever による検索：Dense Passage Retrieval [Karpukhin+’20] 2022.03.11 第2回AI王最終報告会 • 二つのエンコーダがエンコードした質問と文書のベクトル表現（ CLS

Retriever の学習 • 質問の解答が含まれている文書を正例文書として関連度（内積値）が高くなるように学習 • ミニバッチ内の他の正例文書を負例文書として関連度が低くなるように学習 • さらに

抽出型 Reader 解答モデル 2022.03.11 第2回AI王最終報告会 6 • Retriever が検索した関連文書の中から、質問に対する解答のスパンを推定する •

抽出型 Reader 読解エンコーダ（BERT）質問 i のトークン文書 j のトークン

• 負例作成に関する工夫： [Xiong+’20; Qu+’21; Ren+’21; Zhan+’21; Lu+’21] ◦ ミニバッチ内から負例を作成

参考 • ACL2020 Tutorial: Open Domain Question Answering [ACL][GitHub] •

加藤拓真, 宮脇峻平, 第二回AI王最終報告会 - DPR ベースラインによる オープンドメイ...

加藤拓真, 宮脇峻平, 第二回AI王最終報告会 - DPR ベースラインによる オープンドメイン質問応答の取り組み (2022)

More Decks by Shumpei Miyawaki

Other Decks in Programming

Featured

Transcript

加藤拓真, 宮脇峻平, 第二回AI王最終報告会 - DPR ベースラインによるオープンドメイ...

加藤拓真, 宮脇峻平, 第二回AI王最終報告会 - DPR ベースラインによるオープンドメイン質問応答の取り組み (2022)