Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Speaker Deck
PRO
Sign in
Sign up for free
加藤拓真, 宮脇峻平, 第二回AI王最終報告会 - DPR ベースラインによる オープンドメイン質問応答の取り組み (2022)
Shumpei Miyawaki
March 11, 2022
Programming
2
150
加藤拓真, 宮脇峻平, 第二回AI王最終報告会 - DPR ベースラインによる オープンドメイン質問応答の取り組み (2022)
Shumpei Miyawaki
March 11, 2022
Tweet
Share
Other Decks in Programming
See All in Programming
The future of trust stores in Python
sethmlarson
0
180
Jakarta EE 10 is Coming Your Way
ivargrimstad
0
2.3k
TSDサービスRecap ~PMBOK®ガイド第7版超速まるわかりガイド~|ミツエーリンクスTSD
mlctsd
0
100
アプリのログをチーム外で活用してもらうためにやったこと
shotakashihara
0
180
dbtとBigQueryで始めるData Vault入門
kazk1018
0
180
Get Ready for Jakarta EE 10
ivargrimstad
0
2.2k
書籍『良いコード/悪いコードで学ぶ設計入門』でエンジニアリングの当たり前を変える
minodriven
3
1.1k
プログラミングを勉強したいと言われたら
yuba_4
0
390
質とスピード(2022春版、質疑応答用資料付き) / Quality and Speed 2022 Spring Edition
twada
PRO
28
18k
Securing Kafka Connect Pipelines with Client-Side Field Level Cryptography @ Kafka Summit London 2022
hpgrahsl
0
310
機能横断型チームにおける技術改善
takeshiakutsu
3
440
Microsoft Teams の 会議アプリ開発のはじめかた / How to start Microsoft Teams app development
karamem0
0
1.6k
Featured
See All Featured
Building Adaptive Systems
keathley
25
1.1k
Learning to Love Humans: Emotional Interface Design
aarron
261
37k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
15
910
The Language of Interfaces
destraynor
148
20k
Java REST API Framework Comparison - PWX 2021
mraible
PRO
11
4.6k
What's in a price? How to price your products and services
michaelherold
229
9.3k
Docker and Python
trallard
27
1.5k
Keith and Marios Guide to Fast Websites
keithpitt
404
21k
Producing Creativity
orderedlist
PRO
333
37k
Bash Introduction
62gerente
596
210k
Robots, Beer and Maslow
schacon
152
7.1k
Embracing the Ebb and Flow
colly
73
3.3k
Transcript
DPR ベースラインによる オープンドメイン質問応答の取り組み https://github.com/cl-tohoku/AIO2_DPR_baseline 加藤拓真 / 宮脇峻平(東北大) 2022.03.11 第2回AI王最終報告会
第2回 AI 王:オープンドメイン質問応答 2022.03.11 第2回AI王最終報告会 雷門 雷門は浅草寺の山門。 東京都台東区浅草一丁 目2-3番地に位置する。
正式名称は風雷神門で あり … 質問応答システム 関連文書 文書集合 東京都内で最も古 い寺院は何? 質問 浅草寺 解答 検索 1000 問中いくつ 正解したかを評価 2 • ファクトイド型の質問に対して解答する際に参照する文書を指定しないタスク( ⇄ 機械読解タスク) • 本コンペティションでは質問に対する 解答の正解率 で競う(最終的に人が正解を判定する) • 参加者は システム+ 文書集合 + 実行環境を含む docker イメージを提出(30GB 以下 + 実行時間 6h 以内)
ベースライン:Retriever-Reader 型の質問応答システム 検索モジュール 解答モジュール 2022.03.11 第2回AI王最終報告会 東京都内で最も 古い寺院は何? Retriever 雷門は浅草寺
の山門 … 東 京都内で最も 古い寺院と… 文書集合 関連文書 検索 解答モデル 質問 関連文書 東京都内で最も古 い寺院は何? Reader 質問 雷門は浅草寺 の山門 … 関連度 計算 質問エンコーダ 文書エンコーダ 浅草寺 解答 3 • ベースラインシステムでは、以下の二段階で質問に対する解答を行う 1. 質問に関連する文書を文書集合から 検索 する(Retriever) 2. 検索した関連文書から質問の解答位置を 推定 する(Reader) 正例文書抽出 スパン推定
Retriever による検索:Dense Passage Retrieval [Karpukhin+’20] 2022.03.11 第2回AI王最終報告会 • 二つのエンコーダがエンコードした質問と文書のベクトル表現( CLS
表現)を用いて検索を行う • ベクトル表現を予め計算し保持することで、オフラインによる高速な検索を実現する • 検索時は FAISS の IndexFlatIP(最大内積探索) を使用する 4 Retriever (デュアルエンコーダ ) 質問エンコーダ (BERT) 文書エンコーダ (BERT) = [0.9 0.2 0.3] 質問に対する 各文書の関連度 (内積値) 東京都内で最も古 い寺院は何? 質問 雷門 雷門は浅草寺の山門。 東京都台東区浅草一丁 目2-3番地に位置する。 正式名称は風雷神門で あり … 関連文書 文書集合 質問ベクトル 文書ベクトル集合 検索モジュール
Retriever の学習 • 質問の解答が含まれている文書 を正例文書として関連度(内積値)が高くなるように学習 • ミニバッチ内の他の正例文書 を負例文書として関連度が低くなるように学習 • さらに
語のマッチング に基づいたハード負例( 質問に関連するが解答を含まない )文書も使用する 質問エンコーダ (BERT) 文書エンコーダ (BERT) Retriever (デュアルエンコーダ ) 1 n 負例文書 正例文書 質問 = 正例との関連度 が 高い 負例との関連度 が 低い ほどロスの値が低くなる … 2022.03.11 第2回AI王最終報告会 検索モジュール 5
抽出型 Reader 解答モデル 2022.03.11 第2回AI王最終報告会 6 • Retriever が検索した関連文書の中から、質問に対する解答のスパンを推定する •
その際、各文書に対して解答が含まれるかどうかも推定する 雷門は浅草寺の山門。東京都 台東区浅草一丁目2-3番地に 位置する。正式名称は風雷神門 であり … 関連文書 東京都内で最も古 い寺院は何? 質問 雷門は浅草寺の山門。東京都 台東区浅草一丁目2-3番地に 位置する。正式名称は風雷神門 であり … 浅草寺 解答 答えが含まれるか? 上位 K 件の関連文書から 答える対象の文書を抽出 質問に対する 答えのスパンを推定 解答モジュール
抽出型 Reader 読解エンコーダ (BERT) 質問 i のトークン 文書 j のトークン
2022.03.11 第2回AI王最終報告会 7 開始位置 予測ヘッド 終了位置 予測ヘッド … … 文書選択 ヘッド … • 文書選択ヘッドを用いて、関連文書から答えを含む正例文書を抽出する • 抽出した正例文書から、質問に対する答えの開始・終了位置(スパン)を推定する 質問に対する 答えのスパンを推定 解答モジュール 上位 K 件の関連文書から 答える対象の文書を抽出
• 負例作成に関する工夫 : [Xiong+’20; Qu+’21; Ren+’21; Zhan+’21; Lu+’21] ◦ ミニバッチ内から負例を作成
→ 推論時における検索対象数との大きな差が検索性能に影響 ◦ クエリと文書間の関係のみモデル化 → 文書間同士の類似関係を考慮しない ◦ ハード負例文書を語のマッチングにより作成 → false negative 文書が負例となる可能性あり • ベクトルのメモリ効率化 : [Izacard+’20; Yamada+’21; Zhan+’21; Santhanam+’21; Ma+’21; Zhan+’22] ◦ 検索対象の文書数が膨大 → メモリコストが大きい • クエリとのマッチング強化 : [Sciavolino+’21; Liu+’21; Khattab+’21; Gao+’21; Wang+’21; Wu+’22] ◦ CLS トークンによるマッチング → トークンレベルなど粒度の高いマッチングが難しい • 汎化性能の向上: [Zhuang+’21; Ni+’21; Liu+’21; Chen+’21; Wang+’21] • データ・クエリ拡張: [Lee+’19; Guu+’20; Qu+’21; Izacard+’21; Mao+’21] • アーキテクチャの工夫 :[Izacard+’20; Cheng+’21; Lee+’21; Tay+’22] DPR の問題点と改善案 2022.03.11 第2回AI王最終報告会 8 BPR
参考 • ACL2020 Tutorial: Open Domain Question Answering [ACL][GitHub] •
Retrieving and Reading : A Comprehensive Survey on Open-domain Question Answering [arXiv] • 山田+’21(Studio Ousia / RIKEN AIP)- オープンドメイン質問応答技術の最新動向 (NLP2021 WS 第1回AI王) [Speaker Deck] • Karpukhin+’20 - Dense Passage Retrieval for Open-Domain Question Answering (EMNLP) [ACL Anthology][arXiv][GitHub] 2022.03.11 第2回AI王最終報告会 9