論文紹介 / REALM: Retrieval-Augmented Language Model Pre-Training

Slide 1

Slide 1 text

論⽂紹介 REALM: Retrieval-Augmented Language Model Pre-Training Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat, Ming-Wei Chang (Google) ICML 2020 紹介者: ⻄⽥京介（NTTメディアインテリジェンス研究所） 2020/09/26 @ 第12回最先端NLP勉強会

Slide 2

Slide 2 text

• 何をする研究か︖ – ⾔語モデルの事前学習法の提案 – Wikipedia等の外部知識コーパスから関連⽂書を検索して事前学習，ファインチューニング，推論時に利⽤する • 貢献は何か︖ – RetrieverとEncoderから構成されend-to-end学習可能な REALMモデルを提案 – NaturalQuestionsなどのオープンドメインQAでSOTA • 嬉しさは︖ – ニューラルネットワークのパラメータの中に全ての知識を詰め込む必要が無くなる – コーパスの増強により追加学習なしに精度を改善可能 REALM: Retrieval-Augmented Language Model Pre-Training 概要 2

Slide 3

Slide 3 text

• モデルアーキテクチャ • 学習⽅法 • 評価実験 • 議論 3 ⽬次

Slide 4

Slide 4 text

• 事前学習およびファインチューニングを，⼊⼒に対する分布(|)の学習として捉える – MLMであれば， x がマスク化テキスト，がトークン – オープンドメインQAであれば， x が質問，が回答 • Retrieval-Augmented LM – (|)を潜在変数（＝⽂書）を⽤いて検索と予測の2段階に分解 4 モデルの概要知識コーパスから⽂書を検索⼊⼒と⽂書からから出⼒を⽣成

Slide 5

Slide 5 text

5 事前学習 (MLM) での⽣成過程検索予測タスク︓(|) xの中の[MASK]=yを予測コーパスZからxに関連する知識⽂書zを検索 xとzの連結テキストから [MASK]に⼊る単語を予測

Slide 6

Slide 6 text

1. Neural Knowledge Retriever︓ (|) 2. Knowledge-augmented Encoder︓ (|, ) è 両⽅とも微分可能なネットワーク（BERT(base)サイズのTransformer＋MLP）としてモデリング 6 モデルアーキテクチャ検索予測

Slide 7

Slide 7 text

• ベクトル空間モデル • ⼊⼒と⽂書をd次元ベクトルに変換（Embed）し，関連度(, )をそれらの内積として求める • Retrieverの各⽂書に対する出⼒(|)は知識コーパスにおける関連度のsoftmaxにより計算 7 Retriever: (|)

Slide 8

Slide 8 text

• 埋め込み関数EmbedにBERT＋線形変換を⽤いる • ⼊⼒フォーマットjoinは以下の通り 8 関連度(, ) [CLS]に対応するベクトル

Slide 9

Slide 9 text

• (|)を効率的に求めるため，検索はTop-kを利⽤ • 関連度(, ) でランキングする èMaximum Inner Product Search（MIPS; 最⼤内積探索）のアルゴリズムを⽤いてTop-K ⽂書を検索 9 Top-K検索による近似検索予測

Slide 10

Slide 10 text

• Maximum Inner Product Search (MIPS) – d次元のベクトル集合S，d次元のクエリqに関して，下記を計算 • Nearest Neighbor Search（ユークリッド距離による） – すべての ∈ に対して ! = であればMIPSと等価 10 参考︓MIPS vs. Nearest Neighbor Search Anshumali Shrivastava, Ping Li: Asymmetric LSH (ALSH) for Sublinear Time Maximum Inner Product Search (MIPS). NIPS 2014: 2321-2329

Slide 11

Slide 11 text

• インタラクションモデルの⽅が⾼い精度を実現できるが，⽂書を予めインデキシング出来ないため遅い 11 参考2: ベクトル空間モデル vs. インタラクションモデル BERT [CLS] query [SEP] doc relevance BERT query dense vector BERT doc dense vector MIPS/NNS index relevance ベクトル空間モデルインタラクションモデル Rodrigo Nogueira, Kyunghyun Cho: Passage Re-ranking with BERT. CoRR abs/1901.04085 (2019) Vladimir Karpukhin et al.: Dense Passage Retrieval for Open-Domain Question Answering. CoRR abs/2004.04906 (2020)

Slide 12

Slide 12 text

• Retrieverと同様にxとzを⼊⼒とするBERTを⽤いる • BERTの出⼒からタスク固有層で出⼒yに変換 12 Encoder︓ (|,) BERT タスク固有層 (,) [CLS] [SEP]

Slide 13

Slide 13 text

• Masked Language Modelingタスクにおいてマスクされたトークンyを出⼒ 13 事前学習の場合 MLM⽤マスクされたトークン数

Slide 14

Slide 14 text

• ⼊⼒＋検索⽂書のテキストから回答となる範囲sを発⾒する – BERTの出⼒から範囲sの始点STARTと終点ENDのベクトルを取得し，exp(MLP(・))でスカラ値（範囲sのスコア）に変換 14 オープンドメインQAの場合 QA⽤ yがzの中でマッチングした範囲の集合

Slide 15

Slide 15 text

• モデルアーキテクチャ • 学習⽅法 – Retrieverのみの事前学習 – REALMの事前学習 • 検索インデクスの更新について – オープンドメインQAでのファインチューニング • 評価実験 • 議論 15 ⽬次

Slide 16

Slide 16 text

• Retrieverをscratchから学習すると上⼿くいかない • Inverse Cloze Task [Lee+, ACLʼ19]にて教師あり学習 16 Retrieverのみの事前学習（ICT Pre-training） [Lee+, ACL’19] https://www.aclweb.org/anthology/P19-1612/ “...Zebras have four gaits: walk, trot, canter and gallop. They are generally slower than horses, but their great stamina helps them outrun predators. When chased, a zebra will zig- zag from side to side...” ⽂qを抽出してクエリにする抽出元の⽂書（クエリ⽂qを除外）を正例にする

Slide 17

Slide 17 text

• Masked Language Modelingで (|) のNLLを最⼩化 • [MASK]の対象は固有表現に限定 17 REALM（Retriever＋Encoder）の事前学習 Wikipedia or CC-News Wikipedia

Slide 18

Slide 18 text

1. 検索対象の全⽂書zに対してRetrieverが埋め込みベクトルを計算して検索（MIPS）インデクスを構築 2. Retrieverが学習により更新されると， Retrieverと 1で作成した検索インデクスは⼀貫性が無くなる è 定期的（数百ステップ毎）にインデクスの更新が必要．学習とインデクス更新を⾮同期に実施する 18 事前学習時の検索インデクスの構築

Slide 19

Slide 19 text

• 知識コーパスZとしてWikipediaを利⽤して， (|) のNLLを最⼩化 • MIPSインデクスは最初に構築した後は更新しない 19 ファインチューニング（Open-QA） QA dataset Wikipedia

Slide 20

Slide 20 text

• モデルアーキテクチャ • 学習⽅法 • 評価実験 • 議論 20 ⽬次

Slide 21

Slide 21 text

• 事前学習︓ – 64TPUを利⽤して200kステップ．バッチサイズ512． – MIPSのインデキシング（BERTによる全⽂書Zの埋め込み）のために16TPU利⽤．約500ステップで更新 – 各サンプルについてTop-8を検索（推論時はTop-5） • 知識コーパスZ（検索対象）はWikipediaを288 wordpiece毎に分割した1300万⽂書 • データセットはオープンドメインQA – NaturalQuestions-Open（NQ），WebQuestions（WQ）， CuratedTree（CT) 21 実験設定

Slide 22

Slide 22 text

• 従来⼿法に⽐べて⼤幅に精度向上 22 評価結果事前学習コーパスの違いで精度に差

Slide 23

Slide 23 text

• REALM事前学習でRetrieverが⼤幅な精度改善 – QAや検索データで学習せずに良い検索ができている – MIPSインデクスの定期的な更新は重要 23 結果︓検索性能が⼤幅に改善 Inverse Cloze Task 事前学習のみ REALMで Retrieverを事前学習 MIPSインデクスの更新少ない時 QA精度 QAファインチューニング前の検索精度（⽂書が回答を含む）

Slide 24

Slide 24 text

• 事前学習を世界知識の獲得／利⽤⽅法の上達に集中させることが効果あり 24 結果︓マスク対象を固有表現にして改善 QA精度 QAファインチューニング前の検索精度（⽂書が回答を含む） MLMのマスク対象を固有表現に限定

Slide 25

Slide 25 text

• REALMで使⽤されたMIPSアルゴリズム／ライブラリは不明 – Asymmetric LSH [NIPS14]などの論⽂3本が引⽤されている • REALMの学習に要した時間は不明 – 500ステップ毎に，1300万パッセージのBERTベクトルの計算とインデクス構築が必要．合計200kステップなので，約400回必要． – ファインチューニング時は（計算が重いためなのか）インデクス更新はしない – FacebookのFAISSライブラリ（DPR [Karpukhin+, arxiv20] で利⽤）では， 2100万パッセージのBERTベクトル計算に8.8時間（8GPUで並列），インデクス構築に8.5時間掛かったとの報告 25 議論︓Retrieverの検索インデクス更新は現実的︖ Vladimir Karpukhin et al.: Dense Passage Retrieval for Open-Domain Question Answering. CoRR abs/2004.04906 (2020) Anshumali Shrivastava, Ping Li: Asymmetric LSH (ALSH) for Sublinear Time Maximum Inner Product Search (MIPS). NIPS 2014: 2321-2329

Slide 26

Slide 26 text

• 何をする研究か︖ – ⾔語モデルの事前学習法の提案 – Wikipedia等の外部知識コーパスから関連⽂書を検索して事前学習，ファインチューニング，推論時に利⽤する • 貢献は何か︖ – RetrieverとEncoderから構成されend-to-end学習可能なREALMモデルを提案 – NaturalQuestionsなどのオープンドメインQAでSOTA – 検索モデルの事前学習法としても使える︖ • 嬉しさは︖ – ニューラルネットワークのパラメータの中に全ての知識を詰め込む必要が無くなる – コーパスの増強により追加学習なしに精度を改善可能 – 学習（特に検索関連）に膨⼤な計算リソースが必要になってしまう問題がある︖ まとめ 26