論文紹介: Transformer Memory as a Differentiable Search Index (NeurIPS 2022)

Transformer Memory as a Differentiable Search Index (NeurIPS 2022) Yi
Tay, Vinh Q. Tran, Mostafa Dehghani, Jianmo Ni, Dara Bahri, Harsh Mehta, Zhen Qin, Kai Hui, Zhe Zhao, Jai Gupta, Tal Schuster, William W. Cohen, Donald Metzler (Google Research) URL: https://arxiv.org/abs/2202.06991 論⽂紹介する⼈: 中野優 (筑波⼤学加藤研究室) https://sites.google.com/view/yu-nakano 図表は基本的に論⽂より引⽤私⾒・感想・コメント・補⾜の類は薄い灰⾊で記述

⽣成的検索を初めて⽂書検索に適⽤今回の論⽂ 2 ⽣成的検索 Generative Retrieval 系列変換モデル (seq2seq) を⽤いてクエリから⽂書
ID などの⽂書に対応する⽂字列を⽣成しその⽣成確率でランキングする⼿法の総称つくばでおすすめの観光地は？クエリ系列変換モデル (T5 など) ⽣成 doc42 doc36 doc91 ⼊⼒⽣成確率⽂書 ID 0.28 0.24 0.23 検索結果のランキングクエリを⼊⼒として⽂書 ID を⽣成注: ただの直訳で⼀般的に普及した訳語どではない

• GENRE: Generate Entity Names autoREgressively ◦ タスク: エンティティ検索 (クエリに対応するエンティティを検索)
◦ ⽣成的検索 (系列変換モデルを⽤いた検索) を提案した最初の論⽂ • TF-IDF や既存の密検索⼿法 (DPR など) を上回る性能 • この論⽂⾃体はエンティティリンキング寄りで検索はメインではない背景: ⽣成的エンティティ検索モデル GENRE 3 つくばでおすすめの観光地は？クエリ系列変換モデル (BART) ⽣成筑波⼭地図と測量の科学館筑波⼤学⼊⼒⽣成確率エンティティ名 0.28 0.24 0.08 検索結果のランキングクエリを⼊⼒としてエンティティ名を⽣成各エンティティでユニーク De Cao et al., Autoregressive Entity Retrieval (ICLR 2021, spotlight)

系列変換モデルに⽂書 ID の情報を教える必要がある本論⽂: ⽣成的検索を⽂書検索に適⽤ 4 • 提案⼿法: クエリから⽂書 ID
を⽣成する ◦ 適応における課題: ⽂書 ID は意味を持たない⽂字列であるつくばでおすすめの観光地は？⽣成⼊⼒筑波⼭地図と測量の科学館筑波⼤学つくばでおすすめの観光地は？クエリ系列変換モデル⽣成⼊⼒検索結果のランキング doc42 doc36 doc91 エンティティ検索 (GENRE) ⽂書検索 (提案⼿法) ⽣成対象となるエンティティ名は意味のある単語列⽂書 ID は意味をもたないクエリ→エンティティ名の⽣成を学習(ファインチューニング)するだけで良い性能

• 以下の 2 つのタスクを学習する解決策: ⽂書→⽂書 ID の⽣成を学習 5 ⽣成
⼊⼒つくばでおすすめの観光地は？⽂書系列変換モデル⽣成⼊⼒⽣成結果 doc42 doc36 doc91 Indexing Retrieval doc42 ⽂書→⽂書 ID を⽣成するタスククエリ→⽂書ID を⽣成するタスクつくば市のおすすめ観光スポット！つくば市の観光スポットとしては筑波⼭がおすすめです！⾮常に眺めがよく、 … クエリ系列変換モデルランキング⽂書 ID に関する情報を系列変換モデルは学習⼯夫: 別々に(順に)学習させるのではなく同時に学習させる事前の実験で別々に学習させるよりも同時に学習したほうが良い性能 (ただし具体的な性能は未記述)

• (⼯夫のない)ナイーブな⽂書 ID ◦ Naive String: ID の⽂字列そのまま ◦ Atomic:
ID に対応する語を語彙に追加 • 提案: Semantic String Docid ◦ クラスタリングをしクラスタ内の⽂書は似た ID を持つようにする⽂書 ID の⼯夫: 似た⽂書は似た ID になるようにする 6 両⽅とも ID は意味を持たない 231 232 233 全⽂書を C 個にクラスタリング (図はC=3) クラスタ内の⽂書数が基準以下になるまで再帰的にクラスタリングそれぞれの⽂書 ID は上位のクラスタの ID をPrefix に持つ⽂字列 ID が同じ Prefix を持つ⽂書は似た⽂書となる [私⾒] なにが嬉しいか？ → 複数の適合⽂書がある場合に似た ID になりやすいはず例えば⽣成時に 23 まで⽣成すると 231, 232, 233 は適合⽂書であることが多そう⼀⽅で⼯夫のない ID の場合，23 まで⽣成しても 231, 232, 233 は全く関係のない⽂書なので学習が難しそう？

• データセット: Natural Questions (質問応答) ◦ 3 種類のデータ数: NQ10K (⼩)
/ NQ100K (中) / NQ320K (⼤) ◦ (なぜ NQ だけ…？) • ⽐較⼿法 ◦ 既存⼿法: BM25，密検索 ◦ 提案⼿法: 以下を⽐較 • ID の⼯夫なし (Naive, Atomic)，ID の⼯夫あり (Semantic) • 系列変換モデル T5 のサイズ 4 種類 (Base, Large, XL, XXL) • 評価指標 ◦ Hit@1, Hit@10 実験設定 7

全てのデータ数で提案⼿法が最⾼精度 (太字) →提案⼿法は BM25/密検索よりも良い性能 (ただし ID の⼯夫はない場合の⽅が良いこともある) 実験結果 8 密検索
提案⼿法データ数: ⼩データ数: 中データ数: ⼤ ID の⼯夫なし (Atomic) ID の⼯夫なし (Naive) ID の⼯夫あり (Semantic)

• ⽣成的検索 ◦ 系列変換モデルを⽤いてクエリから⽂書 (に対応するもの) を⽣成しその⽣成確率でランキングする⼿法 ◦ 本論⽂: ⽂書検索に⽣成的検索を適⽤
(クエリから⽂書 ID を⽣成) ◦ 質問応答データセットで BM25/密検索より良い性能まとめ 9 つくばでおすすめの観光地は？クエリ系列変換モデル (T5 など) ⽣成 doc42 doc36 doc91 ⼊⼒⽣成確率⽂書 ID 0.98 0.87 0.81 検索結果のランキングクエリを⼊⼒として⽂書 ID を⽣成

• 今年 (2022 年)に⼊って数多くの論⽂が出ているおまけ: ⽣成的検索の関連論⽂ 10 ⼿法名データセット初出
会議・ジャーナル Open Review GENRE KILT 2020/10 ICLR 2021 Review (スコア: 8, 8, 8, 7) DSI (本論⽂) NQ 2022/02 NeurIPS 2022 Review (スコア: 6, 6, 7, 7) DynamicRetriever MS MARCO 2022/03 - SEAL KILT 2022/04 NeurIPS 2022 Review (スコア: 6, 8, 6, 7) GERE FEVER 2022/04 SIGIR 2022 (short) NCI NQ, TriviaQA 2022/06 NeurIPS 2022 Review (スコア: 8, 4, 7, 7) DSI-QG MS MARCO, XORQA 2022/06 - CorpusBrain KILT 2022/08 CIKM 2022 Ultron MS MARCO, NQ 2022/08 - CGR KILT 2022/10 (Under Review in ICLR 2023) Review (スコア: 3, 5, 6, 5)

• T5 で全部やっちゃえというかなり狂った⼤胆な発想 ◦ ニューラル⾔語モデルの⼒をどこまで信じればこんな発想ができるのだろうか？ • いかにも BigTech っぽい，計算リソースを⼤量に使って性能を出した論⽂ ◦
T5-XXL の学習に 128-256 個の TPUv4 を利⽤して (少なくとも) 丸 1 ⽇らしい • 推論の efficiency についての議論が⼀切ない ◦ おそらく推論の efficiency に関してはかなり悪いのだろうと予想できる • いくつかの疑問 ◦ MS MARCO Document Ranking などの⻑い⽂書でも可能なのか？ ◦ Robust04 のような(より)⼩さいデータセットでも同様か？感想 11

Appendix

• タイトル ◦ Transformer Memory as a Differentiable Search Index
• 出版年 ◦ 初出: 2022/02 → NeurIPS 2022 • 著者 ◦ Yi Tay, Vinh Q. Tran, Mostafa Dehghani, Jianmo Ni, Dara Bahri, Harsh Mehta, Zhen Qin, Kai Hui, Zhe Zhao, Jai Gupta, Tal Schuster, William W. Cohen, Donald Metzler ◦ Google Research • 関連する気がする論⽂ (厳密には Research Proposal) ◦ Donald Metzler, Yi Tay, Dara Bahri, Marc Najork. Rethinking Search: Making Domain Experts out of Dilettantes (SIGIR Forum, 2021) 論⽂情報 13 情報検索界隈だと有名？ W. Bruce Croft 先⽣の教科書の著者の1⼈論⽂例: SDM，Coordinate Ascent，… ↑を読んだことある⼈向けの説明: この論⽂は Model-based IR (の⼀部)を実現している論⽂

• 元論⽂ ◦ https://arxiv.org/abs/2202.06991 • 著者による解説スライド ◦ https://speakerdeck.com/wingnus/yi-tay-google-research 参考リンク 14

どれもクエリから⽂書(に対応するもの)を⽣成するわけではなく⽣成的検索とは異なる [私⾒] ⽣成的検索に関連する既存のモデル 15 Wang et al., IRGAN: A
Minimax Game for Unifying Generative and Discriminative Information Retrieval Models (SIGIR 2017) Nogueira et al., Document Ranking with a Pretrained Sequence-to-Sequence Model (EMNLP 2020, Findings) Ni et al., Sentence-T5: Scalable Sentence Encoders from Pre-trained Text-to-Text Models (ACL 2022, Findings) ⽣成モデルを⽤いた検索 (cf. 識別モデル) (古典的な) ⾔語モデル⽣成モデル 𝑝(𝑞|𝑑, 𝑟) と識別モデル 𝑓(𝑑, 𝑞) を敵対的学習 IRGAN (𝑓(𝑑, 𝑞) は正確には識別モデル 𝑝(𝑑|𝑞) をモデル化した分類器) クエリ 𝑞 が⽂書 𝑑 を検索するために⼊⼒される確率 𝑝(𝑞|𝑑) をモデル化正確には適合度 𝑟 ∈ {0,1} について 𝑝(𝑞|𝑑, 𝑟 = 1) 𝑝(𝑞|𝑑) →⽣成モデル 𝑝(𝑑|𝑞) →識別モデル代表例: クエリ尤度モデル (+ディリクレ平滑化) monoT5 T5 でクエリ/⽂書をそれぞれベクトル化して密検索する sentence-T5 ⽂書とクエリを⼊⼒として適合かの true/false を (⽂字列として) ⽣成し true の⽣成確率でランキングする系列変換モデルを⽤いた検索

• 提案⼿法の優位性 ◦ どのデータ数であっても提案⼿法が BM25 や密検索よりも良い結果 ◦ ただし⽂書 ID の⼯夫はしないほうがよいこともある
• モデルサイズについて ◦ モデルサイズを⼤きくするとどのデータ数・⼿法であっても性能が向上する (⼀部例外あり) ◦ モデルサイズが⼩さい場合は提案⼿法は BM25/密検索に劣る場合も (モデルのサイズが⼤きいと提案⼿法が強い) 実験結果の表から⾔えそうなこと 16 提案⼿法は⽣成的検索の決定版というわけではなくまだまだ発展途上 [私⾒] ⼤きいモデルは実運⽤だと使いづらそう... [私⾒]

• Zero-shot でない結果と同様の傾向 ◦ どのデータ数であっても提案⼿法が BM25 や密検索よりも良い結果 ◦ ただし ID
の⼯夫はしないほうがよいこともある実験 (Zero-shot) 17 提案⼿法データ数: ⼩データ数: 中データ数: ⼤密検索

論文紹介: Transformer Memory as a Differentiable Se...

論文紹介: Transformer Memory as a Differentiable Search Index (NeurIPS 2022)

Yu Nakano / 中野優

More Decks by Yu Nakano / 中野優

Other Decks in Science

Featured

Transcript

Transformer Memory as a Differentiable Search Index (NeurIPS 2022) Yi

⽣成的検索を初めて⽂書検索に適⽤今回の論⽂ 2 ⽣成的検索 Generative Retrieval 系列変換モデル (seq2seq) を⽤いてクエリから⽂書

• GENRE: Generate Entity Names autoREgressively ◦ タスク: エンティティ検索 (クエリに対応するエンティティを検索)

系列変換モデルに⽂書 ID の情報を教える必要がある本論⽂: ⽣成的検索を⽂書検索に適⽤ 4 • 提案⼿法: クエリから⽂書 ID

• 以下の 2 つのタスクを学習する解決策: ⽂書→⽂書 ID の⽣成を学習 5 ⽣成

• (⼯夫のない)ナイーブな⽂書 ID ◦ Naive String: ID の⽂字列そのまま ◦ Atomic:

• データセット: Natural Questions (質問応答) ◦ 3 種類のデータ数: NQ10K (⼩)

全てのデータ数で提案⼿法が最⾼精度 (太字) →提案⼿法は BM25/密検索よりも良い性能 (ただし ID の⼯夫はない場合の⽅が良いこともある) 実験結果 8 密検索

• ⽣成的検索 ◦ 系列変換モデルを⽤いてクエリから⽂書 (に対応するもの) を⽣成しその⽣成確率でランキングする⼿法 ◦ 本論⽂: ⽂書検索に⽣成的検索を適⽤

• 今年 (2022 年)に⼊って数多くの論⽂が出ているおまけ: ⽣成的検索の関連論⽂ 10 ⼿法名データセット初出

• T5 で全部やっちゃえというかなり狂った⼤胆な発想 ◦ ニューラル⾔語モデルの⼒をどこまで信じればこんな発想ができるのだろうか？ • いかにも BigTech っぽい，計算リソースを⼤量に使って性能を出した論⽂ ◦

Appendix

• タイトル ◦ Transformer Memory as a Differentiable Search Index

• 元論⽂ ◦ https://arxiv.org/abs/2202.06991 • 著者による解説スライド ◦ https://speakerdeck.com/wingnus/yi-tay-google-research 参考リンク 14

どれもクエリから⽂書(に対応するもの)を⽣成するわけではなく⽣成的検索とは異なる [私⾒] ⽣成的検索に関連する既存のモデル 15 Wang et al., IRGAN: A

• 提案⼿法の優位性 ◦ どのデータ数であっても提案⼿法が BM25 や密検索よりも良い結果 ◦ ただし⽂書 ID の⼯夫はしないほうがよいこともある

• Zero-shot でない結果と同様の傾向 ◦ どのデータ数であっても提案⼿法が BM25 や密検索よりも良い結果 ◦ ただし ID