Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介: Transformer Memory as a Differentiable Search Index (NeurIPS 2022)

Yu Nakano
November 12, 2022

論文紹介: Transformer Memory as a Differentiable Search Index (NeurIPS 2022)

IR Reading 2022 秋 での論文紹介に使用したスライドです.
https://sigir.jp/post/2022-11-12-irreading_2022fall/

紹介した論文
Transformer Memory as a Differentiable Search Index (NeurIPS 2022)

Yu Nakano

November 12, 2022
Tweet

More Decks by Yu Nakano

Other Decks in Science

Transcript

  1. Transformer Memory as a Differentiable Search Index (NeurIPS 2022) Yi

    Tay, Vinh Q. Tran, Mostafa Dehghani, Jianmo Ni, Dara Bahri, Harsh Mehta, Zhen Qin, Kai Hui, Zhe Zhao, Jai Gupta, Tal Schuster, William W. Cohen, Donald Metzler (Google Research) URL: https://arxiv.org/abs/2202.06991 論⽂紹介する⼈: 中野優 (筑波⼤学加藤研究室) https://sites.google.com/view/yu-nakano 図表は基本的に論⽂より引⽤ 私⾒・感想・コメント・補⾜の類は薄い灰⾊で記述
  2. ⽣成的検索を初めて⽂書検索に適⽤ 今回の論⽂ 2 ⽣成的検索 Generative Retrieval 系列変換モデル (seq2seq) を⽤いてクエリから ⽂書

    ID などの⽂書に対応する⽂字列を⽣成し その⽣成確率でランキングする⼿法の総称 つくばで おすすめの 観光地は? クエリ 系列変換モデル (T5 など) ⽣成 doc42 doc36 doc91 ⼊⼒ ⽣成確率 ⽂書 ID 0.28 0.24 0.23 検索結果のランキング クエリを⼊⼒として⽂書 ID を⽣成 注: ただの直訳で⼀般的に 普及した訳語どではない
  3. • GENRE: Generate Entity Names autoREgressively ◦ タスク: エンティティ検索 (クエリに対応するエンティティを検索)

    ◦ ⽣成的検索 (系列変換モデルを⽤いた検索) を提案した最初の論⽂ • TF-IDF や既存の密検索⼿法 (DPR など) を上回る性能 • この論⽂⾃体はエンティティリンキング寄りで検索はメインではない 背景: ⽣成的エンティティ検索モデル GENRE 3 つくばで おすすめの 観光地は? クエリ 系列変換モデル (BART) ⽣成 筑波⼭ 地図と測量の 科学館 筑波⼤学 ⼊⼒ ⽣成確率 エンティティ名 0.28 0.24 0.08 検索結果のランキング クエリを⼊⼒としてエンティティ名を⽣成 各エンティティでユニーク De Cao et al., Autoregressive Entity Retrieval (ICLR 2021, spotlight)
  4. 系列変換モデルに⽂書 ID の情報を教える必要がある 本論⽂: ⽣成的検索を⽂書検索に適⽤ 4 • 提案⼿法: クエリから⽂書 ID

    を⽣成する ◦ 適応における課題: ⽂書 ID は意味を持たない⽂字列である つくばで おすすめの 観光地は? ⽣成 ⼊⼒ 筑波⼭ 地図と測量の 科学館 筑波⼤学 つくばで おすすめの 観光地は? クエリ 系列変換モデル ⽣成 ⼊⼒ 検索結果のランキング doc42 doc36 doc91 エンティティ検索 (GENRE) ⽂書検索 (提案⼿法) ⽣成対象となる エンティティ名は 意味のある単語列 ⽂書 ID は 意味をもたない クエリ→エンティティ名の⽣成を学習(ファインチューニング)するだけで良い性能
  5. • 以下の 2 つのタスクを学習する 解決策: ⽂書→⽂書 ID の⽣成を学習 5 ⽣成

    ⼊⼒ つくばで おすすめの 観光地は? ⽂書 系列変換モデル ⽣成 ⼊⼒ ⽣成結果 doc42 doc36 doc91 Indexing Retrieval doc42 ⽂書→⽂書 ID を⽣成するタスク クエリ→⽂書ID を⽣成するタスク つくば市のおすすめ 観光スポット! つくば市の観光ス ポットとしては筑波 ⼭がおすすめです! ⾮常に眺めがよく、 … クエリ 系列変換モデル ランキング ⽂書 ID に関する情報を系列変換モデルは学習 ⼯夫: 別々に(順に)学習させるのではなく同時に学習させる 事前の実験で別々に学習させるよりも同時に学習したほうが良い性能 (ただし具体的な性能は未記述)
  6. • (⼯夫のない)ナイーブな⽂書 ID ◦ Naive String: ID の⽂字列そのまま ◦ Atomic:

    ID に対応する語を語彙に追加 • 提案: Semantic String Docid ◦ クラスタリングをしクラスタ内の⽂書は似た ID を持つようにする ⽂書 ID の⼯夫: 似た⽂書は似た ID になるようにする 6 両⽅とも ID は意味を持たない 231 232 233 全⽂書を C 個に クラスタリング (図はC=3) クラスタ内の⽂書数が 基準以下になるまで 再帰的にクラスタリング それぞれの⽂書 ID は上位の クラスタの ID をPrefix に持つ⽂字列 ID が同じ Prefix を持つ ⽂書は似た⽂書となる [私⾒] なにが嬉しいか? → 複数の適合⽂書がある場合に 似た ID になりやすいはず 例えば⽣成時に 23 まで⽣成すると 231, 232, 233 は適合⽂書であることが多そう ⼀⽅で⼯夫のない ID の場合,23 まで⽣成 しても 231, 232, 233 は全く関係のない⽂書 なので学習が難しそう?
  7. • データセット: Natural Questions (質問応答) ◦ 3 種類のデータ数: NQ10K (⼩)

    / NQ100K (中) / NQ320K (⼤) ◦ (なぜ NQ だけ…?) • ⽐較⼿法 ◦ 既存⼿法: BM25,密検索 ◦ 提案⼿法: 以下を⽐較 • ID の⼯夫なし (Naive, Atomic),ID の⼯夫あり (Semantic) • 系列変換モデル T5 のサイズ 4 種類 (Base, Large, XL, XXL) • 評価指標 ◦ Hit@1, Hit@10 実験設定 7
  8. 全てのデータ数で提案⼿法が最⾼精度 (太字) →提案⼿法は BM25/密検索よりも良い性能 (ただし ID の⼯夫はない場合の⽅が良いこともある) 実験結果 8 密検索

    提案⼿法 データ数: ⼩ データ数: 中 データ数: ⼤ ID の⼯夫なし (Atomic) ID の⼯夫なし (Naive) ID の⼯夫あり (Semantic)
  9. • ⽣成的検索 ◦ 系列変換モデルを⽤いてクエリから⽂書 (に対応するもの) を⽣成し その⽣成確率でランキングする⼿法 ◦ 本論⽂: ⽂書検索に⽣成的検索を適⽤

    (クエリから⽂書 ID を⽣成) ◦ 質問応答データセットで BM25/密検索より良い性能 まとめ 9 つくばで おすすめの 観光地は? クエリ 系列変換モデル (T5 など) ⽣成 doc42 doc36 doc91 ⼊⼒ ⽣成確率 ⽂書 ID 0.98 0.87 0.81 検索結果のランキング クエリを⼊⼒として⽂書 ID を⽣成
  10. • 今年 (2022 年)に⼊って数多くの論⽂が出ている おまけ: ⽣成的検索の関連論⽂ 10 ⼿法名 データセット 初出

    会議・ジャーナル Open Review GENRE KILT 2020/10 ICLR 2021 Review (スコア: 8, 8, 8, 7) DSI (本論⽂) NQ 2022/02 NeurIPS 2022 Review (スコア: 6, 6, 7, 7) DynamicRetriever MS MARCO 2022/03 - SEAL KILT 2022/04 NeurIPS 2022 Review (スコア: 6, 8, 6, 7) GERE FEVER 2022/04 SIGIR 2022 (short) NCI NQ, TriviaQA 2022/06 NeurIPS 2022 Review (スコア: 8, 4, 7, 7) DSI-QG MS MARCO, XORQA 2022/06 - CorpusBrain KILT 2022/08 CIKM 2022 Ultron MS MARCO, NQ 2022/08 - CGR KILT 2022/10 (Under Review in ICLR 2023) Review (スコア: 3, 5, 6, 5)
  11. • T5 で全部やっちゃえというかなり狂った⼤胆な発想 ◦ ニューラル⾔語モデルの⼒をどこまで信じればこんな発想ができるのだろうか? • いかにも BigTech っぽい,計算リソースを⼤量に使って性能を出した論⽂ ◦

    T5-XXL の学習に 128-256 個の TPUv4 を利⽤して (少なくとも) 丸 1 ⽇らしい • 推論の efficiency についての議論が⼀切ない ◦ おそらく推論の efficiency に関してはかなり悪いのだろうと予想できる • いくつかの疑問 ◦ MS MARCO Document Ranking などの⻑い⽂書でも可能なのか? ◦ Robust04 のような(より)⼩さいデータセットでも同様か? 感想 11
  12. • タイトル ◦ Transformer Memory as a Differentiable Search Index

    • 出版年 ◦ 初出: 2022/02 → NeurIPS 2022 • 著者 ◦ Yi Tay, Vinh Q. Tran, Mostafa Dehghani, Jianmo Ni, Dara Bahri, Harsh Mehta, Zhen Qin, Kai Hui, Zhe Zhao, Jai Gupta, Tal Schuster, William W. Cohen, Donald Metzler ◦ Google Research • 関連する気がする論⽂ (厳密には Research Proposal) ◦ Donald Metzler, Yi Tay, Dara Bahri, Marc Najork. Rethinking Search: Making Domain Experts out of Dilettantes (SIGIR Forum, 2021) 論⽂情報 13 情報検索界隈だと有名? W. Bruce Croft 先⽣の教科書の著者の1⼈ 論⽂例: SDM,Coordinate Ascent,… ↑を読んだことある⼈向けの説明: この論⽂は Model-based IR (の⼀部)を実現している論⽂
  13. どれもクエリから⽂書(に対応するもの)を ⽣成するわけではなく⽣成的検索とは異なる [私⾒] ⽣成的検索に関連する既存のモデル 15 Wang et al., IRGAN: A

    Minimax Game for Unifying Generative and Discriminative Information Retrieval Models (SIGIR 2017) Nogueira et al., Document Ranking with a Pretrained Sequence-to-Sequence Model (EMNLP 2020, Findings) Ni et al., Sentence-T5: Scalable Sentence Encoders from Pre-trained Text-to-Text Models (ACL 2022, Findings) ⽣成モデルを⽤いた検索 (cf. 識別モデル) (古典的な) ⾔語モデル ⽣成モデル 𝑝(𝑞|𝑑, 𝑟) と 識別モデル 𝑓(𝑑, 𝑞) を敵対的学習 IRGAN (𝑓(𝑑, 𝑞) は正確には識別モデル 𝑝(𝑑|𝑞) をモデル化した分類器) クエリ 𝑞 が⽂書 𝑑 を検索するために ⼊⼒される確率 𝑝(𝑞|𝑑) をモデル化 正確には適合度 𝑟 ∈ {0,1} について 𝑝(𝑞|𝑑, 𝑟 = 1) 𝑝(𝑞|𝑑) →⽣成モデル 𝑝(𝑑|𝑞) →識別モデル 代表例: クエリ尤度モデル (+ディリクレ平滑化) monoT5 T5 でクエリ/⽂書をそれぞれ ベクトル化して密検索する sentence-T5 ⽂書とクエリを⼊⼒として適合かの true/false を (⽂字列として) ⽣成し true の⽣成確率でランキングする 系列変換モデルを⽤いた検索
  14. • 提案⼿法の優位性 ◦ どのデータ数であっても提案⼿法が BM25 や密検索よりも良い結果 ◦ ただし⽂書 ID の⼯夫はしないほうがよいこともある

    • モデルサイズについて ◦ モデルサイズを⼤きくするとどのデータ数・⼿法であっても性能が 向上する (⼀部例外あり) ◦ モデルサイズが⼩さい場合は提案⼿法は BM25/密検索に劣る場合も (モデルのサイズが⼤きいと提案⼿法が強い) 実験結果の表から⾔えそうなこと 16 提案⼿法は⽣成的検索の決定版というわけではなくまだまだ発展途上 [私⾒] ⼤きいモデルは実運⽤だと使いづらそう... [私⾒]
  15. • Zero-shot でない結果と同様の傾向 ◦ どのデータ数であっても提案⼿法が BM25 や密検索よりも良い結果 ◦ ただし ID

    の⼯夫はしないほうがよいこともある 実験 (Zero-shot) 17 提案⼿法 データ数: ⼩ データ数: 中 データ数: ⼤ 密検索