Upgrade to Pro — share decks privately, control downloads, hide ads and more …

What Are You Token About? Dense Retrieval as Distributions Over the Vocabulary

Ryokan RI
August 19, 2023

What Are You Token About? Dense Retrieval as Distributions Over the Vocabulary

2023 第15回最先端NLP勉強会

Ryokan RI

August 19, 2023
Tweet

More Decks by Ryokan RI

Other Decks in Research

Transcript

  1. Ori Ram, Liat Bezalel, Adi Zicher, Yonatan Belinkov, Jonathan Berant,

    Amir Globerson (ACL 2023) ࠷ઌ୺ NLP ษڧձ 2023 ಡΉਓɿཥ ྇פʢLINEגࣜձࣾʣ What Are You Token About? Dense Retrieval as Distributions Over the Vocabulary
  2. ⾚⽯⼭脈 ⽇本 2番⽬ ⾼ 標⾼(3193m) 誇 北岳 。 Query ͕༩͑ΒΕɺPassage

    ू߹͔Βؔ࿈͢ΔจॻΛऔಘ͢Δɻ ݚڀʹ͓͚Δݕࡧ໰୊ ݕࡧγεςϜ ⽇本 ⼆番⽬ ⾼ ⼭ 何? 5
  3. ີϕΫτϧݕࡧͷ୅දख๏ Dense Passage Retrieval (DPR; Karpukhin et al., 2020) Transformer

    [CLS] ⽇本 ⼆ ? … [SEP] ϓʔϦϯά ϕΫτϧม׵ʹ͸ BERT ͳͲͷࣄલֶशࡁΈΤϯίʔμΛ༻͍Δɻ ͦͯ͠ݕࡧλεΫ޲͚ʹϑΝΠϯνϡʔχϯάΛ͢Δɻ 7
  4. ϑΝΠϯνϡʔχϯάʹ͸ in-batch negative Λ༻͍Δɻ ີϕΫτϧݕࡧͷ୅දख๏ Dense Passage Retrieval (DPR; Karpukhin

    et al., 2020) q1 q2 q3 p1 p2 p3 ᶃ ؔ࿈͢Δ Query ͱ Passage ͰόονΛ࡞੒ɻ ᶄ શͯͷϖΞʹ͍ͭͯ ϕΫτϧͷ಺ੵΛܭࢉɻɹɹ ؔ࿈͢ΔϖΞΛਖ਼ྫɺ ͦͷଞΛෛྫͱ͢Δɻ ᶅ ֤ Query ʹ͍ͭͯɺਖ਼ྫ ͷείΞ͕૬ରతʹେ͖͘ͳΔ Α͏ʹ࠷దԽ͢Δɻ Softmax with Cross-Entropy 8
  5. ૄϕΫτϧݕࡧ Sparse (Vector) Retrieval ⽇本 ⼆番⽬ ⾼ ⼭ 何? …

    ೔ຊ … ࢁ … ߴ͍ … 0 1.54 0 3.45 0 2.3 0 ςΩετதͷ୯ޠʹείΞΛ༩͑ͯɺ ϕΫτϧΛ࡞Δɻ 10
  6. ૄϕΫτϧݕࡧͷ୅දख๏ BM25 (Robertson et al., 1994) IDF(w) Query தͷ୯ޠ w

    ͷείΞɿ Passage தͷ୯ޠ w ͷείΞɿ f (w, p) ⋅ (k1 + 1) f (w, p) + k1 ⋅ (1 − b + b ⋅ |p| avgplength ) - ୯ޠ w ͷස౓͕ߴ͍΄ͲείΞ͕ߴ͍ - Passage ͷ௕͕͞௕͍΄ͲείΞ͕௿͍ - b ͱ k_1 ͸ϋΠύϥ 11
  7. ૄϕΫτϧݕࡧ Sparse (Vector) Retrieval … ೔ຊ … ࢁ … ߴ͍

    … 0 1.64 0 3.45 0 2.30 0 … ೔ຊ … ࢁ … ߴ͍ … 0 3.42 0 2.74 0 1.33 0 ⋅ Query ͱ Passage ͷྨࣅ౓͸ૄϕΫτϧͷ಺ੵͱଊ͑Δ͜ͱ͕Ͱ͖Δɻ ࣮ࡍͷ࣮૷Ͱ͸ɺసஔΠϯσοΫεΛߏங͠ Query தͷ୯ޠΛ࣋ͨͳ͍ Passage Λແࢹ͢ΔͳͲͯ͠ɺܭࢉΛߴ଎Խ͢Δɻ 12
  8. ʢ͓·͚ʣଞʹ΋͍ΖΜͳख๏͕ఏҊ͞Ε͍ͯΔ͕ ີͱૄͷϋΠϒϦουͩͬͨΓɺΞΠσΟΞͷܥේ͕͋ͬͯ໘ന͍ BM25 DPR SPLADE ColBERT COIL CITADEL Li et

    al., 2022 Formal et al., 2021 Gao et al., 2021 Khattab et al., 2020 Karpukhin et al., 2020 Robertson et al., 1994 ϚϧνϕΫτϧԽ BERT ͷ MLM-head ͰείΞΛ༧ଌ ϕΫτϧݕࡧͰ΋ సஔΠϯσοΫεΛ࢖༻ ʢ͍Ζ͍Ζશ෦੝Γͷख๏ʣ 15
  9. ϕΫτϧΛޠኮۭؒʹࣹӨ͢Δ Τϯίʔμ q … ೔ຊ … ࢁ … ߴ͍ …

    0… 0.11 0… 0.13 0… 0.09 0… MLM head ϕΫτϧ಺ʹͲͷΑ͏ͳ୯ޠͷ৘ใ͕Ͳͷ͘Βؚ͍·Ε͍ͯΔ͔͕෼͔Δ Q 18
  10. - ϑΝΠϯνϡʔχϯάͨ͠Τϯίʔμʹɺࣄલֶशޙͦͷ ··ͷ MLM head Λ߹Θ͍ͤͯΔɻ - ͔͠΋ MLM head

    ͷೖྗ͸ຊདྷτʔΫϯ୯ҐͷϕΫτϧ ͰɺೖྗશମΛදݱ͢ΔϓʔϦϯά͞ΕͨϕΫτϧΛೖྗ ͢Δ͜ͱ͸૝ఆ͞Ε͍ͯͳ͍ɻ ͜Μͳ͜ͱΛ͍͍ͯ͠ͷ͔ʁ🤔 ஶऀΒͷओுɿ௚ײతͳ݁Ռ͕ಘΒΕ͍ͯΔͷͰϤγʂ 20
  11. - Ұൠʹ BERT ΛϑΝΠϯνϡʔχϯάͯ͠΋ɺ্ҐϨΠϠʔ͕গ͠ಈ͚ͩ͘ (Zhou and Srikumar, 2022)ɻ ➡︎ ϑΝΠϯνϡʔχϯάલͷ

    MLM head Λ߹Θͤͯ΋ͦΕͳΓʹҙຯͷ͋Δ݁Ռ͕ ಘΒΕΔͱ΋ߟ͑ΒΕΔɻ - ϓʔϦϯά͍ͯ͠Δͱ͍ͬͯ΋ɺτʔΫϯ୯ҐͷϕΫτϧ͔Β࡞ΒΕ͍ͯΔɻ ➡︎ LM head ʹೖΕͯ΋গͳ͘ͱ΋୯ޠ৘ใͷ૬ରతͳڧ͞͸औΕͦ͏ɻ - Query ͱ Passage ͷΤϯίʔμ͸ಉ͡ BERT ͔ΒॳظԽ͞Εɺ໨తؔ਺΋ςΩ ετͷྨࣅ౓ʹؔ܎͍ͯ͠Δɻ ➡︎ ௚ײతʹɺݩͷΤϯίʔμͷ୯ޠ৘ใۭؒʹࡌ͔ͬΔܗͰֶश͕ਐΈͦ͏…ʁ ஶऀΒʹ୅Θͬͯਖ਼౰ԽΛࢼΈΔͱ… 21
  12. Query ͱ Passage ͷ୯ޠͷॏෳ͸ૄϕΫτϧݕࡧͰ΋ͱͯ΋ॏཁ 1. Query-Passage ؒͷ୯ޠॏෳͷ෼ੳ ෼ੳഎܠ ➡︎ ີϕΫτϧͰ͸Ͳ͏͔ʁ

    … ೔ຊ … ࢁ … ߴ͍ … 0 1.64 0 3.45 0 2.30 0 … ೔ຊ … ࢁ … ߴ͍ … 0 3.42 0 2.74 0 1.33 0 ⋅ 25
  13. 1. Query-Passage ؒͷ୯ޠॏෳͷ෼ੳ ෼ੳํ๏ ࢁ ೔ຊ ߴ͍ … … 0.13

    0.11 0.09 … … ⾚⽯⼭脈 ⽇本 ⼆番⽬ ⾼ 標⾼(3193m) 誇 北岳 。 ⽇本 ⼆番⽬ ⾼ ⼭ 何? ๺ַ ೔ຊ ໌ੴ … … 0.22 0.10 0.09 … … ڞ௨୯ޠ ⽇本、⼆番⽬、⾼ top-3 ͷڞ௨୯ޠ ⽇本 Q P top-k ͷڞ௨୯ޠ͕ڞ௨୯ޠͷԿ%Χόʔ͍ͯ͠Δ͔Λௐࠪ Vocabulary Projection 26
  14. 1. Query-Passage ؒͷ୯ޠॏෳͷ෼ੳ ෼ੳ݁Ռ Figure 3 ΑΓ DPR ͸ɺϑΝΠϯνϡʔχϯάલʹ ൺ΂ͯɺϕΫτϧʹ

    Query ͱ Passage Ͱڞ௨͢ΔΑ͏ͳ୯ޠ৘ใ ΛΑΓଟ͘Τϯίʔυ͍ͯ͠Δɻ ➡︎ ີϕΫτϧͰ΋୯ޠॏෳ͕ॏཁɻ 27
  15. 2. Passage ϕΫτϧ͸ Query ʹݱΕΔ୯ޠΛ༧ଌ͍ͯ͠Δʁ ෼ੳഎܠ Passage ͸ͨ͘͞Μ୯ޠΛؚΉ͕ɺͦͷ͏ͪ Query ʹݱΕΔΑ͏ͳ୯ޠΛ

    ڧௐ͢ΔΑ͏ʹɺDPR ͸ϕΫτϧΛΤϯίʔυ͍ͯ͠Δʁ ⾚⽯⼭脈 ⽇本 ⼆番⽬ ⾼ 標⾼(3193m) 誇 北岳 。 ⽇本 ⼆番⽬ ⾼ ⼭ 何? 28
  16. ⽇本 ⼆番⽬ ⾼ ⼭ 何? ๺ַ ೔ຊ ໌ੴ … …

    0.22 0.10 0.09 … … Query ͷ୯ޠ͕ P Ͱ্ҐʹϥϯΩϯά͞Ε͍ͯΔ͔ʁ ͜ΕΛQueryதͷ୯ޠͷɺP ʹ͓͚ΔฏۉٯॱҐͰఆྔԽɻ P 2. Passage ϕΫτϧ͸ Query ʹݱΕΔ୯ޠΛ༧ଌ͍ͯ͠Δʁ ෼ੳํ๏ 29
  17. Table 2 ΑΓ DPR ͷ Passage ϕΫτϧʹ͸ɺ Passage ͱ Query

    ڞ௨ͷ୯ޠ্͕ ҐʹΤϯίʔυ͞Ε΍͍͢ɻ ·ͨ Query தͷ୯ޠ͸ɺPassage தͷ୯ޠΑΓ΋্ҐʹΤϯίʔυ͞ Ε΍͍͢ɻ > > ➡︎ DPR ͸ɺݕࡧʹॏཁͳ୯ޠ৘ใ Λ༧ଌ͠ɺϕΫτϧʹΤϯίʔυ ͍ͯ͠Δɻ 2. Passage ϕΫτϧ͸ Query ʹݱΕΔ୯ޠΛ༧ଌ͍ͯ͠Δʁ ෼ੳ݁Ռ 31
  18. 3. Query Τϯίʔμ͸ΫΤϦ֦ுΛ͍ͯ͠Δ͔ ෼ੳํ๏ ࢁ ೔ຊ ߴ͍ ࢁ຺ … 0.13

    0.11 0.09 0.07 … ⾚⽯⼭脈 ⽇本 ⼆番⽬ ⾼ 標⾼(3193m) 誇 北岳 。 ⽇本 ⼆番⽬ ⾼ ⼭ 何? ๺ַ ೔ຊ ໌ੴ ඪߴ … 0.22 0.10 0.09 0.07 … ϕΫτϧΛ ޠኮۭؒʹࣹӨ Q P Query ʹ͸ؚ·Ε͍ͯͳ͍͕ɺPassage ʹؚ·Ε͍ͯΔ୯ޠΛ top-k ʹ࣋ͭ Q ͕ͲΕ͘Β͍͋Δ͔Λௐࠪɻ 33
  19. 3. Query Τϯίʔμ͸ΫΤϦ֦ுΛ͍ͯ͠Δ͔ ෼ੳ݁Ռ Figure 4 ΑΓ ɹ ׂ̔Ҏ্ͷ Q

    ͕ɺtop-20 ͷ͏ͪ ʹ Query ʹͳ͍͕ Passage ʹଘࡏ ͢Δ୯ޠΛؚΜͰ͍Δɻ ➡︎ DPR ͸ΫΤϦ֦ுΛ҉ʹֶशͯ͠ ͍Δɻ 34
  20. Vocabulary Projections ͰϕΫτϧΛௐ΂ͯΈΔͱɺ Passage ϕΫτϧ͕ɺຊจʹଘࡏ͢Δॏཁͳ୯ޠΛ๨٫ͯ͠ ͍Δ͜ͱ͕͋Δɻ͜ΕΛ Token Amnesia ͱ͍͏ɻ ՝୊ͷൃݟ

    ⾚⽯⼭脈 ⽇本 ⼆番⽬ ⾼ 標⾼(3193m) 誇 北岳 。 北岳 標⾼ 何? Vocabulary Projection ๺ַ ඪߴ … … … 0.33 0.21 … … … ੺ੴ ೔ຊ ඪߴ … ๺ַ 0.22 0.10 0.09 … 0.001 Q P …͜ͷଘࡏΛఆྔతʹࣔͨ͠σʔλ (Figure 5) ͸ׂѪ 38
  21. ·ͣɺॏཁ୯ޠ t ͷ৘ใΛؚΜͩϕΫτϧ St Λ࡞Δɻ Lexical Enrichment st = arg

    max ̂ s log MLM Head( ̂ s)[t] MLM Head ʹೖྗ͢Δͱ୯ޠ t ͷ༧ଌ֬཰͕ߴ͘ ͳΔΑ͏ͳϕΫτϧ ŝ ΛɺSGD Ͱֶश͢Δɻ 40
  22. - Vocabulary Expansion ͸ີϕΫτϧݕࡧͷҰา౿ΈࠐΜͩ Τϥʔ෼ੳΛ͢Δͷʹ໾ཱͪͦ͏ɻ - Token Amnesia ͸ DPR

    + BM25 ͷΞϯαϯϒϧͳͲͰ͸ ղܾ͠ͳ͍ͷͩΖ͏͔ʁʢLexical Enrichment ͸ख͕͔ؒ ͔Γͦ͏ɻʣ ॴײ 45