Slide 1

Slide 1 text

Ori Ram, Liat Bezalel, Adi Zicher, Yonatan Belinkov, Jonathan Berant, Amir Globerson (ACL 2023) ࠷ઌ୺ NLP ษڧձ 2023 ಡΉਓɿཥ ྇פʢLINEגࣜձࣾʣ What Are You Token About? Dense Retrieval as Distributions Over the Vocabulary

Slide 2

Slide 2 text

- ີϕΫτϧݕࡧͷϕΫτϧΛޠኮۭؒʹࣹӨͯ͠ղऍ͢Δ ख๏ΛఏҊ - ͦͷख๏ͰີϕΫτϧؚ͕Ή৘ใΛ෼ੳ - ີϕΫτϧ͕ॏཁ୯ޠͷ৘ใΛ๨٫ͯ͠͠·͏ݱ৅Λൃݟ ͠ɺͦΕΛվળ͢Δख๏ΛఏҊ ࿦จͷ֓ཁ 2

Slide 3

Slide 3 text

എܠ ϕΫτϧݕࡧʹ͍ͭͯ 3

Slide 4

Slide 4 text

- ີϕΫτϧݕࡧͷϕΫτϧΛޠኮۭؒʹࣹӨͯ͠ղऍ͢Δ ख๏ΛఏҊ - ͦͷख๏ͰີϕΫτϧؚ͕Ή৘ใΛ෼ੳ - ີϕΫτϧ͕ॏཁ୯ޠͷ৘ใΛ๨٫ͯ͠͠·͏ݱ৅Λൃݟ ͠ɺͦΕΛվળ͢Δख๏ΛఏҊ ࿦จͷ֓ཁ 4

Slide 5

Slide 5 text

⾚⽯⼭脈 ⽇本 2番⽬ ⾼ 標⾼(3193m) 誇 北岳 。 Query ͕༩͑ΒΕɺPassage ू߹͔Βؔ࿈͢ΔจॻΛऔಘ͢Δɻ ݚڀʹ͓͚Δݕࡧ໰୊ ݕࡧγεςϜ ⽇本 ⼆番⽬ ⾼ ⼭ 何? 5

Slide 6

Slide 6 text

Query ͱ Passage Λ࿈ଓ஋ີϕΫτϧʹม׵͠ɺ ྨࣅ౓ݕࡧʹΑͬͯ݁ՌΛऔಘ͢Δɻ ີϕΫτϧݕࡧ Dense (Vector) Retrieval Τϯίʔμ ⽇本 ⼆番⽬ ⾼ ⼭ 何? Τϯίʔμ ྨࣅ౓ݕࡧ 6

Slide 7

Slide 7 text

ີϕΫτϧݕࡧͷ୅දख๏ Dense Passage Retrieval (DPR; Karpukhin et al., 2020) Transformer [CLS] ⽇本 ⼆ ? … [SEP] ϓʔϦϯά ϕΫτϧม׵ʹ͸ BERT ͳͲͷࣄલֶशࡁΈΤϯίʔμΛ༻͍Δɻ ͦͯ͠ݕࡧλεΫ޲͚ʹϑΝΠϯνϡʔχϯάΛ͢Δɻ 7

Slide 8

Slide 8 text

ϑΝΠϯνϡʔχϯάʹ͸ in-batch negative Λ༻͍Δɻ ີϕΫτϧݕࡧͷ୅දख๏ Dense Passage Retrieval (DPR; Karpukhin et al., 2020) q1 q2 q3 p1 p2 p3 ᶃ ؔ࿈͢Δ Query ͱ Passage ͰόονΛ࡞੒ɻ ᶄ શͯͷϖΞʹ͍ͭͯ ϕΫτϧͷ಺ੵΛܭࢉɻɹɹ ؔ࿈͢ΔϖΞΛਖ਼ྫɺ ͦͷଞΛෛྫͱ͢Δɻ ᶅ ֤ Query ʹ͍ͭͯɺਖ਼ྫ ͷείΞ͕૬ରతʹେ͖͘ͳΔ Α͏ʹ࠷దԽ͢Δɻ Softmax with Cross-Entropy 8

Slide 9

Slide 9 text

ີϕΫτϧݕࡧ vs. ૄϕΫτϧݕࡧ 9

Slide 10

Slide 10 text

ૄϕΫτϧݕࡧ Sparse (Vector) Retrieval ⽇本 ⼆番⽬ ⾼ ⼭ 何? … ೔ຊ … ࢁ … ߴ͍ … 0 1.54 0 3.45 0 2.3 0 ςΩετதͷ୯ޠʹείΞΛ༩͑ͯɺ ϕΫτϧΛ࡞Δɻ 10

Slide 11

Slide 11 text

ૄϕΫτϧݕࡧͷ୅දख๏ BM25 (Robertson et al., 1994) IDF(w) Query தͷ୯ޠ w ͷείΞɿ Passage தͷ୯ޠ w ͷείΞɿ f (w, p) ⋅ (k1 + 1) f (w, p) + k1 ⋅ (1 − b + b ⋅ |p| avgplength ) - ୯ޠ w ͷස౓͕ߴ͍΄ͲείΞ͕ߴ͍ - Passage ͷ௕͕͞௕͍΄ͲείΞ͕௿͍ - b ͱ k_1 ͸ϋΠύϥ 11

Slide 12

Slide 12 text

ૄϕΫτϧݕࡧ Sparse (Vector) Retrieval … ೔ຊ … ࢁ … ߴ͍ … 0 1.64 0 3.45 0 2.30 0 … ೔ຊ … ࢁ … ߴ͍ … 0 3.42 0 2.74 0 1.33 0 ⋅ Query ͱ Passage ͷྨࣅ౓͸ૄϕΫτϧͷ಺ੵͱଊ͑Δ͜ͱ͕Ͱ͖Δɻ ࣮ࡍͷ࣮૷Ͱ͸ɺసஔΠϯσοΫεΛߏங͠ Query தͷ୯ޠΛ࣋ͨͳ͍ Passage Λແࢹ͢ΔͳͲͯ͠ɺܭࢉΛߴ଎Խ͢Δɻ 12

Slide 13

Slide 13 text

Ұൠతͳ܏޲ͱͯ͠ɺಘҙ෼໺͕ҟͳΔ (Thukar et al., 2021)ɻ ີϕΫτϧݕࡧ vs. ૄϕΫτϧݕࡧ in-domain ੑೳ out-of-domain ੑೳ BM25 ʢૄϕΫτϧʣ ˚ ̋ DPR ʢີϕΫτϧʣ ̋ ˚ 13

Slide 14

Slide 14 text

ີϕΫτϧݕࡧ͸௿ස౓ΤϯςΟςΟʹؔ͢Δ࣭໰ʹऑ͍ɻ ີϕΫτϧݕࡧ vs. ૄϕΫτϧݕࡧ Table 1, Sciavolino et al., 2021 ΑΓ 14

Slide 15

Slide 15 text

ʢ͓·͚ʣଞʹ΋͍ΖΜͳख๏͕ఏҊ͞Ε͍ͯΔ͕ ີͱૄͷϋΠϒϦουͩͬͨΓɺΞΠσΟΞͷܥේ͕͋ͬͯ໘ന͍ BM25 DPR SPLADE ColBERT COIL CITADEL Li et al., 2022 Formal et al., 2021 Gao et al., 2021 Khattab et al., 2020 Karpukhin et al., 2020 Robertson et al., 1994 ϚϧνϕΫτϧԽ BERT ͷ MLM-head ͰείΞΛ༧ଌ ϕΫτϧݕࡧͰ΋ సஔΠϯσοΫεΛ࢖༻ ʢ͍Ζ͍Ζશ෦੝Γͷख๏ʣ 15

Slide 16

Slide 16 text

෼ੳख๏ Vocabulary Projections ͷఏҊ 16

Slide 17

Slide 17 text

- ີϕΫτϧݕࡧͷϕΫτϧΛޠኮۭؒʹࣹӨͯ͠ղऍ͢Δ ख๏ΛఏҊ - ͦͷख๏ͰີϕΫτϧؚ͕Ή৘ใΛ෼ੳ - ີϕΫτϧ͕ॏཁ୯ޠͷ৘ใΛ๨٫ͯ͠͠·͏ݱ৅Λൃݟ ͠ɺͦΕΛվળ͢Δख๏ΛఏҊ ࿦จͷ֓ཁ 17

Slide 18

Slide 18 text

ϕΫτϧΛޠኮۭؒʹࣹӨ͢Δ Τϯίʔμ q … ೔ຊ … ࢁ … ߴ͍ … 0… 0.11 0… 0.13 0… 0.09 0… MLM head ϕΫτϧ಺ʹͲͷΑ͏ͳ୯ޠͷ৘ใ͕Ͳͷ͘Βؚ͍·Ε͍ͯΔ͔͕෼͔Δ Q 18

Slide 19

Slide 19 text

ϕΫτϧΛޠኮۭؒʹࣹӨ͢Δ Τϯίʔμ q ϑΝΠϯνϡʔχϯάࡁΈ ࣄલֶशޙͦͷ·· 19 … ೔ຊ … ࢁ … ߴ͍ … 0… 0.11 0… 0.13 0… 0.09 0… MLM head Q

Slide 20

Slide 20 text

- ϑΝΠϯνϡʔχϯάͨ͠Τϯίʔμʹɺࣄલֶशޙͦͷ ··ͷ MLM head Λ߹Θ͍ͤͯΔɻ - ͔͠΋ MLM head ͷೖྗ͸ຊདྷτʔΫϯ୯ҐͷϕΫτϧ ͰɺೖྗશମΛදݱ͢ΔϓʔϦϯά͞ΕͨϕΫτϧΛೖྗ ͢Δ͜ͱ͸૝ఆ͞Ε͍ͯͳ͍ɻ ͜Μͳ͜ͱΛ͍͍ͯ͠ͷ͔ʁ🤔 ஶऀΒͷओுɿ௚ײతͳ݁Ռ͕ಘΒΕ͍ͯΔͷͰϤγʂ 20

Slide 21

Slide 21 text

- Ұൠʹ BERT ΛϑΝΠϯνϡʔχϯάͯ͠΋ɺ্ҐϨΠϠʔ͕গ͠ಈ͚ͩ͘ (Zhou and Srikumar, 2022)ɻ ➡︎ ϑΝΠϯνϡʔχϯάલͷ MLM head Λ߹Θͤͯ΋ͦΕͳΓʹҙຯͷ͋Δ݁Ռ͕ ಘΒΕΔͱ΋ߟ͑ΒΕΔɻ - ϓʔϦϯά͍ͯ͠Δͱ͍ͬͯ΋ɺτʔΫϯ୯ҐͷϕΫτϧ͔Β࡞ΒΕ͍ͯΔɻ ➡︎ LM head ʹೖΕͯ΋গͳ͘ͱ΋୯ޠ৘ใͷ૬ରతͳڧ͞͸औΕͦ͏ɻ - Query ͱ Passage ͷΤϯίʔμ͸ಉ͡ BERT ͔ΒॳظԽ͞Εɺ໨తؔ਺΋ςΩ ετͷྨࣅ౓ʹؔ܎͍ͯ͠Δɻ ➡︎ ௚ײతʹɺݩͷΤϯίʔμͷ୯ޠ৘ใۭؒʹࡌ͔ͬΔܗͰֶश͕ਐΈͦ͏…ʁ ஶऀΒʹ୅Θͬͯਖ਼౰ԽΛࢼΈΔͱ… 21

Slide 22

Slide 22 text

DPR ͷ෼ੳ 22

Slide 23

Slide 23 text

- ີϕΫτϧݕࡧͷϕΫτϧΛޠኮۭؒʹࣹӨͯ͠ղऍ͢Δ ख๏ΛఏҊ - ͦͷख๏ͰີϕΫτϧؚ͕Ή৘ใΛ෼ੳ - ີϕΫτϧ͕ॏཁ୯ޠͷ৘ใΛ๨٫ͯ͠͠·͏ݱ৅Λൃݟ ͠ɺͦΕΛվળ͢Δख๏ΛఏҊ ࿦จͷ֓ཁ 23

Slide 24

Slide 24 text

෼ੳͷςʔϚͱͯ͠ɺੲͳ͕ΒͷૄϕΫτϧݕࡧͰॏཁͩͱ ߟ͑ΒΕ͍ͯΔ৘ใ͕ɺDPR Ͱ΋׆༻͞Ε͍ͯΔ͔ɺͱ͍͏ ͜ͱΛ͔֬Ί͍ͯΔɻ 1. Query-Passage ؒͷ୯ޠॏෳͷ෼ੳ 2. Passage ϕΫτϧ͸ Query ʹݱΕΔ୯ޠΛ༧ଌ͍ͯ͠ Δʁ 3. Query Τϯίʔμ͸ΫΤϦ֦ுΛ͍ͯ͠Δ͔ ෼ੳ಺༰ 24

Slide 25

Slide 25 text

Query ͱ Passage ͷ୯ޠͷॏෳ͸ૄϕΫτϧݕࡧͰ΋ͱͯ΋ॏཁ 1. Query-Passage ؒͷ୯ޠॏෳͷ෼ੳ ෼ੳഎܠ ➡︎ ີϕΫτϧͰ͸Ͳ͏͔ʁ … ೔ຊ … ࢁ … ߴ͍ … 0 1.64 0 3.45 0 2.30 0 … ೔ຊ … ࢁ … ߴ͍ … 0 3.42 0 2.74 0 1.33 0 ⋅ 25

Slide 26

Slide 26 text

1. Query-Passage ؒͷ୯ޠॏෳͷ෼ੳ ෼ੳํ๏ ࢁ ೔ຊ ߴ͍ … … 0.13 0.11 0.09 … … ⾚⽯⼭脈 ⽇本 ⼆番⽬ ⾼ 標⾼(3193m) 誇 北岳 。 ⽇本 ⼆番⽬ ⾼ ⼭ 何? ๺ַ ೔ຊ ໌ੴ … … 0.22 0.10 0.09 … … ڞ௨୯ޠ ⽇本、⼆番⽬、⾼ top-3 ͷڞ௨୯ޠ ⽇本 Q P top-k ͷڞ௨୯ޠ͕ڞ௨୯ޠͷԿ%Χόʔ͍ͯ͠Δ͔Λௐࠪ Vocabulary Projection 26

Slide 27

Slide 27 text

1. Query-Passage ؒͷ୯ޠॏෳͷ෼ੳ ෼ੳ݁Ռ Figure 3 ΑΓ DPR ͸ɺϑΝΠϯνϡʔχϯάલʹ ൺ΂ͯɺϕΫτϧʹ Query ͱ Passage Ͱڞ௨͢ΔΑ͏ͳ୯ޠ৘ใ ΛΑΓଟ͘Τϯίʔυ͍ͯ͠Δɻ ➡︎ ີϕΫτϧͰ΋୯ޠॏෳ͕ॏཁɻ 27

Slide 28

Slide 28 text

2. Passage ϕΫτϧ͸ Query ʹݱΕΔ୯ޠΛ༧ଌ͍ͯ͠Δʁ ෼ੳഎܠ Passage ͸ͨ͘͞Μ୯ޠΛؚΉ͕ɺͦͷ͏ͪ Query ʹݱΕΔΑ͏ͳ୯ޠΛ ڧௐ͢ΔΑ͏ʹɺDPR ͸ϕΫτϧΛΤϯίʔυ͍ͯ͠Δʁ ⾚⽯⼭脈 ⽇本 ⼆番⽬ ⾼ 標⾼(3193m) 誇 北岳 。 ⽇本 ⼆番⽬ ⾼ ⼭ 何? 28

Slide 29

Slide 29 text

⽇本 ⼆番⽬ ⾼ ⼭ 何? ๺ַ ೔ຊ ໌ੴ … … 0.22 0.10 0.09 … … Query ͷ୯ޠ͕ P Ͱ্ҐʹϥϯΩϯά͞Ε͍ͯΔ͔ʁ ͜ΕΛQueryதͷ୯ޠͷɺP ʹ͓͚ΔฏۉٯॱҐͰఆྔԽɻ P 2. Passage ϕΫτϧ͸ Query ʹݱΕΔ୯ޠΛ༧ଌ͍ͯ͠Δʁ ෼ੳํ๏ 29

Slide 30

Slide 30 text

Table 2 ΑΓ DPR vs. BERT(mean) ϑΝΠϯνϡʔχϯάલʹൺ΂ͯɺ ҙຯͷ͋Δ୯ޠΛ্ҐʹΤϯίʔυ ͢ΔΑ͏ʹͳ͍ͬͯΔɻ > > > 2. Passage ϕΫτϧ͸ Query ʹݱΕΔ୯ޠΛ༧ଌ͍ͯ͠Δʁ ෼ੳ݁Ռ 30

Slide 31

Slide 31 text

Table 2 ΑΓ DPR ͷ Passage ϕΫτϧʹ͸ɺ Passage ͱ Query ڞ௨ͷ୯ޠ্͕ ҐʹΤϯίʔυ͞Ε΍͍͢ɻ ·ͨ Query தͷ୯ޠ͸ɺPassage தͷ୯ޠΑΓ΋্ҐʹΤϯίʔυ͞ Ε΍͍͢ɻ > > ➡︎ DPR ͸ɺݕࡧʹॏཁͳ୯ޠ৘ใ Λ༧ଌ͠ɺϕΫτϧʹΤϯίʔυ ͍ͯ͠Δɻ 2. Passage ϕΫτϧ͸ Query ʹݱΕΔ୯ޠΛ༧ଌ͍ͯ͠Δʁ ෼ੳ݁Ռ 31

Slide 32

Slide 32 text

෼ੳഎܠɿQuery ʹಉٛޠ΍ؔ࿈͢Δ୯ޠͳͲΛิͬͯϚον཰Λ্͛Δɹ ΫΤϦ֦ுͱ͍͏ςΫχοΫ͕Α͘࢖ΘΕΔɻ 3. Query Τϯίʔμ͸ΫΤϦ֦ுΛ͍ͯ͠Δ͔ ෼ੳഎܠ ⽇本 ⼆番⽬ ⾼ ⼭ 何? ➡︎ DPR ΋ΫΤϦ֦ுΛ҉ʹ͍ͯ͠Δʁ ⼭脈、標⾼、富⼠⼭… + 32

Slide 33

Slide 33 text

3. Query Τϯίʔμ͸ΫΤϦ֦ுΛ͍ͯ͠Δ͔ ෼ੳํ๏ ࢁ ೔ຊ ߴ͍ ࢁ຺ … 0.13 0.11 0.09 0.07 … ⾚⽯⼭脈 ⽇本 ⼆番⽬ ⾼ 標⾼(3193m) 誇 北岳 。 ⽇本 ⼆番⽬ ⾼ ⼭ 何? ๺ַ ೔ຊ ໌ੴ ඪߴ … 0.22 0.10 0.09 0.07 … ϕΫτϧΛ ޠኮۭؒʹࣹӨ Q P Query ʹ͸ؚ·Ε͍ͯͳ͍͕ɺPassage ʹؚ·Ε͍ͯΔ୯ޠΛ top-k ʹ࣋ͭ Q ͕ͲΕ͘Β͍͋Δ͔Λௐࠪɻ 33

Slide 34

Slide 34 text

3. Query Τϯίʔμ͸ΫΤϦ֦ுΛ͍ͯ͠Δ͔ ෼ੳ݁Ռ Figure 4 ΑΓ ɹ ׂ̔Ҏ্ͷ Q ͕ɺtop-20 ͷ͏ͪ ʹ Query ʹͳ͍͕ Passage ʹଘࡏ ͢Δ୯ޠΛؚΜͰ͍Δɻ ➡︎ DPR ͸ΫΤϦ֦ுΛ҉ʹֶशͯ͠ ͍Δɻ 34

Slide 35

Slide 35 text

DPR ͸ૄϕΫτϧݕࡧͱಉ༷ʹɺ୯ޠͷॏෳΛॏཁࢹ͠ɺ ·ͨ Query ͱ Passage ͷϕΫτϧʹॏཁ౓ͷߴ͍୯ޠͷ৘ ใΛೖΕΔڍಈΛ͍ͯ͠Δɻ ෼ੳͷ·ͱΊ 35

Slide 36

Slide 36 text

Token Amnesia ʹ͍ͭͯ 36

Slide 37

Slide 37 text

- ີϕΫτϧݕࡧͷϕΫτϧΛޠኮۭؒʹࣹӨͯ͠ղऍ͢Δ ख๏ΛఏҊ - ͦͷख๏ͰີϕΫτϧؚ͕Ή৘ใΛ෼ੳ - ີϕΫτϧ͕ॏཁ୯ޠͷ৘ใΛ๨٫ͯ͠͠·͏ݱ৅Λൃݟ ͠ɺͦΕΛվળ͢Δख๏ΛఏҊ ࿦จͷ֓ཁ 37

Slide 38

Slide 38 text

Vocabulary Projections ͰϕΫτϧΛௐ΂ͯΈΔͱɺ Passage ϕΫτϧ͕ɺຊจʹଘࡏ͢Δॏཁͳ୯ޠΛ๨٫ͯ͠ ͍Δ͜ͱ͕͋Δɻ͜ΕΛ Token Amnesia ͱ͍͏ɻ ՝୊ͷൃݟ ⾚⽯⼭脈 ⽇本 ⼆番⽬ ⾼ 標⾼(3193m) 誇 北岳 。 北岳 標⾼ 何? Vocabulary Projection ๺ַ ඪߴ … … … 0.33 0.21 … … … ੺ੴ ೔ຊ ඪߴ … ๺ַ 0.22 0.10 0.09 … 0.001 Q P …͜ͷଘࡏΛఆྔతʹࣔͨ͠σʔλ (Figure 5) ͸ׂѪ 38

Slide 39

Slide 39 text

ॏཁͳ୯ޠͷ৘ใΛϕΫτϧʹ଍ͤ͹Α͍ɻ Token Amnesia ͷղܾ๏ Passage ͷϕΫτϧ + ॏཁ୯ޠͷϕΫτϧ Λ͢Δ͜ͱͰੑೳվળɻ ͜ͷख๏͸ Lexical Enrichment ͱݺ͹Ε͍ͯΔɻ 39

Slide 40

Slide 40 text

·ͣɺॏཁ୯ޠ t ͷ৘ใΛؚΜͩϕΫτϧ St Λ࡞Δɻ Lexical Enrichment st = arg max ̂ s log MLM Head( ̂ s)[t] MLM Head ʹೖྗ͢Δͱ୯ޠ t ͷ༧ଌ֬཰͕ߴ͘ ͳΔΑ͏ͳϕΫτϧ ŝ ΛɺSGD Ͱֶश͢Δɻ 40

Slide 41

Slide 41 text

ෳ਺ͷॏཁ୯ޠ [x1, …, xn] ͷ৘ใΛɺPassage ϕΫτϧʹ෇Ճ͍ͨ͠ͱ͢Δɻ ͦͷ৔߹͸֤୯ޠΛ IDF ͰॏΈ෇͚ͯɺϕΫτϧΛ࡞Δɻ Lexical Enrichment elex x = 1 n n ∑ i=1 IDF(xi )sxi ŝ 41

Slide 42

Slide 42 text

ݩʑͷύοηʔδϕΫτϧ ex ʹ଍͠߹ΘͤΔ࣌͸ɺਖ਼نԽΛ͠ɺ ॏΈ λ Λ͔͚Δɻ Lexical Enrichment e′  x = ex + λ ⋅ elex x elex x ŝ 42

Slide 43

Slide 43 text

Lexical Enrichment Λ࢖༻͢Δͱ out-of-domain ੑೳ͕ྑ͘ͳΔɻ Lexical Enrichment ͷޮՌ Table 3 ΑΓൈਮ …ablation study (Table 4) ͸ׂѪ 43

Slide 44

Slide 44 text

- ີϕΫτϧݕࡧͷϕΫτϧΛޠኮۭؒʹࣹӨͯ͠ղऍ͢Δ ख๏ΛఏҊ - ͦͷख๏ͰີϕΫτϧؚ͕Ή৘ใΛ෼ੳ - ີϕΫτϧ͕ॏཁ୯ޠͷ৘ใΛ๨٫ͯ͠͠·͏ݱ৅Λൃݟ ͠ɺͦΕΛվળ͢Δख๏ΛఏҊ ࿦จͷ֓ཁ 44

Slide 45

Slide 45 text

- Vocabulary Expansion ͸ີϕΫτϧݕࡧͷҰา౿ΈࠐΜͩ Τϥʔ෼ੳΛ͢Δͷʹ໾ཱͪͦ͏ɻ - Token Amnesia ͸ DPR + BM25 ͷΞϯαϯϒϧͳͲͰ͸ ղܾ͠ͳ͍ͷͩΖ͏͔ʁʢLexical Enrichment ͸ख͕͔ؒ ͔Γͦ͏ɻʣ ॴײ 45