$30 off During Our Annual Pro Sale. View Details »

What Are You Token About? Dense Retrieval as Distributions Over the Vocabulary

Ryokan RI
August 19, 2023

What Are You Token About? Dense Retrieval as Distributions Over the Vocabulary

2023 第15回最先端NLP勉強会

Ryokan RI

August 19, 2023
Tweet

More Decks by Ryokan RI

Other Decks in Research

Transcript

  1. Ori Ram, Liat Bezalel, Adi Zicher, Yonatan Belinkov,
    Jonathan Berant, Amir Globerson


    (ACL 2023)
    ࠷ઌ୺ NLP ษڧձ 2023


    ಡΉਓɿཥ ྇פʢLINEגࣜձࣾʣ
    What Are You Token About? Dense Retrieval as
    Distributions Over the Vocabulary

    View Slide

  2. - ີϕΫτϧݕࡧͷϕΫτϧΛޠኮۭؒʹࣹӨͯ͠ղऍ͢Δ
    ख๏ΛఏҊ


    - ͦͷख๏ͰີϕΫτϧؚ͕Ή৘ใΛ෼ੳ


    - ີϕΫτϧ͕ॏཁ୯ޠͷ৘ใΛ๨٫ͯ͠͠·͏ݱ৅Λൃݟ
    ͠ɺͦΕΛվળ͢Δख๏ΛఏҊ
    ࿦จͷ֓ཁ
    2

    View Slide

  3. എܠ


    ϕΫτϧݕࡧʹ͍ͭͯ
    3

    View Slide

  4. - ີϕΫτϧݕࡧͷϕΫτϧΛޠኮۭؒʹࣹӨͯ͠ղऍ͢Δ
    ख๏ΛఏҊ


    - ͦͷख๏ͰີϕΫτϧؚ͕Ή৘ใΛ෼ੳ


    - ີϕΫτϧ͕ॏཁ୯ޠͷ৘ใΛ๨٫ͯ͠͠·͏ݱ৅Λൃݟ
    ͠ɺͦΕΛվળ͢Δख๏ΛఏҊ
    ࿦จͷ֓ཁ
    4

    View Slide

  5. ⾚⽯⼭脈 ⽇本 2番⽬
    ⾼ 標⾼(3193m) 誇
    北岳 。
    Query ͕༩͑ΒΕɺPassage ू߹͔Βؔ࿈͢ΔจॻΛऔಘ͢Δɻ
    ݚڀʹ͓͚Δݕࡧ໰୊
    ݕࡧγεςϜ
    ⽇本 ⼆番⽬ ⾼ ⼭ 何?
    5

    View Slide

  6. Query ͱ Passage Λ࿈ଓ஋ີϕΫτϧʹม׵͠ɺ


    ྨࣅ౓ݕࡧʹΑͬͯ݁ՌΛऔಘ͢Δɻ
    ີϕΫτϧݕࡧ


    Dense (Vector) Retrieval
    Τϯίʔμ
    ⽇本 ⼆番⽬ ⾼ ⼭ 何?
    Τϯίʔμ
    ྨࣅ౓ݕࡧ
    6

    View Slide

  7. ີϕΫτϧݕࡧͷ୅දख๏


    Dense Passage Retrieval (DPR; Karpukhin et al., 2020)
    Transformer
    [CLS]
    ⽇本

    ?

    [SEP]
    ϓʔϦϯά
    ϕΫτϧม׵ʹ͸ BERT ͳͲͷࣄલֶशࡁΈΤϯίʔμΛ༻͍Δɻ


    ͦͯ͠ݕࡧλεΫ޲͚ʹϑΝΠϯνϡʔχϯάΛ͢Δɻ
    7

    View Slide

  8. ϑΝΠϯνϡʔχϯάʹ͸ in-batch negative Λ༻͍Δɻ
    ີϕΫτϧݕࡧͷ୅දख๏


    Dense Passage Retrieval (DPR; Karpukhin et al., 2020)
    q1
    q2
    q3
    p1
    p2
    p3
    ᶃ ؔ࿈͢Δ Query ͱ
    Passage ͰόονΛ࡞੒ɻ
    ᶄ શͯͷϖΞʹ͍ͭͯ
    ϕΫτϧͷ಺ੵΛܭࢉɻɹɹ
    ؔ࿈͢ΔϖΞΛਖ਼ྫɺ
    ͦͷଞΛෛྫͱ͢Δɻ
    ᶅ ֤ Query ʹ͍ͭͯɺਖ਼ྫ
    ͷείΞ͕૬ରతʹେ͖͘ͳΔ
    Α͏ʹ࠷దԽ͢Δɻ
    Softmax


    with


    Cross-Entropy
    8

    View Slide

  9. ີϕΫτϧݕࡧ


    vs.


    ૄϕΫτϧݕࡧ
    9

    View Slide

  10. ૄϕΫτϧݕࡧ


    Sparse (Vector) Retrieval
    ⽇本 ⼆番⽬ ⾼ ⼭ 何?
    … ೔ຊ … ࢁ … ߴ͍ …
    0 1.54 0 3.45 0 2.3 0
    ςΩετதͷ୯ޠʹείΞΛ༩͑ͯɺ
    ϕΫτϧΛ࡞Δɻ
    10

    View Slide

  11. ૄϕΫτϧݕࡧͷ୅දख๏


    BM25 (Robertson et al., 1994)
    IDF(w)
    Query தͷ୯ޠ w ͷείΞɿ
    Passage தͷ୯ޠ w ͷείΞɿ
    f (w, p) ⋅ (k1
    + 1)
    f (w, p) + k1
    ⋅ (1 − b + b ⋅
    |p|
    avgplength )
    - ୯ޠ w ͷස౓͕ߴ͍΄ͲείΞ͕ߴ͍


    - Passage ͷ௕͕͞௕͍΄ͲείΞ͕௿͍


    - b ͱ k_1 ͸ϋΠύϥ
    11

    View Slide

  12. ૄϕΫτϧݕࡧ


    Sparse (Vector) Retrieval
    … ೔ຊ … ࢁ … ߴ͍ …
    0 1.64 0 3.45 0 2.30 0
    … ೔ຊ … ࢁ … ߴ͍ …
    0 3.42 0 2.74 0 1.33 0

    Query ͱ Passage ͷྨࣅ౓͸ૄϕΫτϧͷ಺ੵͱଊ͑Δ͜ͱ͕Ͱ͖Δɻ


    ࣮ࡍͷ࣮૷Ͱ͸ɺసஔΠϯσοΫεΛߏங͠ Query தͷ୯ޠΛ࣋ͨͳ͍
    Passage Λແࢹ͢ΔͳͲͯ͠ɺܭࢉΛߴ଎Խ͢Δɻ
    12

    View Slide

  13. Ұൠతͳ܏޲ͱͯ͠ɺಘҙ෼໺͕ҟͳΔ (Thukar et al., 2021)ɻ
    ີϕΫτϧݕࡧ vs. ૄϕΫτϧݕࡧ
    in-domain


    ੑೳ
    out-of-domain


    ੑೳ
    BM25


    ʢૄϕΫτϧʣ
    ˚ ̋
    DPR


    ʢີϕΫτϧʣ
    ̋ ˚
    13

    View Slide

  14. ີϕΫτϧݕࡧ͸௿ස౓ΤϯςΟςΟʹؔ͢Δ࣭໰ʹऑ͍ɻ
    ີϕΫτϧݕࡧ vs. ૄϕΫτϧݕࡧ
    Table 1, Sciavolino et al., 2021 ΑΓ
    14

    View Slide

  15. ʢ͓·͚ʣଞʹ΋͍ΖΜͳख๏͕ఏҊ͞Ε͍ͯΔ͕


    ີͱૄͷϋΠϒϦουͩͬͨΓɺΞΠσΟΞͷܥේ͕͋ͬͯ໘ന͍
    BM25 DPR
    SPLADE
    ColBERT
    COIL
    CITADEL
    Li et al., 2022
    Formal et al., 2021
    Gao et al., 2021
    Khattab et al., 2020 Karpukhin et al., 2020
    Robertson et al., 1994
    ϚϧνϕΫτϧԽ
    BERT ͷ MLM-head


    ͰείΞΛ༧ଌ
    ϕΫτϧݕࡧͰ΋


    సஔΠϯσοΫεΛ࢖༻
    ʢ͍Ζ͍Ζશ෦੝Γͷख๏ʣ
    15

    View Slide

  16. ෼ੳख๏


    Vocabulary Projections ͷఏҊ
    16

    View Slide

  17. - ີϕΫτϧݕࡧͷϕΫτϧΛޠኮۭؒʹࣹӨͯ͠ղऍ͢Δ
    ख๏ΛఏҊ


    - ͦͷख๏ͰີϕΫτϧؚ͕Ή৘ใΛ෼ੳ


    - ີϕΫτϧ͕ॏཁ୯ޠͷ৘ใΛ๨٫ͯ͠͠·͏ݱ৅Λൃݟ
    ͠ɺͦΕΛվળ͢Δख๏ΛఏҊ
    ࿦จͷ֓ཁ
    17

    View Slide

  18. ϕΫτϧΛޠኮۭؒʹࣹӨ͢Δ
    Τϯίʔμ
    q
    … ೔ຊ … ࢁ … ߴ͍ …
    0… 0.11 0… 0.13 0… 0.09 0…
    MLM head
    ϕΫτϧ಺ʹͲͷΑ͏ͳ୯ޠͷ৘ใ͕Ͳͷ͘Βؚ͍·Ε͍ͯΔ͔͕෼͔Δ
    Q
    18

    View Slide

  19. ϕΫτϧΛޠኮۭؒʹࣹӨ͢Δ
    Τϯίʔμ
    q
    ϑΝΠϯνϡʔχϯάࡁΈ
    ࣄલֶशޙͦͷ··
    19
    … ೔ຊ … ࢁ … ߴ͍ …
    0… 0.11 0… 0.13 0… 0.09 0…
    MLM head
    Q

    View Slide

  20. - ϑΝΠϯνϡʔχϯάͨ͠Τϯίʔμʹɺࣄલֶशޙͦͷ
    ··ͷ MLM head Λ߹Θ͍ͤͯΔɻ


    - ͔͠΋ MLM head ͷೖྗ͸ຊདྷτʔΫϯ୯ҐͷϕΫτϧ
    ͰɺೖྗશମΛදݱ͢ΔϓʔϦϯά͞ΕͨϕΫτϧΛೖྗ
    ͢Δ͜ͱ͸૝ఆ͞Ε͍ͯͳ͍ɻ
    ͜Μͳ͜ͱΛ͍͍ͯ͠ͷ͔ʁ🤔
    ஶऀΒͷओுɿ௚ײతͳ݁Ռ͕ಘΒΕ͍ͯΔͷͰϤγʂ
    20

    View Slide

  21. - Ұൠʹ BERT ΛϑΝΠϯνϡʔχϯάͯ͠΋ɺ্ҐϨΠϠʔ͕গ͠ಈ͚ͩ͘
    (Zhou and Srikumar, 2022)ɻ


    ➡︎
    ϑΝΠϯνϡʔχϯάલͷ MLM head Λ߹Θͤͯ΋ͦΕͳΓʹҙຯͷ͋Δ݁Ռ͕
    ಘΒΕΔͱ΋ߟ͑ΒΕΔɻ


    - ϓʔϦϯά͍ͯ͠Δͱ͍ͬͯ΋ɺτʔΫϯ୯ҐͷϕΫτϧ͔Β࡞ΒΕ͍ͯΔɻ


    ➡︎
    LM head ʹೖΕͯ΋গͳ͘ͱ΋୯ޠ৘ใͷ૬ରతͳڧ͞͸औΕͦ͏ɻ


    - Query ͱ Passage ͷΤϯίʔμ͸ಉ͡ BERT ͔ΒॳظԽ͞Εɺ໨తؔ਺΋ςΩ
    ετͷྨࣅ౓ʹؔ܎͍ͯ͠Δɻ


    ➡︎
    ௚ײతʹɺݩͷΤϯίʔμͷ୯ޠ৘ใۭؒʹࡌ͔ͬΔܗͰֶश͕ਐΈͦ͏…ʁ
    ஶऀΒʹ୅Θͬͯਖ਼౰ԽΛࢼΈΔͱ…
    21

    View Slide

  22. DPR ͷ෼ੳ
    22

    View Slide

  23. - ີϕΫτϧݕࡧͷϕΫτϧΛޠኮۭؒʹࣹӨͯ͠ղऍ͢Δ
    ख๏ΛఏҊ


    - ͦͷख๏ͰີϕΫτϧؚ͕Ή৘ใΛ෼ੳ


    - ີϕΫτϧ͕ॏཁ୯ޠͷ৘ใΛ๨٫ͯ͠͠·͏ݱ৅Λൃݟ
    ͠ɺͦΕΛվળ͢Δख๏ΛఏҊ
    ࿦จͷ֓ཁ
    23

    View Slide

  24. ෼ੳͷςʔϚͱͯ͠ɺੲͳ͕ΒͷૄϕΫτϧݕࡧͰॏཁͩͱ
    ߟ͑ΒΕ͍ͯΔ৘ใ͕ɺDPR Ͱ΋׆༻͞Ε͍ͯΔ͔ɺͱ͍͏
    ͜ͱΛ͔֬Ί͍ͯΔɻ


    1. Query-Passage ؒͷ୯ޠॏෳͷ෼ੳ


    2. Passage ϕΫτϧ͸ Query ʹݱΕΔ୯ޠΛ༧ଌ͍ͯ͠
    Δʁ


    3. Query Τϯίʔμ͸ΫΤϦ֦ுΛ͍ͯ͠Δ͔
    ෼ੳ಺༰
    24

    View Slide

  25. Query ͱ Passage ͷ୯ޠͷॏෳ͸ૄϕΫτϧݕࡧͰ΋ͱͯ΋ॏཁ
    1. Query-Passage ؒͷ୯ޠॏෳͷ෼ੳ


    ෼ੳഎܠ
    ➡︎
    ີϕΫτϧͰ͸Ͳ͏͔ʁ
    … ೔ຊ … ࢁ … ߴ͍ …
    0 1.64 0 3.45 0 2.30 0
    … ೔ຊ … ࢁ … ߴ͍ …
    0 3.42 0 2.74 0 1.33 0

    25

    View Slide

  26. 1. Query-Passage ؒͷ୯ޠॏෳͷ෼ੳ


    ෼ੳํ๏
    ࢁ ೔ຊ ߴ͍ … …
    0.13 0.11 0.09 … …
    ⾚⽯⼭脈 ⽇本 ⼆番⽬ ⾼
    標⾼(3193m) 誇 北岳 。
    ⽇本 ⼆番⽬ ⾼ ⼭ 何?
    ๺ַ ೔ຊ ໌ੴ … …
    0.22 0.10 0.09 … …
    ڞ௨୯ޠ
    ⽇本、⼆番⽬、⾼
    top-3 ͷڞ௨୯ޠ
    ⽇本
    Q
    P
    top-k ͷڞ௨୯ޠ͕ڞ௨୯ޠͷԿ%Χόʔ͍ͯ͠Δ͔Λௐࠪ
    Vocabulary


    Projection
    26

    View Slide

  27. 1. Query-Passage ؒͷ୯ޠॏෳͷ෼ੳ


    ෼ੳ݁Ռ
    Figure 3 ΑΓ
    DPR ͸ɺϑΝΠϯνϡʔχϯάલʹ
    ൺ΂ͯɺϕΫτϧʹ Query ͱ
    Passage Ͱڞ௨͢ΔΑ͏ͳ୯ޠ৘ใ
    ΛΑΓଟ͘Τϯίʔυ͍ͯ͠Δɻ


    ➡︎
    ີϕΫτϧͰ΋୯ޠॏෳ͕ॏཁɻ
    27

    View Slide

  28. 2. Passage ϕΫτϧ͸ Query ʹݱΕΔ୯ޠΛ༧ଌ͍ͯ͠Δʁ


    ෼ੳഎܠ
    Passage ͸ͨ͘͞Μ୯ޠΛؚΉ͕ɺͦͷ͏ͪ Query ʹݱΕΔΑ͏ͳ୯ޠΛ
    ڧௐ͢ΔΑ͏ʹɺDPR ͸ϕΫτϧΛΤϯίʔυ͍ͯ͠Δʁ
    ⾚⽯⼭脈 ⽇本 ⼆番⽬ ⾼
    標⾼(3193m) 誇 北岳 。
    ⽇本 ⼆番⽬ ⾼ ⼭ 何?
    28

    View Slide

  29. ⽇本 ⼆番⽬ ⾼ ⼭ 何? ๺ַ ೔ຊ ໌ੴ … …
    0.22 0.10 0.09 … …
    Query ͷ୯ޠ͕ P Ͱ্ҐʹϥϯΩϯά͞Ε͍ͯΔ͔ʁ


    ͜ΕΛQueryதͷ୯ޠͷɺP ʹ͓͚ΔฏۉٯॱҐͰఆྔԽɻ
    P
    2. Passage ϕΫτϧ͸ Query ʹݱΕΔ୯ޠΛ༧ଌ͍ͯ͠Δʁ


    ෼ੳํ๏
    29

    View Slide

  30. Table 2 ΑΓ
    DPR vs. BERT(mean)


    ϑΝΠϯνϡʔχϯάલʹൺ΂ͯɺ
    ҙຯͷ͋Δ୯ޠΛ্ҐʹΤϯίʔυ
    ͢ΔΑ͏ʹͳ͍ͬͯΔɻ
    >
    >
    >
    2. Passage ϕΫτϧ͸ Query ʹݱΕΔ୯ޠΛ༧ଌ͍ͯ͠Δʁ


    ෼ੳ݁Ռ
    30

    View Slide

  31. Table 2 ΑΓ
    DPR ͷ Passage ϕΫτϧʹ͸ɺ
    Passage ͱ Query ڞ௨ͷ୯ޠ্͕
    ҐʹΤϯίʔυ͞Ε΍͍͢ɻ


    ·ͨ Query தͷ୯ޠ͸ɺPassage
    தͷ୯ޠΑΓ΋্ҐʹΤϯίʔυ͞
    Ε΍͍͢ɻ
    >
    >
    ➡︎
    DPR ͸ɺݕࡧʹॏཁͳ୯ޠ৘ใ
    Λ༧ଌ͠ɺϕΫτϧʹΤϯίʔυ
    ͍ͯ͠Δɻ
    2. Passage ϕΫτϧ͸ Query ʹݱΕΔ୯ޠΛ༧ଌ͍ͯ͠Δʁ


    ෼ੳ݁Ռ
    31

    View Slide

  32. ෼ੳഎܠɿQuery ʹಉٛޠ΍ؔ࿈͢Δ୯ޠͳͲΛิͬͯϚον཰Λ্͛Δɹ
    ΫΤϦ֦ுͱ͍͏ςΫχοΫ͕Α͘࢖ΘΕΔɻ
    3. Query Τϯίʔμ͸ΫΤϦ֦ுΛ͍ͯ͠Δ͔


    ෼ੳഎܠ
    ⽇本 ⼆番⽬ ⾼ ⼭ 何?
    ➡︎
    DPR ΋ΫΤϦ֦ுΛ҉ʹ͍ͯ͠Δʁ
    ⼭脈、標⾼、富⼠⼭…
    +
    32

    View Slide

  33. 3. Query Τϯίʔμ͸ΫΤϦ֦ுΛ͍ͯ͠Δ͔


    ෼ੳํ๏
    ࢁ ೔ຊ ߴ͍ ࢁ຺ …
    0.13 0.11 0.09 0.07 …
    ⾚⽯⼭脈 ⽇本 ⼆番⽬
    ⾼ 標⾼(3193m) 誇
    北岳 。
    ⽇本 ⼆番⽬ ⾼ ⼭ 何?
    ๺ַ ೔ຊ ໌ੴ ඪߴ …
    0.22 0.10 0.09 0.07 …
    ϕΫτϧΛ


    ޠኮۭؒʹࣹӨ
    Q
    P
    Query ʹ͸ؚ·Ε͍ͯͳ͍͕ɺPassage ʹؚ·Ε͍ͯΔ୯ޠΛ


    top-k ʹ࣋ͭ Q ͕ͲΕ͘Β͍͋Δ͔Λௐࠪɻ
    33

    View Slide

  34. 3. Query Τϯίʔμ͸ΫΤϦ֦ுΛ͍ͯ͠Δ͔


    ෼ੳ݁Ռ
    Figure 4 ΑΓ
    ɹ ׂ̔Ҏ্ͷ Q ͕ɺtop-20 ͷ͏ͪ
    ʹ Query ʹͳ͍͕ Passage ʹଘࡏ
    ͢Δ୯ޠΛؚΜͰ͍Δɻ
    ➡︎
    DPR ͸ΫΤϦ֦ுΛ҉ʹֶशͯ͠
    ͍Δɻ
    34

    View Slide

  35. DPR ͸ૄϕΫτϧݕࡧͱಉ༷ʹɺ୯ޠͷॏෳΛॏཁࢹ͠ɺ


    ·ͨ Query ͱ Passage ͷϕΫτϧʹॏཁ౓ͷߴ͍୯ޠͷ৘
    ใΛೖΕΔڍಈΛ͍ͯ͠Δɻ
    ෼ੳͷ·ͱΊ
    35

    View Slide

  36. Token Amnesia ʹ͍ͭͯ
    36

    View Slide

  37. - ີϕΫτϧݕࡧͷϕΫτϧΛޠኮۭؒʹࣹӨͯ͠ղऍ͢Δ
    ख๏ΛఏҊ


    - ͦͷख๏ͰີϕΫτϧؚ͕Ή৘ใΛ෼ੳ


    - ີϕΫτϧ͕ॏཁ୯ޠͷ৘ใΛ๨٫ͯ͠͠·͏ݱ৅Λൃݟ
    ͠ɺͦΕΛվળ͢Δख๏ΛఏҊ
    ࿦จͷ֓ཁ
    37

    View Slide

  38. Vocabulary Projections ͰϕΫτϧΛௐ΂ͯΈΔͱɺ
    Passage ϕΫτϧ͕ɺຊจʹଘࡏ͢Δॏཁͳ୯ޠΛ๨٫ͯ͠
    ͍Δ͜ͱ͕͋Δɻ͜ΕΛ Token Amnesia ͱ͍͏ɻ
    ՝୊ͷൃݟ
    ⾚⽯⼭脈 ⽇本 ⼆番⽬ ⾼
    標⾼(3193m) 誇 北岳 。
    北岳 標⾼ 何?
    Vocabulary


    Projection
    ๺ַ ඪߴ … … …
    0.33 0.21 … … …
    ੺ੴ ೔ຊ ඪߴ … ๺ַ
    0.22 0.10 0.09 … 0.001
    Q
    P
    …͜ͷଘࡏΛఆྔతʹࣔͨ͠σʔλ (Figure 5) ͸ׂѪ
    38

    View Slide

  39. ॏཁͳ୯ޠͷ৘ใΛϕΫτϧʹ଍ͤ͹Α͍ɻ
    Token Amnesia ͷղܾ๏
    Passage ͷϕΫτϧ + ॏཁ୯ޠͷϕΫτϧ
    Λ͢Δ͜ͱͰੑೳվળɻ


    ͜ͷख๏͸ Lexical Enrichment ͱݺ͹Ε͍ͯΔɻ
    39

    View Slide

  40. ·ͣɺॏཁ୯ޠ t ͷ৘ใΛؚΜͩϕΫτϧ St Λ࡞Δɻ
    Lexical Enrichment
    st
    = arg max
    ̂
    s
    log MLM Head( ̂
    s)[t]
    MLM Head ʹೖྗ͢Δͱ୯ޠ t ͷ༧ଌ֬཰͕ߴ͘
    ͳΔΑ͏ͳϕΫτϧ ŝ ΛɺSGD Ͱֶश͢Δɻ
    40

    View Slide

  41. ෳ਺ͷॏཁ୯ޠ [x1, …, xn] ͷ৘ใΛɺPassage ϕΫτϧʹ෇Ճ͍ͨ͠ͱ͢Δɻ


    ͦͷ৔߹͸֤୯ޠΛ IDF ͰॏΈ෇͚ͯɺϕΫτϧΛ࡞Δɻ
    Lexical Enrichment
    elex
    x
    =
    1
    n
    n

    i=1
    IDF(xi
    )sxi
    ŝ
    41

    View Slide

  42. ݩʑͷύοηʔδϕΫτϧ ex ʹ଍͠߹ΘͤΔ࣌͸ɺਖ਼نԽΛ͠ɺ
    ॏΈ λ Λ͔͚Δɻ
    Lexical Enrichment
    e′

    x
    = ex
    + λ ⋅
    elex
    x
    elex
    x
    ŝ
    42

    View Slide

  43. Lexical Enrichment Λ࢖༻͢Δͱ out-of-domain ੑೳ͕ྑ͘ͳΔɻ
    Lexical Enrichment ͷޮՌ
    Table 3 ΑΓൈਮ
    …ablation study (Table 4) ͸ׂѪ
    43

    View Slide

  44. - ີϕΫτϧݕࡧͷϕΫτϧΛޠኮۭؒʹࣹӨͯ͠ղऍ͢Δ
    ख๏ΛఏҊ


    - ͦͷख๏ͰີϕΫτϧؚ͕Ή৘ใΛ෼ੳ


    - ີϕΫτϧ͕ॏཁ୯ޠͷ৘ใΛ๨٫ͯ͠͠·͏ݱ৅Λൃݟ
    ͠ɺͦΕΛվળ͢Δख๏ΛఏҊ
    ࿦จͷ֓ཁ
    44

    View Slide

  45. - Vocabulary Expansion ͸ີϕΫτϧݕࡧͷҰา౿ΈࠐΜͩ
    Τϥʔ෼ੳΛ͢Δͷʹ໾ཱͪͦ͏ɻ


    - Token Amnesia ͸ DPR + BM25 ͷΞϯαϯϒϧͳͲͰ͸
    ղܾ͠ͳ͍ͷͩΖ͏͔ʁʢLexical Enrichment ͸ख͕͔ؒ
    ͔Γͦ͏ɻʣ
    ॴײ
    45

    View Slide