【輪講資料】Decoding Dense Embeddings: Sparse Autoencoders for Interpreting and Discretizing Dense Retrieval

Decoding Dense Embeddings: Sparse Autoencoders for Interpreting and Discretizing Dense
Retrieval 12݄2೔ ࡫໺ݚڀࣨɹD1 ໼໺ઍߛ Seongwan Park, Taeklim Kim, Youngjoong Ko EMNLP 2025

֓ཁ 1. DPRϞσϧͷग़ྗʹSparse Auto encoderΛద༻͠ɺݕࡧʹར༻͞Ε͍ͯΔconcept Λಛఆ 2. ղऍՄೳʹ͢ΔͨΊɺڞ௨ͷconceptΛ࣋ͭจষ܈͔Β֤conceptͷઆ໌Λੜ੒ 3. ղऍʹ࢖ͬͨconcept܈ʹΑͬͯݕࡧΛߦ͏ɺConcept-Level
Sparse RetrievalΛఏ Ҋ • طଘͷૄີݕࡧख๏Ͱ͋ΔSPLADEͱಉఔ౓ͷੑೳͳ͕ΒΑΓޮ཰త 2

બΜͩཧ༝ • Sparse Auto encoderΛ࢖ͬͨղऍ͸݁ߏྲྀߦ͍ͬͯΔ͠ɺͦΕΛ ϕʔεʹ͍͍ײ͡ͷݕࡧϑϨʔϜϫʔΫΛ࡞͍ͬͯͯྑͦ͞͏ • ࣮ݧઃఆ΋ɺ܇࿅υϝΠϯͱҧ͏υϝΠϯͷσʔληοτͰධՁ ͢ΔͳͲɺׂͱͪΌΜͱͯͦ͠͏ 3

ಋೖɿDence Passage Retrieval • BERTͳͲͷ૒ํ޲ϞσϧΛར༻ͯ֫͠ಘͨ͠ΫΤϦͱจॻͷຒΊࠐΈ ͷྨࣅ౓ʹΑͬͯจॻݕࡧΛߦ͏ख๏ • TF-IDF΍BM25ͳͲͷૄͳख๏ͱҧ͍ɺ୯ޠද૚͕׬શʹҰக͍ͯ͠ͳ ͯ͘΋ݕࡧͰ͖Δ 4
ߴྨࣅ౓ ௿ྨࣅ౓ ೔ຊͰҰ൪ߴ͍ࢁ͸ʁ ෋࢜ࢁʢ;͡͞Μʣ͸ɺ  ೔ຊͷ׆ՐࢁͰ͋Δ… ৴ೱ઒ʢ͠ͳͷ͕Θʣ͸ɺ ৽ׁݝ͓Αͼ௕໺ݝΛ… Ϟσϧ Ϟσϧ Ϟσϧ

Sparse Auto Encoder • தؒ૚͕ૄʹͳΔΑ͏ͳ੍໿Λ͔͚ͯɺೖྗΛ࠶ߏங͢ΔΑ͏ʹ ֶशΛߦ͏ • ۙ೥͸χϡʔϥϧωοτɺಛʹLLMͷղऍʹར༻͞Ε͍ͯΔ 5

Sparse Auto EncoderʹΑΔϞσϧղऍ • NNͰ͸ॏͶ߹Θ͕ͤى͖͓ͯΓɺಛఆͷχϡʔϩϯΛݟͯղऍΛߦ͏ͷ͸೉͍͠ • ୯Ұͷχϡʔϩϯ͕ෳ਺ͷ֓೦ʹൃՐ͢Δ • SAEʹΑͬͯNNͷதؒ૚ΛΑΓڊେͳ࣍ݩʹࣹӨ͠ɺ಺෦දݱ͕ଊ͑Δ৘ใΛղ ऍ͢Δͱɺ࣮ࡍʹݸਓ໊ͷΈʹൃՐ͢Δಛ௃ྔɺ਺ࣈͷ”5”ʹͷΈൃՐ͢Δಛ௃ྔ
ͳͲ͕ൃݟ͞Εͨ* 6 <$VOOJOHIBNFUBM >4QBSTF"VUPFODPEFST'JOE)JHIMZ*OUFSQSFUBCMF'FBUVSFTJO-BOHVBHF.PEFMT ˝<$VOOJOHIBNFUBM >ΑΓҾ༻

DPRղऍʹ༻͍ΔSAE • ຊ࿦จͰ͸DPRͷग़ྗʹSAEΛద༻͠ɺݕࡧʹར༻͢Δಛ௃ʹͭ ͍ͯղऍΛࢼΈΔ • 7 4"&΁ͷೖྗʢ%13ͷग़ྗʣ 4QBSTF-BUFOUT ΤϯίʔμͷॏΈͱόΠΞε߲
σίʔμͷॏΈͱόΠΞε߲ Ћ׆ੑԽؔ਺͜͜Ͱ͸#BUDI5PQ,Λར༻ h ∈ ℝd z ∈ ℝm(m > > d) Wenc ∈ ℝm*d benc ∈ ℝm Wden ∈ ℝd*m bdec ∈ ℝd SAEͷ಺෦දݱʢSparse LatentsʣΛ  ૄʹ͢ΔͨΊͷ੍໿Ͱɺόον͝ͱʹ  top kΑΓԼҐͷ஋Λ͢΂ͯ0ʹ͢Δؔ਺ ˛˞ม਺͸Ұக͍ͯ͠ͳ͍͕ɺΠϝʔδ

SAEͷ܇࿅ઃఆ • ର৅Ϟσϧ: SimML • ର৅σʔληοτ: MS-MARCOͷ܇࿅ηοτ • 8.8Mͷจॻͱ0.5MͷΫΤϦ •
SAEͰͷ࣍ݩͷ֦େ཰ʢm/dʣ: 32 • BatchTopKͷk: 32, 48, 64, 128 • ͻͱͭͷຒΊࠐΈΛදݱ͢ΔͨΊʹར༻Մೳͳ࣍ݩ਺ • ࣮ࡍʹ͸όον͝ͱʹbs x k࣍ݩ 8 SimLM E࣍ݩ N࣍ݩ E࣍ݩ ʜ 4"& &OD 4"& %FD ޡ͕ࠩখ͘͞ͳΔ Α͏ʹ܇࿅

SAEͷධՁ1: ࠶ߏஙͨ͠ϕΫτϧͷ඼࣭ • NMSE: DPRͷຒΊࠐΈͱ࠶ߏஙͨ͠ϕΫτϧͷޡࠩ • ฏۉతͳ׆ੑԽ஋Λ༧ଌͨ͠৔߹ͷޡࠩͰׂͬͨ΋ͷ • MRR, Recall,
NDCG: ࠶ߏஙͨ͠ϕΫτϧʹΑΔݕࡧਫ਼౓ • Spearman: DPRͷຒΊࠐΈͱ࠶ߏஙͨ͠ϕΫτϧͷ૬ؔ܎਺ • ୯७ͳݕࡧΑΓ΋ৄࡉͳRerankingೳྗΛ͸͔Δ 9

SAEͷධՁ1: ࠶ߏஙͨ͠ϕΫτϧͷ඼࣭ • NMSE: DPRͷຒΊࠐΈͱ࠶ߏஙͨ͠ϕΫτϧͷޡࠩ • ฏۉతͳ׆ੑԽ஋Λ༧ଌͨ͠৔߹ͷޡࠩͰׂͬͨ΋ͷ • MRR, Recall,
NDCG: ࠶ߏஙͨ͠ϕΫτϧʹΑΔݕࡧਫ਼౓ • Spearman: DPRͷຒΊࠐΈͱ࠶ߏஙͨ͠ϕΫτϧͷ૬ؔ܎਺ • ୯७ͳݕࡧΑΓ΋ৄࡉͳRerankingೳྗΛ͸͔Δ 10 K͸େ͖ͨ͘͠ํ͕࠶ߏஙͷޡࠩ͸Լ͕Γɺ ݕࡧͷੑೳ΋্͕Δ

SAEͷධՁ2: SAEͷજࡏදݱ͸ղऍՄೳͳ֓೦Λද͍ͯ͠Δ͔ʁ • ಛఆͷજࡏม਺Λ࠷΋ڧ͘׆ੑԽ͢Δจॻ9ͭͱɺ׆ੑԽ͠ͳ͍ จॻΛ·ͥͯɺLLMʹ֎Ε஋Λಛఆͤ͞Δ • જࡏม਺͕ݩͷจॻͷಛ௃Λද͍ͯ͠Δ͔͸͔Δ • SparseͰͳ͘ͳΔ΄Ͳʢk͕େ͖͘ͳΔ΄Ͳʣݸʑͷજࡏม਺͕ ΅΍͚Δ
11

જࡏม਺ͷઆ໌ੜ੒ • ͦΕͧΕͷજࡏม਺Λ࠷΋ڧ͘׆ੑԽ͢Δจষ30݅ΛGpt4.1-mini ʹ༩͑ɺઆ໌Λੜ੒ • ղऍΛ͠΍͘͢͢ΔͨΊʹɺActivation Valueʹ͸IDFΛ৐ͯ͡ك ͳม਺ͷ஋Λେ͖͘ɺॏཁࢹ͞ΕΔΑ͏ʹ͍ͯ͠Δ 12 ˛જࡏม਺ͷઆ໌
˛ݩจॻ

જࡏม਺ͷઆ໌͔Βਓؒ͸ϞσϧΛղऍͰ͖Δ͔ʁ • จॻ༧ଌɿજࡏม਺ͷઆ໌܈ʹΑͬͯɺਓ͕ؒจॻ܈ʢ10݅ʣ͔Βର৅ͷจ ॻʢ1݅ʣΛಛఆͰ͖Δ͔࣮ݧ • MS MARCO͔Β600݅ • ϦϥϯΩϯάɿΫΤϦͱީิจॻͷજࡏม਺ͷઆ໌܈ʹΑͬͯɺਓ͕ؒϞσ ϧͱಉ༷ͷॱҐ෇͚ΛͰ͖Δ͔࣮ݧ
• 2ͭͷจॻͷ͏ͪɺͲͪΒ͕ߴॱҐ͔Λબ୒ɻจॻϖΞ͸ҎԼͷ3ઃఆɿ • Retrieved Positive vs Retrieved Positive • Retrieved Positive vs Not Retrieved Positive • Retrieved Negative vs Not Retrieved Positive • TREC 2019ͱTREC 2020ͷσʔλΛར༻͠ɺTop 1000จॻΛRetrievedͱఆٛ 13

જࡏม਺ͷઆ໌͔Βਓؒ͸ϞσϧΛղऍͰ͖Δ͔ʁ • ৗʹ9ׂҎ্ͷਫ਼౓Ͱɺજࡏม਺ͱͦͷઆ໌͸Ϟσϧͷ༧ଌΛγ ϛϡϨʔγϣϯ͢ΔͨΊʹ໾ཱͭ 14

જࡏม਺ͷઆ໌͔Βਓؒ͸ϞσϧΛղऍͰ͖Δ͔ʁ • ৗʹ9ׂҎ্ͷਫ਼౓Ͱɺજࡏม਺ͱͦͷઆ໌͸Ϟσϧͷ༧ଌΛγ ϛϡϨʔγϣϯ͢ΔͨΊʹ໾ཱͭ 15 Ϟσϧ͕ؒҧ͑ͨྫʹ͍ͭͯ΋Ϟσϧ༧ଌΛ γϛϡϨʔτͰ͖͍ͯΔ -> ͳΜͰؒҧ͔͑ͨʁͱ͔Θ͔Γͦ͏ʁ

Concept-Level Sparse RetrievalͷఏҊ • ͜͜·Ͱͷํ๏Λ֦ு͠ɺજࡏม਺Λ࢖ͬͨݕࡧख๏ΛఏҊ͢Δ • ΫΤϦͱจॻͷؒͷݕࡧείΞ͸ҎԼͰఆٛ • BM25ͷܭࢉࣜΛϕʔεʹิਖ਼Λಋೖ •
ݕࡧ͸స஍ΠϯσοΫεΛར༻͢Δ͜ͱͰߴ଎ • ࣄલʹจॻΛΤϯίʔυ -> જࡏม਺͕keyͱͳΔసஔΠϯσοΫεΛ ࡞੒ 16 ΫΤϦRʹ͓͚Δજࡏม਺JͷॏΈ จॻEʹ͓͚Δજࡏม਺JͷॏΈ *%'ʹΑΔJ΁ͷॏΈ fq (q, i) fd (d, i) JEG(i) R

Concept-Level Sparse RetrievalͷఏҊ • ͜͜·Ͱͷํ๏Λ֦ு͠ɺજࡏม਺Λ࢖ͬͨݕࡧख๏ΛఏҊ͢Δ • ΫΤϦͱจॻͷؒͷݕࡧείΞ͸ҎԼͰఆٛ • BM25ͷܭࢉࣜΛϕʔεʹิਖ਼Λಋೖ •
ݕࡧ͸స஍ΠϯσοΫεΛར༻͢Δ͜ͱͰߴ଎ • ࣄલʹจॻΛΤϯίʔυ -> જࡏม਺͕keyͱͳΔసஔΠϯσοΫεΛ ࡞੒ 17 ΫΤϦRʹ͓͚Δજࡏม਺JͷॏΈ จॻEʹ͓͚Δજࡏม਺JͷॏΈ *%'ʹΑΔJ΁ͷॏΈ fq (q, i) fd (d, i) JEG(i) R ݕࡧ෦෼͸ߴ଎͕ͩɺݕࡧ࣌ʹ΋ΫΤϦΛ DPRͰΤϯίʔυ͢Δඞཁ͕͋Δ

ൺֱख๏ • Sparse Retrieval: ୯ޠͷ౷ܭ৘ใΛݩʹͨ͠ߴ଎ͳख๏ • BM25: จॻதͷ୯ޠස౓ʹجͮ͘ख๏ • RM3:
্ҐจॻΛར༻ͯ͠ΫΤϦ֦ுΛߦ͏BM25ͷޙଓख๏ • docT5query: T5ʹΑͬͯจॻ͔Β૝ఆ࣭໰Λ࡞੒͠BM25Λߦ͏ • Neural Sparse Retrieval: ਪ࿦࣌ʹχϡʔϥϧωοτΛ૊Έ߹Θͤͨख๏ • query2doc: LLMͰΫΤϦ͔ΒจॻΛੜ੒͠ΫΤϦʹ௥Ճ • DeepImpact: ୯ޠͷॏཁੑͱͯ͠ग़ݱճ਺Ͱ͸ͳ͘BERTͷ༧ଌ஋Λ࢖͏ • uniCOIL: BERTʹΑΔຒΊࠐΈΛ1࣍ݩʹѹॖ͠స஍ΠϯσοΫεΛ࢖͏ • SPLADE: BERTΛ࢖ͬͯจॻʹؚ·ΕΔ୯ޠͷॏΈ͚ͮͱؔ࿈ޠͷ௥ՃΛߦ͏ 18

ܭࢉޮ཰ΛଌΔࢦඪ • FLOPs: ΫΤϦͱจॻϖΞ͝ͱͷԋࢉ਺ͷظ଴஋ • D Len: จॻ͝ͱͷฏۉಛ௃ྔ਺ • CL-SRͰ͸જࡏม਺ͷ਺ɻBM25Ͱ͸୯ޠ਺ɺSPLADEͰ͸୯ޠ+
ؔ࿈ޠ਺ • Vocab Size: ΠϯσοΫε͞Ε͍ͯΔIDͷେ͖͞ • CL-SRͰ͸ར༻͞ΕΔજࡏม਺ͷ਺ɻBM25Ͱ͸ར༻͞ΕΔτʔΫ ϯͷछྨɺSPLADEͰ͸ར༻͞ΕΔϞσϧͷvocab size… 19

ෳ਺ͷݕࡧσʔληοτʹΑΔධՁ • CL-SR͸Neural Sparse Retrievalͱಉ౳ͷੑೳΛࣔ͠ͳ͕Βߴ͍ ܭࢉޮ཰Λࣔ͢ 20 L L

CL-SR͸ද૚ʹͱΒΘΕͣݕࡧ͕Ͱ͖Δ͔ʁ • MS MARCOதͷBM25͕ؒҧ͑ͨΫΤϦɺ988݅Ͱͷ࣮ݧ • ද૚ϕʔεͷݕࡧ͔͠ߦ͑ͳ͍৔߹ɺ͜ͷσʔληοτͰ͸ੑೳ ͕ൃشͰ͖ͳ͍ • SPLADEΑΓ΋ੑೳ͕ߴ͘ɺજࡏม਺͸ޠኮͱҙຯͷΪϟοϓΛ ຒΊΒΕ͍ͯΔ
21

BM25͕ղ͚ͣɺCL-SR͕ղ͚ͨ۩ମྫ1 • ΫΤϦͱਖ਼ղจॻʹ͸୯ޠͷॏෳ͕গͳ͘ɺBM25Ͱ͸೉͍͠ • CL-SR͸ਖ਼ղจॻ͔Βද૚ʹͱΒΘΕͳ͍֓೦Λ֫ಘ͠੒ޭ 22 ࢠٶͷղ๤ֶͱ݈߁ ੒௕ͱൃୡ

BM25͕ղ͚ͣɺCL-SR͕ղ͚ͨ۩ମྫ2 • ଟٛޠʢfallʣΛBM25Ͱ͸্ख͘ѻ͑ͳ͍ • CL-SRͰ͸ʮ”fall”ͷଟٛੑʯ΍ʮقઅʯͳͲͷෳ਺ͷજࡏม਺ʹ ҙຯΛ෼ࢄͤ͞੒ޭ 23 fallʢམͪΔʣ͕ෳ਺  ొ৔͢Δจॻ͕ώοτ “fall”ͷଟ༷ͳҙຯ
قઅͷΞΠσϯςΟςΟ

Appendix: ܇࿅ʹར༻͍ͯ͠ͳ͍υϝΠϯͰͷධՁ • SAEͷ܇࿅࣌ͱҟͳΔυϝΠϯͰɺ࠶ߏங͞ΕͨϕΫτϧ඼࣭Λ ධՁ 24 ˛JOEPNBJOσʔλͰͷධՁʢ53&$͸.4."3$0͔Β੾Γग़ͨ͠σʔλʣ ˛PVUPGEPNBJOσʔλͰͷධՁʢ.4."3$0Ͱ܇࿅ʣ

Appendix: ܇࿅ʹར༻͍ͯ͠ͳ͍υϝΠϯͰͷධՁ • SAEͷ܇࿅࣌ͱҟͳΔυϝΠϯͰɺ࠶ߏங͞ΕͨϕΫτϧ඼࣭Λ ධՁ 25 ˛JOEPNBJOσʔλͰͷධՁʢ53&$͸.4."3$0͔Β੾Γग़ͨ͠σʔλʣ ˛PVUPGEPNBJOσʔλͰͷධՁʢ.4."3$0Ͱ܇࿅ʣ SpearmanͳͲͪΐͬͱ௿͍΋ ͷͷɺ͋Δఔ౓Ͱ͖͍ͯͦ͏

·ͱΊ • DPRͷग़ྗΛSAEΛ༻͍ͯղऍ͠ɺਓखධՁ΋ަ͑ͳ͕ΒɺSAE ʹΑͬͯ֫ಘͨ͠જࡏ֓೦͕ղऍՄೳͳҙຯͷ୯Ґͱͯ͠ػೳ͠ ͍ͯΔ͜ͱΛࣔͨ͠ • જࡏ֓೦͕sparseͰ͋Δ͜ͱ͔Βɺస஍ΠϯσοΫεΛ༻͍ͨߴ ଎ͳݕࡧख๏Concept-Level Sparse Retrieval
(CL-SR)ΛఏҊ • ैདྷख๏ʹඖఢ͢Δੑೳ͔ͭɺΑΓޮ཰త 26

【輪講資料】Decoding Dense Embeddings: Sparse Autoenc...

【輪講資料】Decoding Dense Embeddings: Sparse Autoencoders for Interpreting and Discretizing Dense Retrieval

Yano

More Decks by Yano

Featured

Transcript

Decoding Dense Embeddings: Sparse Autoencoders for Interpreting and Discretizing Dense

֓ཁ 1. DPRϞσϧͷग़ྗʹSparse Auto encoderΛద༻͠ɺݕࡧʹར༻͞Ε͍ͯΔconcept Λಛఆ 2. ղऍՄೳʹ͢ΔͨΊɺڞ௨ͷconceptΛ࣋ͭจষ܈͔Β֤conceptͷઆ໌Λੜ੒ 3. ղऍʹ࢖ͬͨconcept܈ʹΑͬͯݕࡧΛߦ͏ɺConcept-Level

બΜͩཧ༝ • Sparse Auto encoderΛ࢖ͬͨղऍ͸݁ߏྲྀߦ͍ͬͯΔ͠ɺͦΕΛ ϕʔεʹ͍͍ײ͡ͷݕࡧϑϨʔϜϫʔΫΛ࡞͍ͬͯͯྑͦ͞͏ • ࣮ݧઃఆ΋ɺ܇࿅υϝΠϯͱҧ͏υϝΠϯͷσʔληοτͰධՁ ͢ΔͳͲɺׂͱͪΌΜͱͯͦ͠͏ 3

ಋೖɿDence Passage Retrieval • BERTͳͲͷ૒ํ޲ϞσϧΛར༻ͯ֫͠ಘͨ͠ΫΤϦͱจॻͷຒΊࠐΈ ͷྨࣅ౓ʹΑͬͯจॻݕࡧΛߦ͏ख๏ • TF-IDF΍BM25ͳͲͷૄͳख๏ͱҧ͍ɺ୯ޠද૚͕׬શʹҰக͍ͯ͠ͳ ͯ͘΋ݕࡧͰ͖Δ 4

Sparse Auto Encoder • தؒ૚͕ૄʹͳΔΑ͏ͳ੍໿Λ͔͚ͯɺೖྗΛ࠶ߏங͢ΔΑ͏ʹ ֶशΛߦ͏ • ۙ೥͸χϡʔϥϧωοτɺಛʹLLMͷղऍʹར༻͞Ε͍ͯΔ 5

DPRղऍʹ༻͍ΔSAE • ຊ࿦จͰ͸DPRͷग़ྗʹSAEΛద༻͠ɺݕࡧʹར༻͢Δಛ௃ʹͭ ͍ͯղऍΛࢼΈΔ • 7 4"&΁ͷೖྗʢ%13ͷग़ྗʣ 4QBSTF-BUFOUT ΤϯίʔμͷॏΈͱόΠΞε߲

SAEͷ܇࿅ઃఆ • ର৅Ϟσϧ: SimML • ର৅σʔληοτ: MS-MARCOͷ܇࿅ηοτ • 8.8Mͷจॻͱ0.5MͷΫΤϦ •

SAEͷධՁ1: ࠶ߏஙͨ͠ϕΫτϧͷ඼࣭ • NMSE: DPRͷຒΊࠐΈͱ࠶ߏஙͨ͠ϕΫτϧͷޡࠩ • ฏۉతͳ׆ੑԽ஋Λ༧ଌͨ͠৔߹ͷޡࠩͰׂͬͨ΋ͷ • MRR, Recall,

SAEͷධՁ1: ࠶ߏஙͨ͠ϕΫτϧͷ඼࣭ • NMSE: DPRͷຒΊࠐΈͱ࠶ߏஙͨ͠ϕΫτϧͷޡࠩ • ฏۉతͳ׆ੑԽ஋Λ༧ଌͨ͠৔߹ͷޡࠩͰׂͬͨ΋ͷ • MRR, Recall,

જࡏม਺ͷઆ໌ੜ੒ • ͦΕͧΕͷજࡏม਺Λ࠷΋ڧ͘׆ੑԽ͢Δจষ30݅ΛGpt4.1-mini ʹ༩͑ɺઆ໌Λੜ੒ • ղऍΛ͠΍͘͢͢ΔͨΊʹɺActivation Valueʹ͸IDFΛ৐ͯ͡ك ͳม਺ͷ஋Λେ͖͘ɺॏཁࢹ͞ΕΔΑ͏ʹ͍ͯ͠Δ 12 ˛જࡏม਺ͷઆ໌

જࡏม਺ͷઆ໌͔Βਓؒ͸ϞσϧΛղऍͰ͖Δ͔ʁ • ৗʹ9ׂҎ্ͷਫ਼౓Ͱɺજࡏม਺ͱͦͷઆ໌͸Ϟσϧͷ༧ଌΛγ ϛϡϨʔγϣϯ͢ΔͨΊʹ໾ཱͭ 14

જࡏม਺ͷઆ໌͔Βਓؒ͸ϞσϧΛղऍͰ͖Δ͔ʁ • ৗʹ9ׂҎ্ͷਫ਼౓Ͱɺજࡏม਺ͱͦͷઆ໌͸Ϟσϧͷ༧ଌΛγ ϛϡϨʔγϣϯ͢ΔͨΊʹ໾ཱͭ 15 Ϟσϧ͕ؒҧ͑ͨྫʹ͍ͭͯ΋Ϟσϧ༧ଌΛ γϛϡϨʔτͰ͖͍ͯΔ -> ͳΜͰؒҧ͔͑ͨʁͱ͔Θ͔Γͦ͏ʁ

Concept-Level Sparse RetrievalͷఏҊ • ͜͜·Ͱͷํ๏Λ֦ு͠ɺજࡏม਺Λ࢖ͬͨݕࡧख๏ΛఏҊ͢Δ • ΫΤϦͱจॻͷؒͷݕࡧείΞ͸ҎԼͰఆٛ • BM25ͷܭࢉࣜΛϕʔεʹิਖ਼Λಋೖ •

Concept-Level Sparse RetrievalͷఏҊ • ͜͜·Ͱͷํ๏Λ֦ு͠ɺજࡏม਺Λ࢖ͬͨݕࡧख๏ΛఏҊ͢Δ • ΫΤϦͱจॻͷؒͷݕࡧείΞ͸ҎԼͰఆٛ • BM25ͷܭࢉࣜΛϕʔεʹิਖ਼Λಋೖ •

ൺֱख๏ • Sparse Retrieval: ୯ޠͷ౷ܭ৘ใΛݩʹͨ͠ߴ଎ͳख๏ • BM25: จॻதͷ୯ޠස౓ʹجͮ͘ख๏ • RM3:

ܭࢉޮ཰ΛଌΔࢦඪ • FLOPs: ΫΤϦͱจॻϖΞ͝ͱͷԋࢉ਺ͷظ଴஋ • D Len: จॻ͝ͱͷฏۉಛ௃ྔ਺ • CL-SRͰ͸જࡏม਺ͷ਺ɻBM25Ͱ͸୯ޠ਺ɺSPLADEͰ͸୯ޠ+

ෳ਺ͷݕࡧσʔληοτʹΑΔධՁ • CL-SR͸Neural Sparse Retrievalͱಉ౳ͷੑೳΛࣔ͠ͳ͕Βߴ͍ ܭࢉޮ཰Λࣔ͢ 20 L L

CL-SR͸ද૚ʹͱΒΘΕͣݕࡧ͕Ͱ͖Δ͔ʁ • MS MARCOதͷBM25͕ؒҧ͑ͨΫΤϦɺ988݅Ͱͷ࣮ݧ • ද૚ϕʔεͷݕࡧ͔͠ߦ͑ͳ͍৔߹ɺ͜ͷσʔληοτͰ͸ੑೳ ͕ൃشͰ͖ͳ͍ • SPLADEΑΓ΋ੑೳ͕ߴ͘ɺજࡏม਺͸ޠኮͱҙຯͷΪϟοϓΛ ຒΊΒΕ͍ͯΔ

BM25͕ղ͚ͣɺCL-SR͕ղ͚ͨ۩ମྫ1 • ΫΤϦͱਖ਼ղจॻʹ͸୯ޠͷॏෳ͕গͳ͘ɺBM25Ͱ͸೉͍͠ • CL-SR͸ਖ਼ղจॻ͔Βද૚ʹͱΒΘΕͳ͍֓೦Λ֫ಘ͠੒ޭ 22 ࢠٶͷղ๤ֶͱ݈߁ ੒௕ͱൃୡ

BM25͕ղ͚ͣɺCL-SR͕ղ͚ͨ۩ମྫ2 • ଟٛޠʢfallʣΛBM25Ͱ͸্ख͘ѻ͑ͳ͍ • CL-SRͰ͸ʮ”fall”ͷଟٛੑʯ΍ʮقઅʯͳͲͷෳ਺ͷજࡏม਺ʹ ҙຯΛ෼ࢄͤ͞੒ޭ 23 fallʢམͪΔʣ͕ෳ਺  ొ৔͢Δจॻ͕ώοτ “fall”ͷଟ༷ͳҙຯ

Appendix: ܇࿅ʹར༻͍ͯ͠ͳ͍υϝΠϯͰͷධՁ • SAEͷ܇࿅࣌ͱҟͳΔυϝΠϯͰɺ࠶ߏங͞ΕͨϕΫτϧ඼࣭Λ ධՁ 24 ˛JOEPNBJOσʔλͰͷධՁʢ53&$͸.4."3$0͔Β੾Γग़ͨ͠σʔλʣ ˛PVUPGEPNBJOσʔλͰͷධՁʢ.4."3$0Ͱ܇࿅ʣ

Appendix: ܇࿅ʹར༻͍ͯ͠ͳ͍υϝΠϯͰͷධՁ • SAEͷ܇࿅࣌ͱҟͳΔυϝΠϯͰɺ࠶ߏங͞ΕͨϕΫτϧ඼࣭Λ ධՁ 25 ˛JOEPNBJOσʔλͰͷධՁʢ53&$͸.4."3$0͔Β੾Γग़ͨ͠σʔλʣ ˛PVUPGEPNBJOσʔλͰͷධՁʢ.4."3$0Ͱ܇࿅ʣ SpearmanͳͲͪΐͬͱ௿͍΋ ͷͷɺ͋Δఔ౓Ͱ͖͍ͯͦ͏

·ͱΊ • DPRͷग़ྗΛSAEΛ༻͍ͯղऍ͠ɺਓखධՁ΋ަ͑ͳ͕ΒɺSAE ʹΑͬͯ֫ಘͨ͠જࡏ֓೦͕ղऍՄೳͳҙຯͷ୯Ґͱͯ͠ػೳ͠ ͍ͯΔ͜ͱΛࣔͨ͠ • જࡏ֓೦͕sparseͰ͋Δ͜ͱ͔Βɺస஍ΠϯσοΫεΛ༻͍ͨߴ ଎ͳݕࡧख๏Concept-Level Sparse Retrieval