Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Match Your Words! A Study of LexicalMatching in Neural Information Retrieval

Match Your Words! A Study of LexicalMatching in Neural Information Retrieval

IR Reading 2022春で発表した、Match Your Words! A Study of LexicalMatching in Neural Information Retrievalの論文の資料です。
https://sigir.jp/post/2022-05-21-irreading_2022spring/

Hiroki_Iida

May 20, 2022
Tweet

More Decks by Hiroki_Iida

Other Decks in Research

Transcript

  1. Match Your Words! A Study of Lexical Matching in Neural

    Inromation Retrieval ALL figures which have no comment are from this paper or made by myself IR READING 2022 発表者 飯田 大貴(東工大岡崎研/レトリバ) Thibault Formal, Benjamin Piwowarski, and Stephane Clinchant Nave Labs Europe, Sorbonne Universite, CMRS
  2. Robertson-Sparck Jones (RSJ) weight for IR system 5 n IRシステム𝑆におけるRSJ

    weightとして、以下を使用 n 関連文書の代わりにtop-Kを用いる。K=100としている
  3. 理想とシステムの差分 6 n ΔRSJ! > 0であれば、システムはターム𝑡を過剰に重視している。つ まり、ターム𝑡を含む文書を多く上位に出している n ΔRSJ! <

    0であれば、システムはターム𝑡過剰に軽視している n 注意: ΔRSJ! = 0は必ずしも、検索性能が高いことを示さない ΔRSJ- = RSJ-,/ − RSJ-,0
  4. 実験設定 7 n In Domain: MS MARCO l タームの区分け l

    IT: In Training l OOT: Out-of-Training n Out of Domain: TREC-COVID, FiQA l タームの区分け l IDF+ (MSMARCOより対象の検索データで5倍頻度がある) l IDF-(その他) n 使用モデル l 密ベクトル: bi-encoder, TAS-B (Bi-encoderはin-batch-negativeのみを使用) l 疎ベクトル: SPLADE l Inter-Action: ColBERT l 語彙一致: BM25, doc2query-T5(クエリを生成するモデルを学習し、文書拡張する)