$30 off During Our Annual Pro Sale. View details »

Match Your Words! A Study of LexicalMatching in Neural Information Retrieval

Match Your Words! A Study of LexicalMatching in Neural Information Retrieval

IR Reading 2022春で発表した、Match Your Words! A Study of LexicalMatching in Neural Information Retrievalの論文の資料です。
https://sigir.jp/post/2022-05-21-irreading_2022spring/

Hiroki_Iida

May 20, 2022
Tweet

More Decks by Hiroki_Iida

Other Decks in Research

Transcript

  1. Match Your Words! A Study of Lexical Matching in Neural

    Inromation Retrieval ALL figures which have no comment are from this paper or made by myself IR READING 2022 発表者 飯田 大貴(東工大岡崎研/レトリバ) Thibault Formal, Benjamin Piwowarski, and Stephane Clinchant Nave Labs Europe, Sorbonne Universite, CMRS
  2. 背景 n ニューラルネット(Transformer)を使った検索モデルが、BM25など 語彙一致の検索モデルと比較して大きく性能を向上させた n 先行研究の調査によると、ニューラルネットを使ったモデルも、語 彙一致や検索文書におけるタームの頻度に大きく影響を受けること が知られている n しかし、先行研究の調査はモデル特有のものなので、モデル間の比

    較などはできていなかった。また、分析も訓練データ内(MS MARCO)に止まっていた n そこで、モデル間の比較ができる方法を提案し、MS MARCO以外の データでも実施した 2
  3. Robertson-Sparck Jones (RSJ) weight 3 n ラベルを元に推定した、各クエリ中のターム𝑡の重み。本論文中では ある種の理想的な重みとして扱う n 𝑅は、情報要求𝑈のクエリに対する関連文書

  4. Robertson-Sparck Jones (RSJ) weight 4 n ラベルを元に推定した、各クエリ中のターム𝑡の重み。本論文中では ある種の理想的な重みとして扱う n 𝑅は、情報要求𝑈のクエリに対する関連文書

    関連文書における ターム𝑡が含まれる 対数オッズ 非関連文書における ターム𝑡が含まれる 対数オッズ
  5. Robertson-Sparck Jones (RSJ) weight for IR system 5 n IRシステム𝑆におけるRSJ

    weightとして、以下を使用 n 関連文書の代わりにtop-Kを用いる。K=100としている
  6. 理想とシステムの差分 6 n ΔRSJ! > 0であれば、システムはターム𝑡を過剰に重視している。つ まり、ターム𝑡を含む文書を多く上位に出している n ΔRSJ! <

    0であれば、システムはターム𝑡過剰に軽視している n 注意: ΔRSJ! = 0は必ずしも、検索性能が高いことを示さない ΔRSJ- = RSJ-,/ − RSJ-,0
  7. 実験設定 7 n In Domain: MS MARCO l タームの区分け l

    IT: In Training l OOT: Out-of-Training n Out of Domain: TREC-COVID, FiQA l タームの区分け l IDF+ (MSMARCOより対象の検索データで5倍頻度がある) l IDF-(その他) n 使用モデル l 密ベクトル: bi-encoder, TAS-B (Bi-encoderはin-batch-negativeのみを使用) l 疎ベクトル: SPLADE l Inter-Action: ColBERT l 語彙一致: BM25, doc2query-T5(クエリを生成するモデルを学習し、文書拡張する)
  8. モデル概要 8 https://github.com/stanford-futuredata/ColBERT ColBERT SPLADE https://github.com/naver/splade/tree/v0.0.1 https://www.sbert.net/examples/applications/cross-encoder/README.html Bi-Encoder

  9. MS MARCOにおける分析 9 n RQ1: In training (IT) の範囲で、どの程度できているか →ある程度できている。(語彙一致系は全体的にクエリの単語を重視し

    すぎている) どのモデルでも ほぼ変化なし Dense系の手法は 低く見積もる傾向
  10. MS MARCOにおける分析 10 n RQ2: Out-of-Training (OOT) のタームをよく推定できているか →できていない Neural系の手法は

    低く見積もる傾向
  11. 訓練データ外での分析 11 n RQ3:訓練データ外でタームの重みを検索モデルは推定できるか →できていない l ドメイン特有の単語(IDF+)で、低いΔRSJ! になる傾向(赤枠と緑枠の比較) l Dense系の手法で全般的に、ΔRSJ!

    がマイナス傾向(-0.17 for TAS-B and -0.38 for bi-encoder) l 全体的に分散が大きい(0.8 for MS MARCO and 1.1 for TREC-COVID when normalized by BM25 one)
  12. まとめ 12 n ニューラルネットを使った検索モデルによるタームの重要度を分析 n 検索モデルのターム重要度が、訓練データでの出現に依存すること を示した n レアなタームであるほど、ニューラルネットの検索モデルが無視す る傾向にあることを示した

    n 訓練データ外の検索タスクでは、その傾向が強まる