Slide 1

Slide 1 text

Match Your Words! A Study of Lexical Matching in Neural Inromation Retrieval ALL figures which have no comment are from this paper or made by myself IR READING 2022 発表者 飯田 大貴(東工大岡崎研/レトリバ) Thibault Formal, Benjamin Piwowarski, and Stephane Clinchant Nave Labs Europe, Sorbonne Universite, CMRS

Slide 2

Slide 2 text

背景 n ニューラルネット(Transformer)を使った検索モデルが、BM25など 語彙一致の検索モデルと比較して大きく性能を向上させた n 先行研究の調査によると、ニューラルネットを使ったモデルも、語 彙一致や検索文書におけるタームの頻度に大きく影響を受けること が知られている n しかし、先行研究の調査はモデル特有のものなので、モデル間の比 較などはできていなかった。また、分析も訓練データ内(MS MARCO)に止まっていた n そこで、モデル間の比較ができる方法を提案し、MS MARCO以外の データでも実施した 2

Slide 3

Slide 3 text

Robertson-Sparck Jones (RSJ) weight 3 n ラベルを元に推定した、各クエリ中のターム𝑡の重み。本論文中では ある種の理想的な重みとして扱う n 𝑅は、情報要求𝑈のクエリに対する関連文書

Slide 4

Slide 4 text

Robertson-Sparck Jones (RSJ) weight 4 n ラベルを元に推定した、各クエリ中のターム𝑡の重み。本論文中では ある種の理想的な重みとして扱う n 𝑅は、情報要求𝑈のクエリに対する関連文書 関連文書における ターム𝑡が含まれる 対数オッズ 非関連文書における ターム𝑡が含まれる 対数オッズ

Slide 5

Slide 5 text

Robertson-Sparck Jones (RSJ) weight for IR system 5 n IRシステム𝑆におけるRSJ weightとして、以下を使用 n 関連文書の代わりにtop-Kを用いる。K=100としている

Slide 6

Slide 6 text

理想とシステムの差分 6 n ΔRSJ! > 0であれば、システムはターム𝑡を過剰に重視している。つ まり、ターム𝑡を含む文書を多く上位に出している n ΔRSJ! < 0であれば、システムはターム𝑡過剰に軽視している n 注意: ΔRSJ! = 0は必ずしも、検索性能が高いことを示さない ΔRSJ- = RSJ-,/ − RSJ-,0

Slide 7

Slide 7 text

実験設定 7 n In Domain: MS MARCO l タームの区分け l IT: In Training l OOT: Out-of-Training n Out of Domain: TREC-COVID, FiQA l タームの区分け l IDF+ (MSMARCOより対象の検索データで5倍頻度がある) l IDF-(その他) n 使用モデル l 密ベクトル: bi-encoder, TAS-B (Bi-encoderはin-batch-negativeのみを使用) l 疎ベクトル: SPLADE l Inter-Action: ColBERT l 語彙一致: BM25, doc2query-T5(クエリを生成するモデルを学習し、文書拡張する)

Slide 8

Slide 8 text

モデル概要 8 https://github.com/stanford-futuredata/ColBERT ColBERT SPLADE https://github.com/naver/splade/tree/v0.0.1 https://www.sbert.net/examples/applications/cross-encoder/README.html Bi-Encoder

Slide 9

Slide 9 text

MS MARCOにおける分析 9 n RQ1: In training (IT) の範囲で、どの程度できているか →ある程度できている。(語彙一致系は全体的にクエリの単語を重視し すぎている) どのモデルでも ほぼ変化なし Dense系の手法は 低く見積もる傾向

Slide 10

Slide 10 text

MS MARCOにおける分析 10 n RQ2: Out-of-Training (OOT) のタームをよく推定できているか →できていない Neural系の手法は 低く見積もる傾向

Slide 11

Slide 11 text

訓練データ外での分析 11 n RQ3:訓練データ外でタームの重みを検索モデルは推定できるか →できていない l ドメイン特有の単語(IDF+)で、低いΔRSJ! になる傾向(赤枠と緑枠の比較) l Dense系の手法で全般的に、ΔRSJ! がマイナス傾向(-0.17 for TAS-B and -0.38 for bi-encoder) l 全体的に分散が大きい(0.8 for MS MARCO and 1.1 for TREC-COVID when normalized by BM25 one)

Slide 12

Slide 12 text

まとめ 12 n ニューラルネットを使った検索モデルによるタームの重要度を分析 n 検索モデルのターム重要度が、訓練データでの出現に依存すること を示した n レアなタームであるほど、ニューラルネットの検索モデルが無視す る傾向にあることを示した n 訓練データ外の検索タスクでは、その傾向が強まる