Slide 1

Slide 1 text

CEQE: Contextualized Embeddings for Query Expansion Shahrzad Naseri, Jeffrey Dalton, Andrew Yates, James Allan ECIR2021 ALL figures which have no comment are from this paper or made by myself IR READING 2021 発表者 飯田 大貴(東工大/レトリバ)

Slide 2

Slide 2 text

概要 n BERTを用いたクエリ拡張の手法 n Relevance Modelを拡張したすることによって実現 n 特にRecallで効果あり 2

Slide 3

Slide 3 text

モデル 3 n Relevance Modelを考える 𝑝 𝑤 𝜃! ∝ % "∈! 𝑝(𝑤, 𝑄, 𝐷) n 今までの、Relevance Modelはクエリと単語が独立と仮定していたた め、以下のように展開される % "∈! 𝑝(𝑤, 𝑄, 𝐷) = % "∈! 𝑝(𝑤, 𝑄|𝐷)𝑝(𝐷) = % "∈! 𝑝(𝑤|𝐷)𝑝(𝑄|𝐷)𝑝(𝐷) n 今回は、この独立性を仮定しないので、以下のようになる % "∈! 𝑝(𝑤, 𝑄, 𝐷) = % "∈! 𝑝(𝑤|𝑄, 𝐷)𝑝(𝑄|𝐷)𝑝(𝐷)

Slide 4

Slide 4 text

モデル 4 n ここで、𝑝 𝐷 𝑄 ∝ 𝑝 𝑄 𝐷 𝑝(𝐷)より、この部分については、検索上 位の文書を考えれば良い。 n よって、以下𝑝(𝑤|𝑄, 𝐷)を考える。この実現方法として以下2つを考 える l Centroid Representation l Term-based Representation n なお、 単語ごとのembeddingは、word-pieceの平均で作る。

Slide 5

Slide 5 text

Centroid representation 5 n クエリベクトルの平均を使うモデル n この時、以下を𝑝(𝑤|𝑄, 𝐷)とするのが、centroid representation 𝑝(𝑤|𝑄, 𝐷) = ∑ $! "∈%! " 𝛿 𝑸, 𝒎& " ∑ $"∈%" 𝛿 𝑸, 𝒎" n 記号の定義 l Q = 1/|Q| ∑!!∈# 𝒒 とする。この時 𝑄 はクエリのながさ、𝑞$ はword piece、𝒒はそのword pieceの文脈化ベクトルである。 l Dをある1文書、𝑚%をその文書中のある単語。 𝑚& %をその文書での単語w。大文字Mはそ れらの集合。太文字はその単語の文脈化ベクトル l 単語の位置ごとに、その単語がencodeされるベクトルが違うことに注意 l 𝛿(𝑥, 𝑦)をxとyの類似度を取る函数とする(cos-simなど)

Slide 6

Slide 6 text

Term-based Representation 6 n クエリの各単語ごとに考慮するモデル n この時、以下を𝑝(𝑤|𝑄, 𝐷)とするのが、term-based representation 𝑝 𝑤 𝑄, 𝐷 = 𝑓$'(/*+,- (𝑤, 𝑄, 𝐷)/𝑍 n 記号の定義 l 𝑓'() 𝑤, 𝑄, 𝐷 = max !∈# 𝑝 𝑤 𝑞, 𝐷) l 𝑓*+,- 𝑤, 𝑄, 𝐷 = ∏!∈# 𝑝 𝑤 𝑞, 𝐷 l 𝑝 𝑤 𝑞, 𝐷)は以下で定義 𝑝(𝑤|𝑞, 𝐷) = ∑ '" #∈." # 𝛿 𝒒, 𝒎& % ∑ '#∈.# 𝛿 𝒒, 𝒎%

Slide 7

Slide 7 text

実験設定 7 n 使用モデル: Bert-Base-uncased n Max-length=128,文書が 128を超える場合は、128毎にencode n NERで性能が良かった、11layerを使う n Rerankingと組み合わせた場合も実施。その場合は、CEDRを使用 l CEDR: http://arxiv.org/abs/1904.07094 n 対象データセット l Robust: 528K newswire articles l Trec Deep Learning 2019(MSMARCO-Documents)

Slide 8

Slide 8 text

ベースライン 8 n BM25 n BM25+RM3 n BM25+static Embedding l Model: http://dx.doi.org/10.1145/2983323.2983876 n static-embed PRF model l モデルは同じで、語彙をtop-nの文書に出てきたものだけを使う n パラメータ l 考慮するドキュメント数: [5, 100]を5区切りずつ l 拡張単語数: [10, 100] を10区切りずつ l 元のクエリモデルと拡張モデルの重み係数: [0.1, 0.9]を0.05区切りずつ

Slide 9

Slide 9 text

実験結果 9 n クエリ拡張方法で比較 l CEQEが良い。特にMaxPoolが良い l 正解セットでfinetuneしてもあまりかわらない l Recallでの性能向上が顕著 Robust MS-MARCO

Slide 10

Slide 10 text

実験結果 10 n クエリ拡張方法で比較 l CEQEが良い。特にMaxPoolが良い l 正解セットでfinetuneしてもあまりかわらない l Recallでの性能向上が顕著 Robust MS-MARCO

Slide 11

Slide 11 text

実験結果 11 n クエリ拡張方法で比較 l CEQEが良い。特にMaxPoolが良い l 正解セットでfinetuneしてもあまりかわらない l Recallでの性能向上が顕著 Robust MS-MARCO

Slide 12

Slide 12 text

実験結果 12 n Neural reranking(CEDR)と組み合わせた場合(左表) l CEQEは性能向上が見られる。特にrecall n Neural reranking(CEDR)して、クエリ拡張するとより性能が向上する(右表) l 元のランキングと重み平均(interp)するとさらに向上する

Slide 13

Slide 13 text

Appendix 13

Slide 14

Slide 14 text

Intrinsic evaluation 14 n 1単語毎の有効性を[こちら](http://arxiv.org/abs/1811.03514)に沿って、 計測した l good(help retrieval), bad(hruts retrieval), neutral(no effect)に分けた n 全手法のtop1000の単語をpoolして、上記の区分けを行った。性能向 上はrecall@1000で計測 l robustの場合500kの単語が候補とした。 l 少なくとも一つpositive exapnsionを含むクエリのみを対象とした。 l Robustデータセットでは、結果181クエリで、10068のpositive termになった

Slide 15

Slide 15 text

実験結果 15 n Intrinsic evaluation l CEQEは上位単語に良いものた多い。しかし、100番目まで見ると、あまりrelevanceと変 わらない