Upgrade to Pro — share decks privately, control downloads, hide ads and more …

CEQE- Contextualized Embeddings for Query Expansion.

Hiroki_Iida
April 23, 2021

CEQE- Contextualized Embeddings for Query Expansion.

Hiroki_Iida

April 23, 2021
Tweet

More Decks by Hiroki_Iida

Other Decks in Science

Transcript

  1. CEQE: Contextualized Embeddings for Query Expansion Shahrzad Naseri, Jeffrey Dalton,

    Andrew Yates, James Allan ECIR2021 ALL figures which have no comment are from this paper or made by myself IR READING 2021 発表者 飯田 大貴(東工大/レトリバ)
  2. モデル 3 n Relevance Modelを考える 𝑝 𝑤 𝜃! ∝ %

    "∈! 𝑝(𝑤, 𝑄, 𝐷) n 今までの、Relevance Modelはクエリと単語が独立と仮定していたた め、以下のように展開される % "∈! 𝑝(𝑤, 𝑄, 𝐷) = % "∈! 𝑝(𝑤, 𝑄|𝐷)𝑝(𝐷) = % "∈! 𝑝(𝑤|𝐷)𝑝(𝑄|𝐷)𝑝(𝐷) n 今回は、この独立性を仮定しないので、以下のようになる % "∈! 𝑝(𝑤, 𝑄, 𝐷) = % "∈! 𝑝(𝑤|𝑄, 𝐷)𝑝(𝑄|𝐷)𝑝(𝐷)
  3. モデル 4 n ここで、𝑝 𝐷 𝑄 ∝ 𝑝 𝑄 𝐷

    𝑝(𝐷)より、この部分については、検索上 位の文書を考えれば良い。 n よって、以下𝑝(𝑤|𝑄, 𝐷)を考える。この実現方法として以下2つを考 える l Centroid Representation l Term-based Representation n なお、 単語ごとのembeddingは、word-pieceの平均で作る。
  4. Centroid representation 5 n クエリベクトルの平均を使うモデル n この時、以下を𝑝(𝑤|𝑄, 𝐷)とするのが、centroid representation 𝑝(𝑤|𝑄,

    𝐷) = ∑ $! "∈%! " 𝛿 𝑸, 𝒎& " ∑ $"∈%" 𝛿 𝑸, 𝒎" n 記号の定義 l Q = 1/|Q| ∑!!∈# 𝒒 とする。この時 𝑄 はクエリのながさ、𝑞$ はword piece、𝒒はそのword pieceの文脈化ベクトルである。 l Dをある1文書、𝑚%をその文書中のある単語。 𝑚& %をその文書での単語w。大文字Mはそ れらの集合。太文字はその単語の文脈化ベクトル l 単語の位置ごとに、その単語がencodeされるベクトルが違うことに注意 l 𝛿(𝑥, 𝑦)をxとyの類似度を取る函数とする(cos-simなど)
  5. Term-based Representation 6 n クエリの各単語ごとに考慮するモデル n この時、以下を𝑝(𝑤|𝑄, 𝐷)とするのが、term-based representation 𝑝

    𝑤 𝑄, 𝐷 = 𝑓$'(/*+,- (𝑤, 𝑄, 𝐷)/𝑍 n 記号の定義 l 𝑓'() 𝑤, 𝑄, 𝐷 = max !∈# 𝑝 𝑤 𝑞, 𝐷) l 𝑓*+,- 𝑤, 𝑄, 𝐷 = ∏!∈# 𝑝 𝑤 𝑞, 𝐷 l 𝑝 𝑤 𝑞, 𝐷)は以下で定義 𝑝(𝑤|𝑞, 𝐷) = ∑ '" #∈." # 𝛿 𝒒, 𝒎& % ∑ '#∈.# 𝛿 𝒒, 𝒎%
  6. 実験設定 7 n 使用モデル: Bert-Base-uncased n Max-length=128,文書が 128を超える場合は、128毎にencode n NERで性能が良かった、11layerを使う

    n Rerankingと組み合わせた場合も実施。その場合は、CEDRを使用 l CEDR: http://arxiv.org/abs/1904.07094 n 対象データセット l Robust: 528K newswire articles l Trec Deep Learning 2019(MSMARCO-Documents)
  7. ベースライン 8 n BM25 n BM25+RM3 n BM25+static Embedding l

    Model: http://dx.doi.org/10.1145/2983323.2983876 n static-embed PRF model l モデルは同じで、語彙をtop-nの文書に出てきたものだけを使う n パラメータ l 考慮するドキュメント数: [5, 100]を5区切りずつ l 拡張単語数: [10, 100] を10区切りずつ l 元のクエリモデルと拡張モデルの重み係数: [0.1, 0.9]を0.05区切りずつ
  8. Intrinsic evaluation 14 n 1単語毎の有効性を[こちら](http://arxiv.org/abs/1811.03514)に沿って、 計測した l good(help retrieval), bad(hruts

    retrieval), neutral(no effect)に分けた n 全手法のtop1000の単語をpoolして、上記の区分けを行った。性能向 上はrecall@1000で計測 l robustの場合500kの単語が候補とした。 l 少なくとも一つpositive exapnsionを含むクエリのみを対象とした。 l Robustデータセットでは、結果181クエリで、10068のpositive termになった