𝑝(𝐷)より、この部分については、検索上 位の文書を考えれば良い。 n よって、以下𝑝(𝑤|𝑄, 𝐷)を考える。この実現方法として以下2つを考 える l Centroid Representation l Term-based Representation n なお、 単語ごとのembeddingは、word-pieceの平均で作る。
n Rerankingと組み合わせた場合も実施。その場合は、CEDRを使用 l CEDR: http://arxiv.org/abs/1904.07094 n 対象データセット l Robust: 528K newswire articles l Trec Deep Learning 2019(MSMARCO-Documents)
Model: http://dx.doi.org/10.1145/2983323.2983876 n static-embed PRF model l モデルは同じで、語彙をtop-nの文書に出てきたものだけを使う n パラメータ l 考慮するドキュメント数: [5, 100]を5区切りずつ l 拡張単語数: [10, 100] を10区切りずつ l 元のクエリモデルと拡張モデルの重み係数: [0.1, 0.9]を0.05区切りずつ
retrieval), neutral(no effect)に分けた n 全手法のtop1000の単語をpoolして、上記の区分けを行った。性能向 上はrecall@1000で計測 l robustの場合500kの単語が候補とした。 l 少なくとも一つpositive exapnsionを含むクエリのみを対象とした。 l Robustデータセットでは、結果181クエリで、10068のpositive termになった