;<= 0 $,'# ;<= 0 $,'# >∑$ ;<= 0 $,'$ % l 正例の文書: 𝑑>, 負例の文書: {𝑑@ A, 𝑑B A, … , 𝑑. A, … } n 負例作成方法: in-batch negative + bm25-negative l In-batch negative: batch中の他の正例の文書を負例として扱う l bm25-negative: bm25の検索結果で正例ではないものを負例として扱う n 対象タスク・訓練データ l MSMARCO Passageタスク: MSMARCO Passage l MSMARCO Documentタスク: MSMARCO Document
BERTを使い単語の重みを学習する方法 l DocT5Query: T5を使い、文書からクエリを生成し、文書拡張を行う方法。ランキングはBM25を 使用 n Dense Retriever: クエリと文書のベクトル表現で検索するもの n ColBERT: 全tokenの文脈化ベクトルを使用するもの n BERT Reranker: BM25のtop1000をBERTでrerankingする方法
n DocT5Queryで語彙を拡張しておくと、Vocabulary mismatchが減り さらに良い Jimmy Lin: A Few Brief Notes on DeepImpact, COIL, and a Conceptual Framework for Information Retrieval Techniquesより DeepImpact: 単語重みを 学習する別の手法