Upgrade to Pro — share decks privately, control downloads, hide ads and more …

最強DB講義 #35 大規模言語モデルに基づく検索モデル

最強DB講義 #35 大規模言語モデルに基づく検索モデル

BERTやGPTなどの大規模言語モデルに基づく検索モデルは、様々なテストコレクションにおいて優れた性能を発揮し多くの注目を集めている。これまでに様々な検索モデルが提案されてきており、大規模言語モデルの情報検索への適用は、実サービスにおいても一般的なものとなっている。本講義では、大規模言語モデルを利用した検索モデルの基本的な構造について説明し、代表的な検索モデルについて紹介する。特に、DPRやColBERTなどの密検索モデル、SPLADEなどの(教師あり)疎検索モデルについて解説し、最後に大規模言語モデルに基づく検索モデルにおける技術的な課題について概要を述べる

Makoto P. Kato

November 26, 2024
Tweet

Other Decks in Technology

Transcript

  1. • 2012年9月: 京都大学大学院 情報学研究科 博士後期課程 修了 • 2012年10月~2019年3月: 京都大学大学院 情報学研究科

    特定助教/特定講師 • 2019年4月~: 筑波大学 図書館情報メディア系 准教授 • 研究テーマ:情報検索 • 足して2で割る検索 • アナロジーによる検索 • クエリ推薦 • モバイル検索 • 情報検索のオンライン評価 • 統計データ検索 • 大規模言語モデルに基づく検索 • 低資源下における情報検索システム構築 加藤 誠 2 • 最近の学会活動 • SIGIR 2023 PC co-chair • TheWebConf 2024 Search track co-chair • NTCIR General co-chair
  2. • 阿部 健也 ◦ 「Evolutionary Tree of LLM-based IR Models」作成

    ◦ 大規模言語モデルに基づく検索手法の日本語文書検索への適用 (DEIM 2024) ◦ 対話型検索のためのクエリ書き換えにおける大規模言語モデル の効果分析 (NLP 2024) • 薄羽 皐太 ◦ Over-penalization for Extra Information in Neural IR Models (CIKM 2024) ◦ Can a Machine Reading Comprehension Model Improve Ad- hoc Document Retrieval? (ICADL 2022) 貢献者 3
  3. • 情報検索システム ◦ もっとも一般的な応用例 • 質問応答システム(Retrieval Augmented Generation; RAG) ◦

    LLMが持たない知識を外部文書から得ることによって回答生成可能 ◦ ハルシネーションを防ぐための手段としても有効 アドホック検索タスクの応用 5 ‘24年のつくば市の人口は? 質問 文書集合 … アドホック検索 大規模言語モデル コンテキスト 入力 入力 生成 入力 つくば市は人口22万人の都市で… 22万人 回答
  4. アドホック検索タスクにおける大規模言語モデルの効果 6 Craswell et al. TREC Deep Learning Track: Reusable

    Test Collections in the Large Data Regime. SIGIR 2021. TREC Deep Learningトラック における大規模言語モデル (◆nnlm)の性能向上 伝統的モデル(•trad)に 大差をつけている 特にパッセージ検索で顕著
  5. • 例: Towards Personalized and Semantic Retrieval: An End- to-End

    Solution for E-commerce Search via Embedding Learning. SIGIR 2020. (SIRIP paper) • JD.com https://en.wikipedia.org/wiki/JD.com ◦ “When classified as a tech company, it is the largest in China by revenue, and 7th in the world in 2021.” ◦ 2020年時点で4億利用者 ◦ 2021年 収益: 20兆円(参考: Amazon 70兆円) なぜアドホック検索の性能が大事なのか? 7 検索システムを変えただけで +~4,000億円 検索システムの性能が改善された
  6. 多くの検索モデルは各文書についてスコア 𝑠 𝑞, 𝑑 = 𝜙 𝜂𝑞 𝑞 , 𝜂𝑑

    𝑑 を計算して降順に上位𝑘件の文書を選ぶ 情報検索モデルの概念フレームワーク 10 つくば 観光 文書集合𝐷 クエリ𝑞 入力 … クエリ𝑞 文書𝑑 𝜂𝑞 𝜂𝑑 𝜂𝑞 𝑞 𝜂𝑑 𝑑 𝜙 𝑠 𝑞, 𝑑 0.7 クエリテンソル 文書テンソル スコア … 0.7 0.6 0.0 3. 上位𝑘件の文書を出力 つくば 観光 1. 各文書𝑑について スコア 𝑠 𝑞, 𝑑 を計算 2. 文書をスコアの降順にソート Lin. A proposed conceptual framework for a representational approach to information retrieval. ACM SIGIR Forum. Vol. 55. No. 2. 2022. 𝜂𝑞 : クエリエンコーダ, 𝜂𝑑 : 文書エンコーダ, 𝜙: 比較関数
  7. • クエリと文書はBag-of-wordsによって表現され(教師なし), 語彙数次元の疎なベクトルによって表現(疎表現) • スコアは両ベクトルの内積によって計算 •  クエリ中の語が文書に含まれない場合はスコア0 教師なし&疎表現の代表例: BM25

    11 クエリ𝑞 文書𝑑 𝜂𝑞 𝜂𝑑 𝜙 𝑠 𝑞, 𝑑 0.7 クエリ疎ベクトル 𝜂𝑞 𝑞 文書疎ベクトル 𝜂𝑑 𝑑 スコア つくば 観光 内積 つくば 観光 筑波山 TFやIDFによって重み付け Bag-of-words Bag-of-words
  8. • クエリと文書は検索用に学習された大規模言語モデルによって密なベク トルによって表現(教師あり&密表現) • スコアは両ベクトルの内積によって計算 • ☺ クエリと文書に同じ語がない場合でもベクトルが似ていればスコア大 教師あり&密表現の代表例: DPR

    (Dense Passage Retrieval) 12 クエリ𝑞 文書𝑑 𝜂𝑞 𝜂𝑑 𝜙 𝑠 𝑞, 𝑑 0.7 クエリ密ベクトル 𝜂𝑞 𝑞 文書密ベクトル 𝜂𝑑 𝑑 スコア つくば 観光 内積 大規模言語モデル 大規模言語モデル BERTなど BERTなど Karpukhin et al. "Dense passage retrieval for open-domain question answering." EMNLP 2020.
  9. • クエリと文書は検索用に学習された大規模言語モデルによって疎なベク トルによって表現(教師あり&疎表現) • スコアは両ベクトルの内積によって計算 • ☺ クエリ・文書が拡張されるため単語のミスマッチを防げる 教師あり&疎表現の代表例: SPLADE

    (SParse Lexical AnD Expansion) 13 クエリ𝑞 文書𝑑 𝜂𝑞 𝜂𝑑 𝜙 𝑠 𝑞, 𝑑 0.7 クエリ疎ベクトル 𝜂𝑞 𝑞 文書疎ベクトル 𝜂𝑑 𝑑 スコア つくば 観光 内積 大規模言語モデル 大規模言語モデル BERTなど BERTなど Formal et al. "SPLADE: Sparse lexical and expansion model for first stage ranking." SIGIR 2021.
  10. 密表現 疎表現 教師あり表現 DPR, ANCE DeepCT, SPLADE 教師なし表現 LSI, LDA

    BM25, tf-idf 情報検索モデルの分類 14 クエリ𝑞 文書𝑑 𝜂𝑞 𝜂𝑑 𝜂𝑞 𝑞 𝜂𝑑 𝑑 𝜙 𝑠 𝑞, 𝑑 0.7 クエリテンソル 文書テンソル スコア つくば 観光 クエリ・文書が密表現/疎表現されるか? 関数𝜂𝑞 ,𝜂𝑑 が教師あり/教師なしで学習されるか? Lin. A proposed conceptual framework for a representational approach to information retrieval. ACM SIGIR Forum. Vol. 55. No. 2. 2022. 本講義の対象
  11. 2023 2022 2021 2020 2024 Sparse Dense Hybrid Pre-training and

    Zero-shot Negative selection and Distillation Model size Domain adaptation Multi-vector Sparse representation QGen coCondenser SPAR SEED- Encoder GPL EZR QG DPR- PAQ Contriever RetroMAE CoT-MAE Spider Prompt agator LexMAE RetroMAEv2 E5 CoT-MAEv2 SimLM Condenser RepLLama Instructor SGPT OpenAI ada2 GTR ANCE Trans- encoder LED ERNIE- Search Rocket QA Rocket QAv2 TAS-B AR2 DRAGON CL-DRD ME- BERT ColBERT v2 DRPQ DeepImpact SparTerm Doc2Query SpaDE DeepCT ColBERT MVR Query2Doc ColBERTer SparseEmbed Unifier COIL Aggretriever SPLADEv2 SPARTA SPLADE SPLADE++ DPR ADORE + STAR TCT- ColBERT Dr.Boost Evolutionary Tree of LLM-based IR Models Evolutionary Tree of LLM-based IR Models © Kenya Abe E5-mistral ABEL XTR LaPraDoR HyDE
  12. DPR:構造 17 クエリ𝑞 文書𝑑 𝜂𝑞 𝜂𝑑 𝜙 𝑠 𝑞, 𝑑

    0.7 クエリ密ベクトル 𝜂𝑞 𝑞 文書密ベクトル 𝜂𝑑 𝑑 スコア つくば 観光 内積 BERT BERT Karpukhin et al. Dense passage retrieval for open-domain question answering. EMNLP 2020. 𝑠 𝑞, 𝑑 = 𝜙 𝜂𝑞 𝑞 , 𝜂𝑑 𝑑 = BERT [CLS] (𝑞) 𝑞 ∙ BERT [CLS] (𝑑) 𝑑 • 𝜂𝑞 𝑞 ,𝜂𝑑 𝑑 としてBERTのCLSトークンのベクトルを利用 • 𝜙は2つのベクトルの内積 BERTのCLSトークンのベクトル
  13. • Transformerに対してBERT流の事前学習を施したもの • トークン列を入力すると各トークンに対し密なベクトルを出力 BERT (Bidirectional Encoder Representations from Transformers)

    18 つくば が 好き [CLS] … Devlin et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT 2019. BERT ポイント1 CLSトークンに対するベクトルは入力 トークン列全体を表現する(ように事前 学習されている) ポイント2 追加学習(fine-tuning)によってBERT自 体を更新可能(BERT中のパラメータを更 新) 出力 入力
  14. BERTがクエリや文書を適切に表現できているとは限らない → BERTを追加学習(fine-tuning)して適切な表現を獲得 DPR:学習 19 クエリ𝑞 𝜂𝑞 クエリ密ベクトル 𝜂𝑞 𝑞

    つくば 観光 BERT Karpukhin et al. Dense passage retrieval for open-domain question answering. EMNLP 2020. クエリ𝑞 𝜂𝑞 クエリ密ベクトル 𝜂𝑞 𝑞 つくば 観光 Fine-tuned BERT 追加学習(fine-tuning)
  15. Bing検索エンジンに入力された質問形式のクエリと クエリに適合すると判断された文書(パッセージ)のペア 追加学習用データの例:MS MARCO 20 クエリ 適合文書 how much does

    an average person make for tutoring In-home tutors can earn anywhere from $10 to $80 an hour, depending on the type of lesson, the student’s skill and age level and the tutor’s experience. … can you use a calculator on the compass test Calculators may be used on the COMPASS Pre-Algebra, Algebra, College Algebra, Geometry, and Trigonometry tests provided they meet the requirements listed below. Electronic writing pads or pen-input devices. what does physical medicine do Doctor Directory. A physiatrist practices in the field of physiatry - also called physical medicine and rehabilitation - which is a branch of medicine that specializes in diagnosis, … クエリ数: 502,939 (train) / 6,980 (dev) ペア数: 532,761 (train) / 7,437 (dev) 平均して1クエリあたり1適合文書,不適合文書は含まれない
  16. 1. 学習データからいくつかの ペアを選択しミニバッチを 構成 2. ミニバッチ中の各クエリに ついて損失𝐿を計算 3. ミニバッチ中の損失𝐿の和 を最小化するように関数

    𝜂𝑞 ,𝜂𝑑 を更新.1に戻る. DPR:学習の流れ 21 学習データ つくば 観光 つくば お土産 つくば TX 適合 適合 適合 1. ミニバッチ選択 ミニバッチ 2. 損失計算 𝜂𝑞 𝜂𝑑 BERT BERT 3. 関数更新 損失 𝐿 損失 𝐿 損失 𝐿 𝜂𝑞 ′ 𝜂𝑑 ′ BERT BERT
  17. 適合文書のスコアが大きく不適合文書のスコアが小さくなる ように関数𝜂𝑞 ,𝜂𝑑 を学習する DPR:学習のための損失関数 22 𝐿 = − log

    exp 𝑠 𝑞, 𝑑+ exp 𝑠 𝑞, 𝑑+ + σ 𝑗 exp 𝑠 𝑞, 𝑑𝑗 − 適合文書(𝑑+)のスコア →大きくなると𝐿は減少 不適合文書(𝑑−)のスコア →小さくなると𝐿は減少 𝜂𝑞 (𝑞) 𝜂𝑑 (𝑑+) 𝜂𝑑 (𝑑−) 𝜂𝑞 ′ (𝑞) 𝜂𝑑 ′ (𝑑+) 𝜂𝑑 ′ (𝑑−) 学習 学習のイメージ 損失 (負の対数尤度)
  18. MS MARCOなどの学習データには負例(不適合文書)がない → 疑似負例を作成して利用 DPR: 負例の選択 23 • BM25 negatives

    ◦ クエリ𝑞に対する疑似負例として, 𝑞 のBM25による検索結果中の適合文書以外の文書を利用 (適合性判定は網羅的にできないため,正例を負例としてしまう場合も) • In-batch negatives (or random negatives) ◦ クエリ𝑞に対する疑似負例として,同一ミニバッチ中 の𝑞以外のクエリに対する適合文書を採用 ◦ わざわざ負例のスコアを計算せずに済むため効率的 つくば 観光 つくば お土産 つくば TX 適合 適合 適合 ミニバッチ 不適合 不適合
  19. 従来の転置索引による検索の代わりに近似最近傍探索 (Approximate Nearest Neighbor Search; ANN)を利用 DPR:索引付け 24 • 複数のベクトルを索引付けしておき,クエリベクトル𝒒に対し

    てユークリッド距離が最小/内積が最大になるような𝒌個のベ クトルを近似的に返す ◦ e.g., Faiss (https://github.com/facebookresearch/faiss) • 密表現であればANN,疎表現であれば従来の転置索引を利用 ANN 文書 索引 クエリ つくば 観光 検索 𝒌個のベクトル
  20. DPRはBM25よりも高い性能を発揮 上記では見られないが,再現実験ではBM25と組み合わせたときの性能向上が顕著という報告 Ma et al. A replication study of dense

    passage retriever. arXiv:2104.05740, 2021. DPR:質問応答系データセットにおける性能 25 Karpukhin et al. “Dense passage retrieval for open-domain question answering.” EMNLP 2020. の表2に基づき作成 0 20 40 60 80 100 NQ TriviaQA WQ TREC SQuAD Hit@20 (%) BM25 DPR BM25 + DPR
  21. 1. 負例選択方法の改良 ◦ DPRの負例選択:BM25 negatives / In-batch negatives ANCE: 負例の選択に学習中のモデルを活用

    2. クエリ・文書表現の改良 ◦ DPRの表現: 単一のベクトルによる表現 ColBERT: 複数ベクトルでクエリ・文書を表現 密検索モデルの派生 28
  22. DPRの負例選択を改善:学習中の検索モデルの検索結果のうち 適合でない文書を負例として利用 ANCE (Approximate nearest neighbor Negative Contrastive Learning) 29

    Xiong et al. Approximate Nearest Neighbor Negative Contrastive Learning for Dense Text Retrieval ICLR 2021. Random (In-batch) negativesと BM25 negativesは適合文書と明らか に異なる場合があり,負例として使っ てもあまり学習に貢献しない 学習されたモデルにおいて 適合文書に近い負例が 効果的な学習には必要
  23. • In-batch negatives (or random negatives) ◦ クエリ𝑞に対する疑似負例として,同一ミニバッチ 中の𝑞以外のクエリに対する適合文書を採用 •

    BM25 negatives ◦ クエリ𝑞に対する疑似負例として,BM25により 𝑞で検索したときの適合文書以外の文書を採用 • ANCE negatives ◦ クエリ𝑞に対する疑似負例として,学習中の検索 モデルにより𝑞で検索したときの適合文書以外の 文書を採用 負例選択方法のまとめ 30 ミニバッチ つくば 観光 … 適合 適合 検索結果 検索 採用 採用 適合 文書 つくば 観光 学習中 検索モデル 検索結果 検索 採用 適合 文書 つくば 観光 BM25
  24. 1. 学習データからいくつかのペア を選択しミニバッチを構成 2. 現在の関数𝜂𝑞 ,𝜂𝑑 に基づき各ク エリの検索結果を取得し負例を 選択 3.

    ミニバッチ中の各クエリについ て損失𝐿を計算 4. ミニバッチ中の損失𝐿の和を最小 化するように関数 𝜂𝑞 , 𝜂𝑑 を更新. 1に戻る. ANCE:学習の流れ 31 学習データ つくば 観光 … 適合 適合 1. ミニバッチ選択 ミニバッチ 3. 損失計算 𝜂𝑞 𝜂𝑑 BERT BERT 4. 関数更新 損失 𝐿 損失 𝐿 損失 𝐿 𝜂𝑞 ′ 𝜂𝑑 ′ BERT BERT 文書集合 2. 負例選択
  25. クエリ・文書中の各トークンを密ベクトルで表現し それぞれの類似度に基づいてスコアを計算 ColBERT (COntextualized Late interaction over BERT) 32 Khattab

    and Zaharia. Colbert: Efficient and effective passage search via contextualized late interaction over bert. SIGIR 2020. クエリ𝑞 文書𝑑 𝜂𝑞 𝜂𝑑 クエリ密テンソル 𝜂𝑞 𝑞 文書密テンソル𝜂𝑑 𝑑 つくば 観光 大規模言語モデル 大規模言語モデル BERTなど BERTなど つくば 観光 茨城 観光 つくば 観光 𝜙 𝑠 𝑞, 𝑑 0.7 スコア
  26. 𝑠 𝑞, 𝑑 = 𝜙 𝜂𝑞 𝑞 , 𝜂𝑑 𝑑

    = ෍ 𝑖 max 𝑗 𝐪𝑖 ∙ 𝐝𝑗 ただし,𝐪𝑖 /𝐝𝑗 はクエリ/文書の𝑖/𝑗番目のトークンを表すベクトル ColBERTのスコア計算 33 クエリ密テンソル 𝜂𝑞 𝑞 文書密テンソル𝜂𝑑 𝑑 つくば 観光 茨城 観光 つくば 観光 0.6 0.9 0.8 + = 1.7 max max 𝑠 𝑞, 𝑑 スコア 0.8 0.1 0.2 0.2 0.1 0.9 0.6 1. クエリ・文書トークンの 全ペアに対して内積を計算 2. クエリごとの最大値の和をとる
  27. DPRやANCEに比べてColBERTは高い性能を発揮 特にColBERT v2 (Santhanam et al. 2022) ではより最新の手法よりも高い性能を示している ANCE &

    ColBERT:パッセージ検索における性能 34 MARCO Dev Passage 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 BM25 DPR ANCE ColBERT ColBERTv2 MRR@10
  28. 教師あり疎検索モデルの基本アイデア クエリ𝑞 文書𝑑 𝜂𝑞 𝜂𝑑 𝜙 𝑠 𝑞, 𝑑 0.7

    クエリ疎ベクトル 𝜂𝑞 𝑞 文書疎ベクトル 𝜂𝑑 𝑑 スコア つくば 観光 内積 大規模言語モデル 大規模言語モデル 文書𝑑 拡張 つくばの名所は …です。 つくばの名所は …です。観光地 文書𝑑′ ② クエリ・文書の拡張 クエリとその適合文書に共通する 単語がないような場合に対処可能 ① クエリ・文書中の語の重み予測 文脈に基づいて各単語の重みを決めることが可 能.また,従来のヒューリスティックスによる 重み計算ではなくデータに基づく方法. 0.2 0.8 38 DeepCT など doc2query など
  29. 大規模言語モデルによってクエリと文書を拡張し 各トークンの重みを推定 SPLADE (SParse Lexical AnD Expansion) 39 クエリ𝑞 文書𝑑

    𝜂𝑞 𝜂𝑑 𝜙 𝑠 𝑞, 𝑑 0.7 文書疎ベクトル 𝜂𝑑 𝑑 スコア つくば 観光 内積 大規模言語モデル 大規模言語モデル BERTなど BERTなど Formal et al. SPLADE: Sparse lexical and expansion model for first stage ranking. SIGIR 2021. クエリ疎ベクトル 𝜂𝑞 𝑞 クエリ𝑞 つくば 観光 つくば 筑波 観光 名所 拡張 0.9 0.8 0.5 0.3 重み クエリと文書に対して, ① クエリ・文書中の語の重み予測 ② クエリ・文書の拡張
  30. SPLADEの疎表現 40 つくば 観光 MLMヘッド BERT 足し合わせる つくば 観光 名所

    各入力トークンに対して BERTの最後の隠れ層から得られる768次元の密ベクトル 入力 BERTの事前学習においてマスクされた語を予測する ときに使われていた層を利用 語彙数次元の疎ベクトル 各トークンごとに得られる 語彙数次元の疎ベクトルを足したもの 𝜂𝑞
  31. DeepCT < doc2query < SPLADE (< SPLADE v2)という順で良い ただし,SPLADEはクエリ実行時に大規模言語モデルを使用し,かつ, クエリ語・文書語が増加することから効率に関して課題がある

    教師あり疎検索モデル:パッセージ検索における性能 41 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 BM25 DeepCT doc2query SPLADE SPLADEv2 MRR@10 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 BM25 DeepCT doc2query SPLADE SPLADEv2 nDCG@10 Formal et al. SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval. arXiv:2109.10086, 2021. MARCO Dev Passage TREC DL19 Passage Mackenzie et al. Efficient Document-at-a-time and Score-at-a-time Query Evaluation for Learned Sparse Representations. TOIS 2023.
  32. DeepCT < doc2query < SPLADE (< SPLADE v2)という, パッセージ検索と同様の傾向が見られる 教師あり疎検索モデル:BEIRベンチマークにおける性能

    42 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 nDCG@10 BM25 DeepCT doc2query SPLADE SPLADEv2 Thakur et al. BEIR: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models. NeurIPS 2021. Formal et al. SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval. arXiv:2109.10086, 2021.
  33. • 密検索 ◦  DPRやANCEでは,埋め込みによる抽象化によって, クエリ中の固有名詞などの重要な単語が軽視される傾向が報告[1, 2] • 密検索モデルでは著名でないエンティティを含む質問に答えられない [3]

    ◦  既存の転置索引の代わりにANNを使う必要がある • ANNを用いてもBM25などと比べてかなり遅い [4] • BM25や疎検索と比べるとディスク使用量がかなり大きい [4, 5] ◦ ☺ クエリ以外の特徴も埋め込むことが可能(e.g. 個人化 [6]) • 疎検索 ◦ ☺ 従来の転置索引をそのまま利用可能 ◦ ☺ 拡張されたクエリ・文書を確認できるため解釈性が高い ◦  BM25と比べると遅い[4, 7] • 例えばSPLADEはストップワードなどにも高い重み付けを行い, 従来の高速化手法が十分に動作しない[7] ◦  多言語への拡張に課題がある • 現状では,密検索の言語横断検索 > 疎検索の言語横断検索 [8] 密検索モデル vs. 疎検索モデル 43 [1] Karpukhin et al. Dense passage retrieval for open-domain question answering. EMNLP 2020. [2] Xiong et al. Approximate Nearest Neighbor Negative Contrastive Learning for Dense Text Retrieval ICLR 2021. [3] Sciavolino et al. Simple Entity-Centric Questions Challenge Dense Retrievers. EMNLP 2021. [4] Li et al. SLIM: Sparsified Late Interaction for Multi-Vector Retrieval with Inverted Indexes. SIGIR 2023. [5] Lassance and Clinchant. An Efficiency Study for SPLADE Models. SIGIR 2022. [6] Huang et al. Embedding-based Retrieval in Facebook Search. KDD 2020. [7] Mackenzie et al. Efficient Document-at-a-time and Score-at-a-time Query Evaluation for Learned Sparse Representations. TOIS 2023. [8] Nair et al. BLADE: Combining Vocabulary Pruning and Intermediate Pretraining for Scaleable Neural CLIR. SIGIR 2023.
  34. • 特殊ドメインでの性能があまり高くない場合がある → ドメイン特化が必要 ◦ 対策の例: AdaLMによる中間学習 柴田ら. 大規模言語モデルを用いた検索モデルの 中間学習のためのコーパス作成手法.

    NLP 2024. • キーワードによる検索では性能改善が限定的な場合がある → 導入前に評価が必要 ◦ 例: 科学論文検索テストコレクション(NTCIR-2)では、 Open AIの埋め込みやE5などの最新手法がBM25に劣る • 阿部ら. 大規模言語モデルに基づく検索手法の日本語文書検索への適用. DEIM 2024. ◦ 例: 質問文をキーワードに変換すると性能が著しく低下 実利用に向けた課題 44
  35. • mDPR https://huggingface.co/castorini/mdpr-tied-pft-msmarco ◦ Towards Best Practices for Training Multilingual

    Dense Retrieval Models https://arxiv.org/abs/2204.02363 • mContriever https://huggingface.co/facebook/contriever-msmarco ◦ Unsupervised Dense Information Retrieval with Contrastive Learning https://arxiv.org/abs/2112.09118 • JaColBERT https://huggingface.co/bclavie/JaColBERT ◦ Towards Better Monolingual Japanese Retrievers with Multi-Vector Models https://arxiv.org/abs/2312.16144 • SPLADE Japanese v3 https://huggingface.co/aken12/splade-japanese-v3 • Japanese SPLADE v1 https://huggingface.co/hotchpotch/japanese-splade-base-v1 • Ruri https://huggingface.co/collections/cl-nagoya/ruri-japanese-general-text-embeddings- 66cf1f3ee0c8028b89d85b5e ◦ Ruri: Japanese General Text Embeddings https://arxiv.org/abs/2409.07737 日本語リソース 45