Slide 1

Slide 1 text

[論⽂紹介] A Unified Framework for Learned Sparse Retrieval Thong Nguyen1, Sean MacAvaney2, Andrew Yates1 1University of Amsterdam, 2University of Glasgow ECIR 2023 論⽂紹介する⼈ 筑波⼤学加藤研究室 新⽥洸平 https://sites.google.com/view/kohei-shinden ※スライド中の図表は論⽂より引⽤ 2023年6⽉10⽇ IR Reading 2023 春 ⼀般セッション2 No.3

Slide 2

Slide 2 text

• Learned Sparse Retrieval のフレームワークと分類を提案 要素や分類ごとに有効性と効率性を⽐較分析した研究 どんな論⽂? 2 実験からわかったこと • ⽂書の重み付けが有効性に⼤きく貢献 • クエリの重み付けは効率性を維持しつつ有効性に貢献 • クエリ拡張と⽂書拡張を両⽅⾏うと効果が相殺されることを確認 LSR フレームワークの要素 LSR の分類 • エンコーダ • 正則化 • 教師 クエリと⽂書に対する 拡張と重み付けから4つに分類

Slide 3

Slide 3 text

• Learned Sparse Retrieval (LSR)とは データセットから単語の重要度を学習し利⽤するスパース検索 ‒ 現在主流である転置インデックスベースの⼿法をそのまま利⽤可能 ‒ 重要度の学習には BERT などの Transformer ベースのモデルを利⽤ ‒ 代表的な⼿法: SPLADE, DeepCT, uniCOIL, TILDE, EPIC etc. Learned Sparse Retrieval とは? 3 BM25 を LSR 的に考えると IDF を Query Encoder, TF を Document Encoder と捉えられる (LSR では重み付けを⾏う Encoder が Transformer)

Slide 4

Slide 4 text

• LSR フレームワークの構成要素としてエンコーダ, 正則化, 教師(Supervision) の3要素を提⽰ Learned Sparse Retrieval の構成要素 4 エンコーダ Binary MLP expMLP MLM clsMLM 正則化 FLOPs Lp Norm Top-K 教師 Negatives Label 教師の構成 エンコーダにおける構成 MLP: Multilayer perceptron MLM: Masked Language Model

Slide 5

Slide 5 text

クエリと⽂書に対する拡張と重み付けを軸に LSR ⼿法を4グループに分類 Learned Sparse Retrieval の分類 5 クエリと⽂書で拡張なし クエリと⽂書で重み付けあり クエリ拡張はなし ⽂書拡張はあり クエリと⽂書で重み付けあり クエリ拡張はなし ⽂書拡張はあり クエリで重み付けなし ⽂書で重み付けあり クエリと⽂書で拡張あり クエリと⽂書で重み付けあり 拡張 • あり:MLM, expMLP • なし:MLP, BINARY 重み付け • あり:MLP , expMLP, MLM • なし:BINARY

Slide 6

Slide 6 text

リサーチクエスチョン 6 既存 LSR ⼿法における結果は再現可能か? →既存⼿法とほぼ同等の性能で再現可能 既存⼿法 + 最新の学習⼿法でパフォーマンスはどうなるか? →ハードネガティブのマイニングやクロスエンコーダからの蒸留 を取り⼊れることで既存⼿法の性能も⼤きく向上 エンコーダアーキテクチャの違いはどう影響するか? →拡張・重み付け・正則化を⽐較した結果,⽂書の重み付けが ⼤きな効果を⽰し,クエリ拡張と⽂書拡張を同時に⾏うと 効果が相殺されることがわかった RQ1 RQ2 RQ3

Slide 7

Slide 7 text

MSMarco dev においてMRR@10 のスコアを原著論⽂と ほぼ同等のスコアで再現可能であることが⽰されている RQ1:既存の LSR 研究の再現可能性 distilSplademax が 最も良い性能を⽰す 7 MSMarco dev における原著論⽂と再現の⽐較結果 スコアの差分 クエリと⽂書で拡張あり クエリと⽂書で重み付けあり 問題としてRQ1の実験では原著論⽂に合 わせていることで環境のばらつきが残る 最も低い性能

Slide 8

Slide 8 text

学習環境を揃えてハードネガティブマイニングと蒸留を 適⽤した結果は性能向上しつつ RQ1 と同様の結果になる RQ2:最新の学習⼿法を適⽤した際の既存⼿法の性能 8 最も低い性能だが 効率は最も良い 最も良い性能を⽰すが 効率性が悪い 学習環境を統⼀することで効率性を確認 レイテンシ • エンコード速度 • 検索速度

Slide 9

Slide 9 text

⽂書の重み付けが最も有効 インデックスサイズとレイテンシを抑えつつ性能を⼤きく向上 RQ3:LSR アーキテクチャの構成と影響(重み付け) クエリの重み付けはインデックスサイズと レイテンシを抑えつつある程度の性能向上 9

Slide 10

Slide 10 text

クエリ拡張と⽂書拡張は両⽅⾏うと効果が相殺 どちらか⼀⽅のみで効率性を抑えつつ性能を向上 RQ3: LSR アーキテクチャの構成と影響(拡張)1/2 クエリ拡張なし⽂書拡張あり クエリ拡張あり⽂書拡張なし クエリ拡張のみがインデックスサイズも増やさず レイテンシもある程度の増加で性能向上しているため 最も良い選択であるように⾒える 10 3a と 4a について,構成は同じで値が違うのは焦点を当てているモデルの違い

Slide 11

Slide 11 text

クエリエンコーダを MLM → MLP に変更して クエリ拡張を⾏わない場合でも性能に差はなくレイテンシが改善 RQ3: LSR アーキテクチャの構成と影響(拡張)2/2 クエリ拡張なし distilSpladeqMLP は distilSpladesep のクエリエンコーダを MLM(BERT etc.) → MLP に置き換えたもの 11

Slide 12

Slide 12 text

• Learned Sparse Retrieval のフレームワークと分類を提案 要素や分類ごとに有効性と効率性を⽐較分析した研究 まとめ 12 実験からわかったこと • ⽂書の重み付けが有効性に⼤きく貢献 • クエリの重み付けは効率性を維持しつつ有効性に貢献 • クエリ拡張と⽂書拡張を両⽅⾏うと効果が相殺されることを確認 LSR フレームワークの要素 LSR の分類 クエリと⽂書に対する 拡張と重み付けから4つに分類 • エンコーダ • 正則化 • 教師