[IR Reading 2023春論文紹介] A Unified Framework for Learned Sparse Retrieval (ECIR 2023) /IR-Reading-2023-spring

Slide 1

Slide 1 text

[論⽂紹介] A Unified Framework for Learned Sparse Retrieval Thong Nguyen1, Sean MacAvaney2, Andrew Yates1 1University of Amsterdam, 2University of Glasgow ECIR 2023 論⽂紹介する⼈筑波⼤学加藤研究室新⽥洸平 https://sites.google.com/view/kohei-shinden ※スライド中の図表は論⽂より引⽤ 2023年6⽉10⽇ IR Reading 2023 春⼀般セッション2 No.3

Slide 2

Slide 2 text

• Learned Sparse Retrieval のフレームワークと分類を提案要素や分類ごとに有効性と効率性を⽐較分析した研究どんな論⽂？ 2 実験からわかったこと • ⽂書の重み付けが有効性に⼤きく貢献 • クエリの重み付けは効率性を維持しつつ有効性に貢献 • クエリ拡張と⽂書拡張を両⽅⾏うと効果が相殺されることを確認 LSR フレームワークの要素 LSR の分類 • エンコーダ • 正則化 • 教師クエリと⽂書に対する拡張と重み付けから４つに分類

Slide 3

Slide 3 text

• Learned Sparse Retrieval (LSR)とはデータセットから単語の重要度を学習し利⽤するスパース検索 ‒ 現在主流である転置インデックスベースの⼿法をそのまま利⽤可能 ‒ 重要度の学習には BERT などの Transformer ベースのモデルを利⽤ ‒ 代表的な⼿法: SPLADE, DeepCT, uniCOIL, TILDE, EPIC etc. Learned Sparse Retrieval とは？ 3 BM25 を LSR 的に考えると IDF を Query Encoder， TF を Document Encoder と捉えられる（LSR では重み付けを⾏う Encoder が Transformer）

Slide 4

Slide 4 text

• LSR フレームワークの構成要素としてエンコーダ, 正則化, 教師(Supervision) の３要素を提⽰ Learned Sparse Retrieval の構成要素 4 エンコーダ Binary MLP expMLP MLM clsMLM 正則化 FLOPs Lp Norm Top-K 教師 Negatives Label 教師の構成エンコーダにおける構成 MLP: Multilayer perceptron MLM: Masked Language Model

Slide 5

Slide 5 text

クエリと⽂書に対する拡張と重み付けを軸に LSR ⼿法を４グループに分類 Learned Sparse Retrieval の分類 5 クエリと⽂書で拡張なしクエリと⽂書で重み付けありクエリ拡張はなし⽂書拡張はありクエリと⽂書で重み付けありクエリ拡張はなし⽂書拡張はありクエリで重み付けなし⽂書で重み付けありクエリと⽂書で拡張ありクエリと⽂書で重み付けあり拡張 • あり：MLM, expMLP • なし：MLP, BINARY 重み付け • あり：MLP , expMLP, MLM • なし：BINARY

Slide 6

Slide 6 text

リサーチクエスチョン 6 既存 LSR ⼿法における結果は再現可能か？ →既存⼿法とほぼ同等の性能で再現可能既存⼿法 + 最新の学習⼿法でパフォーマンスはどうなるか？ →ハードネガティブのマイニングやクロスエンコーダからの蒸留を取り⼊れることで既存⼿法の性能も⼤きく向上エンコーダアーキテクチャの違いはどう影響するか？ →拡張・重み付け・正則化を⽐較した結果，⽂書の重み付けが⼤きな効果を⽰し，クエリ拡張と⽂書拡張を同時に⾏うと効果が相殺されることがわかった RQ1 RQ2 RQ3

Slide 7

Slide 7 text

MSMarco dev においてMRR@10 のスコアを原著論⽂とほぼ同等のスコアで再現可能であることが⽰されている RQ1：既存の LSR 研究の再現可能性 distilSplademax が最も良い性能を⽰す 7 MSMarco dev における原著論⽂と再現の⽐較結果スコアの差分クエリと⽂書で拡張ありクエリと⽂書で重み付けあり問題としてRQ1の実験では原著論⽂に合わせていることで環境のばらつきが残る最も低い性能

Slide 8

Slide 8 text

学習環境を揃えてハードネガティブマイニングと蒸留を適⽤した結果は性能向上しつつ RQ1 と同様の結果になる RQ2：最新の学習⼿法を適⽤した際の既存⼿法の性能 8 最も低い性能だが効率は最も良い最も良い性能を⽰すが効率性が悪い学習環境を統⼀することで効率性を確認レイテンシ • エンコード速度 • 検索速度

Slide 9

Slide 9 text

⽂書の重み付けが最も有効インデックスサイズとレイテンシを抑えつつ性能を⼤きく向上 RQ3：LSR アーキテクチャの構成と影響（重み付け）クエリの重み付けはインデックスサイズとレイテンシを抑えつつある程度の性能向上 9

Slide 10

Slide 10 text

クエリ拡張と⽂書拡張は両⽅⾏うと効果が相殺どちらか⼀⽅のみで効率性を抑えつつ性能を向上 RQ3： LSR アーキテクチャの構成と影響（拡張）1/2 クエリ拡張なし⽂書拡張ありクエリ拡張あり⽂書拡張なしクエリ拡張のみがインデックスサイズも増やさずレイテンシもある程度の増加で性能向上しているため最も良い選択であるように⾒える 10 3a と 4a について，構成は同じで値が違うのは焦点を当てているモデルの違い

Slide 11

Slide 11 text

クエリエンコーダを MLM → MLP に変更してクエリ拡張を⾏わない場合でも性能に差はなくレイテンシが改善 RQ3： LSR アーキテクチャの構成と影響（拡張）2/2 クエリ拡張なし distilSpladeqMLP は distilSpladesep のクエリエンコーダを MLM(BERT etc.) → MLP に置き換えたもの 11

Slide 12

Slide 12 text

• Learned Sparse Retrieval のフレームワークと分類を提案要素や分類ごとに有効性と効率性を⽐較分析した研究まとめ 12 実験からわかったこと • ⽂書の重み付けが有効性に⼤きく貢献 • クエリの重み付けは効率性を維持しつつ有効性に貢献 • クエリ拡張と⽂書拡張を両⽅⾏うと効果が相殺されることを確認 LSR フレームワークの要素 LSR の分類クエリと⽂書に対する拡張と重み付けから４つに分類 • エンコーダ • 正則化 • 教師