$30 off During Our Annual Pro Sale. View Details »

[IR Reading 2023春 論文紹介] A Unified Framework for Learned Sparse Retrieval (ECIR 2023) /IR-Reading-2023-spring

[IR Reading 2023春 論文紹介] A Unified Framework for Learned Sparse Retrieval (ECIR 2023) /IR-Reading-2023-spring

Published on June 10, 2023
IR Reading 2023春(オンライン) 開催案内 - ACM SIGIR 東京支部: https://sigir.jp/post/2023-06-10-irreading_2023spring/

論文:
Nguyen et al., A Unified Framework for Learned Sparse Retrieval, ECIR 2023, https://dl.acm.org/doi/abs/10.1007/978-3-031-28241-6_7, (arXiv: https://arxiv.org/abs/2303.13416)

リポジトリ:
https://github.com/thongnt99/learned-sparse-retrieval

Kohei Shinden

June 10, 2023
Tweet

More Decks by Kohei Shinden

Other Decks in Research

Transcript

  1. [論⽂紹介]
    A Unified Framework for Learned Sparse Retrieval
    Thong Nguyen1, Sean MacAvaney2, Andrew Yates1
    1University of Amsterdam, 2University of Glasgow
    ECIR 2023
    論⽂紹介する⼈
    筑波⼤学加藤研究室
    新⽥洸平
    https://sites.google.com/view/kohei-shinden
    ※スライド中の図表は論⽂より引⽤
    2023年6⽉10⽇
    IR Reading 2023 春
    ⼀般セッション2 No.3

    View Slide

  2. • Learned Sparse Retrieval のフレームワークと分類を提案
    要素や分類ごとに有効性と効率性を⽐較分析した研究
    どんな論⽂? 2
    実験からわかったこと
    • ⽂書の重み付けが有効性に⼤きく貢献
    • クエリの重み付けは効率性を維持しつつ有効性に貢献
    • クエリ拡張と⽂書拡張を両⽅⾏うと効果が相殺されることを確認
    LSR フレームワークの要素 LSR の分類
    • エンコーダ
    • 正則化
    • 教師
    クエリと⽂書に対する
    拡張と重み付けから4つに分類

    View Slide

  3. • Learned Sparse Retrieval (LSR)とは
    データセットから単語の重要度を学習し利⽤するスパース検索
    ‒ 現在主流である転置インデックスベースの⼿法をそのまま利⽤可能
    ‒ 重要度の学習には BERT などの Transformer ベースのモデルを利⽤
    ‒ 代表的な⼿法: SPLADE, DeepCT, uniCOIL, TILDE, EPIC etc.
    Learned Sparse Retrieval とは? 3
    BM25 を LSR 的に考えると IDF を Query Encoder,
    TF を Document Encoder と捉えられる
    (LSR では重み付けを⾏う Encoder が Transformer)

    View Slide

  4. • LSR フレームワークの構成要素としてエンコーダ, 正則化,
    教師(Supervision) の3要素を提⽰
    Learned Sparse Retrieval の構成要素 4
    エンコーダ
    Binary
    MLP
    expMLP
    MLM
    clsMLM
    正則化
    FLOPs
    Lp
    Norm
    Top-K
    教師
    Negatives
    Label
    教師の構成
    エンコーダにおける構成
    MLP: Multilayer perceptron
    MLM: Masked Language Model

    View Slide

  5. クエリと⽂書に対する拡張と重み付けを軸に
    LSR ⼿法を4グループに分類
    Learned Sparse Retrieval の分類 5
    クエリと⽂書で拡張なし
    クエリと⽂書で重み付けあり
    クエリ拡張はなし
    ⽂書拡張はあり
    クエリと⽂書で重み付けあり
    クエリ拡張はなし
    ⽂書拡張はあり
    クエリで重み付けなし
    ⽂書で重み付けあり
    クエリと⽂書で拡張あり
    クエリと⽂書で重み付けあり
    拡張
    • あり:MLM, expMLP
    • なし:MLP, BINARY
    重み付け
    • あり:MLP , expMLP, MLM
    • なし:BINARY

    View Slide

  6. リサーチクエスチョン 6
    既存 LSR ⼿法における結果は再現可能か?
    →既存⼿法とほぼ同等の性能で再現可能
    既存⼿法 + 最新の学習⼿法でパフォーマンスはどうなるか?
    →ハードネガティブのマイニングやクロスエンコーダからの蒸留
    を取り⼊れることで既存⼿法の性能も⼤きく向上
    エンコーダアーキテクチャの違いはどう影響するか?
    →拡張・重み付け・正則化を⽐較した結果,⽂書の重み付けが
    ⼤きな効果を⽰し,クエリ拡張と⽂書拡張を同時に⾏うと
    効果が相殺されることがわかった
    RQ1
    RQ2
    RQ3

    View Slide

  7. MSMarco dev においてMRR@10 のスコアを原著論⽂と
    ほぼ同等のスコアで再現可能であることが⽰されている
    RQ1:既存の LSR 研究の再現可能性
    distilSplademax

    最も良い性能を⽰す
    7
    MSMarco dev における原著論⽂と再現の⽐較結果
    スコアの差分
    クエリと⽂書で拡張あり
    クエリと⽂書で重み付けあり
    問題としてRQ1の実験では原著論⽂に合
    わせていることで環境のばらつきが残る
    最も低い性能

    View Slide

  8. 学習環境を揃えてハードネガティブマイニングと蒸留を
    適⽤した結果は性能向上しつつ RQ1 と同様の結果になる
    RQ2:最新の学習⼿法を適⽤した際の既存⼿法の性能 8
    最も低い性能だが
    効率は最も良い
    最も良い性能を⽰すが
    効率性が悪い
    学習環境を統⼀することで効率性を確認
    レイテンシ
    • エンコード速度
    • 検索速度

    View Slide

  9. ⽂書の重み付けが最も有効
    インデックスサイズとレイテンシを抑えつつ性能を⼤きく向上
    RQ3:LSR アーキテクチャの構成と影響(重み付け)
    クエリの重み付けはインデックスサイズと
    レイテンシを抑えつつある程度の性能向上
    9

    View Slide

  10. クエリ拡張と⽂書拡張は両⽅⾏うと効果が相殺
    どちらか⼀⽅のみで効率性を抑えつつ性能を向上
    RQ3: LSR アーキテクチャの構成と影響(拡張)1/2
    クエリ拡張なし⽂書拡張あり
    クエリ拡張あり⽂書拡張なし
    クエリ拡張のみがインデックスサイズも増やさず
    レイテンシもある程度の増加で性能向上しているため
    最も良い選択であるように⾒える
    10
    3a と 4a について,構成は同じで値が違うのは焦点を当てているモデルの違い

    View Slide

  11. クエリエンコーダを MLM → MLP に変更して
    クエリ拡張を⾏わない場合でも性能に差はなくレイテンシが改善
    RQ3: LSR アーキテクチャの構成と影響(拡張)2/2
    クエリ拡張なし
    distilSpladeqMLP
    は distilSpladesep
    のクエリエンコーダを MLM(BERT etc.) → MLP に置き換えたもの
    11

    View Slide

  12. • Learned Sparse Retrieval のフレームワークと分類を提案
    要素や分類ごとに有効性と効率性を⽐較分析した研究
    まとめ 12
    実験からわかったこと
    • ⽂書の重み付けが有効性に⼤きく貢献
    • クエリの重み付けは効率性を維持しつつ有効性に貢献
    • クエリ拡張と⽂書拡張を両⽅⾏うと効果が相殺されることを確認
    LSR フレームワークの要素 LSR の分類
    クエリと⽂書に対する
    拡張と重み付けから4つに分類
    • エンコーダ
    • 正則化
    • 教師

    View Slide