Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介: "Leveraging Multi-view Interpassage Interactions for Neural Document Ranking (WSDM2022)"

keyakkie
November 19, 2022

論文紹介: "Leveraging Multi-view Interpassage Interactions for Neural Document Ranking (WSDM2022)"

IR Reading 2022 春にて紹介した "Leveraging Multi-view Interpassage Interactions for Neural Document Ranking (WSDM2022)" の概要スライドです.複数粒度 (単語・文・パッセージ) の情報やパッセージ間の関係を考慮したニューラル文書検索の研究です.不適切な記述などがあればご指摘頂ければ幸いです .

keyakkie

November 19, 2022
Tweet

More Decks by keyakkie

Other Decks in Technology

Transcript

  1. 欅 惇志
    ⼀橋⼤学
    [email protected]
    Leveraging Multi-view Inter-
    passage Interactions for Neural
    Document Ranking
    (WSDM2022)
    *33FBEJOHय़
    ※ 図表は論⽂中・Web からの引⽤

    View Slide

  2. 前提知識-パッセージ検索
    • パッセージ:⽂書の⼀部分
    o 連続する n ⽂
    o 連続する m 単語
    o パラグラフ
    o タグで囲まれたテキスト
    • 例:HTML の p タグ
    2022.5.21 2
    ⽂書検索
    ⽂書を単位とした検索
    各⽂書をスコアリング
    d1
    d2
    d3
    パッセージ検索
    パッセージを単位とした検索
    d1
    d2
    d3
    0.3 0.8 0.6
    p1,1
    p1,2
    p2,1
    p2,2
    p2,3
    p3,1
    p3,2
    各パッセージをスコアリング
    ⽂書中の適合箇所のみを提⽰
    0.1
    0.4
    0.7
    0.3
    0.9
    0.4
    0.8
    パッセージの重複
    なし I moved to Hit Univ. this April.
    あり I moved to Hit Univ. this April.
    p1
    p2
    p3

    View Slide

  3. 前提知識-パッセージを⽤いた⽂書検索
    2022.5.21 3
    パッセージを⽤いた⽂書検索
    IRReading2022春
    • 各パッセージをスコアリング
    • 各パッセージのスコアを⽤いて⽂書のスコアリング
    o sum, max などの単純な集約演算,LSTM
    o pooling, 注意,階層情報などを使った複雑なモデルもある
    d1
    d2
    d3
    p1,1
    p1,2
    p2,1
    p2,2
    p2,3
    p3,1
    p3,2
    0.1
    0.4
    0.7
    0.3
    0.9
    0.4
    0.8
    0.3 0.8 0.6
    本論⽂のタスクはこれ

    View Slide

  4. タイトルを分解
    • タイトル
    o Leveraging Multi-view Inter-passage Interactions
    for Neural Document Ranking
    • Multi-view
    o 単語レベル,⽂レベル,パッセージレベルを考慮
    • Inter-passage Interactions
    o パッセージ間の (語の) 関係を考慮
    • Neural Document Ranking
    o 深層学習 (Transformer) ベースの⽂書ランキング
    2022.5.21
    IRReading2022春 4
    キーアイデアはこれ

    View Slide

  5. モチベーション
    2022.5.21
    IRReading2022春 5
    1. 他のパッセージから
    共参照関係を利⽤したい
    2. パッセージを俯瞰して
    ⽂書のコアトピックを
    考慮したい
    p2
    :Land of Enchantment は
    ニューメキシコのニックネーム
    pk
    :ニューメキシコの説明
    d1
    :肥満 (obesity) の結果を列挙
    d2
    :肥満対策

    View Slide

  6. アーキテクチャ
    2022.5.21 6
    PRF で
    重要語抽出
    特殊トークン
    フル
    結合
    Pivot 語のみ
    使った注意
    各レベルの
    埋め込みを集約

    View Slide

  7. リンキングによるグラフ構築
    2022.5.21
    IRReading2022春 7
    語レベル ⽂レベル
    パッセージ
    レベル
    同⼀エンティティと定義
    共通語:肥満
    (obesity)
    語・⽂レベルで
    リンクあり

    View Slide

  8. 実験結果
    2022.5.21
    IRReading2022春 8
    • すべてのデータセット・評価尺度で (同条
    件の) 他の⼿法で統計的有意に性能改善

    View Slide

  9. アブレーションスタディ
    • 設定
    o MIR = intra- + inter- passage interactions
    o inter (graph) = p2p (パッセージ) +s2s (⽂) +t2t (語)
    • inter-passage interaction があると性能向上
    • いずれのレベルの埋め込みも有⽤
    2022.5.21
    IRReading2022春 9

    View Slide

  10. 効率と効果のトレードオフ
    • トークン⻑ (512〜2k) を変えて評価
    o 尺度:スループット (処理⽂書数),[email protected]
    • トークン⻑を⼤ -> ⾼精度・低速度
    • 同条件なら他の⼿法より⾼性能
    2022.5.21
    IRReading2022春 10

    View Slide