Slide 1

Slide 1 text

欅 惇志 ⼀橋⼤学 [email protected] Leveraging Multi-view Inter- passage Interactions for Neural Document Ranking (WSDM2022) *33FBEJOHय़ ※ 図表は論⽂中・Web からの引⽤

Slide 2

Slide 2 text

前提知識-パッセージ検索 • パッセージ:⽂書の⼀部分 o 連続する n ⽂ o 連続する m 単語 o パラグラフ o タグで囲まれたテキスト • 例:HTML の p タグ 2022.5.21 2 ⽂書検索 ⽂書を単位とした検索 各⽂書をスコアリング d1 d2 d3 パッセージ検索 パッセージを単位とした検索 d1 d2 d3 0.3 0.8 0.6 p1,1 p1,2 p2,1 p2,2 p2,3 p3,1 p3,2 各パッセージをスコアリング ⽂書中の適合箇所のみを提⽰ 0.1 0.4 0.7 0.3 0.9 0.4 0.8 パッセージの重複 なし I moved to Hit Univ. this April. あり I moved to Hit Univ. this April. p1 p2 p3

Slide 3

Slide 3 text

前提知識-パッセージを⽤いた⽂書検索 2022.5.21 3 パッセージを⽤いた⽂書検索 IRReading2022春 • 各パッセージをスコアリング • 各パッセージのスコアを⽤いて⽂書のスコアリング o sum, max などの単純な集約演算,LSTM o pooling, 注意,階層情報などを使った複雑なモデルもある d1 d2 d3 p1,1 p1,2 p2,1 p2,2 p2,3 p3,1 p3,2 0.1 0.4 0.7 0.3 0.9 0.4 0.8 0.3 0.8 0.6 本論⽂のタスクはこれ

Slide 4

Slide 4 text

タイトルを分解 • タイトル o Leveraging Multi-view Inter-passage Interactions for Neural Document Ranking • Multi-view o 単語レベル,⽂レベル,パッセージレベルを考慮 • Inter-passage Interactions o パッセージ間の (語の) 関係を考慮 • Neural Document Ranking o 深層学習 (Transformer) ベースの⽂書ランキング 2022.5.21 IRReading2022春 4 キーアイデアはこれ

Slide 5

Slide 5 text

モチベーション 2022.5.21 IRReading2022春 5 1. 他のパッセージから 共参照関係を利⽤したい 2. パッセージを俯瞰して ⽂書のコアトピックを 考慮したい p2 :Land of Enchantment は ニューメキシコのニックネーム pk :ニューメキシコの説明 d1 :肥満 (obesity) の結果を列挙 d2 :肥満対策

Slide 6

Slide 6 text

アーキテクチャ 2022.5.21 6 PRF で 重要語抽出 特殊トークン フル 結合 Pivot 語のみ 使った注意 各レベルの 埋め込みを集約

Slide 7

Slide 7 text

リンキングによるグラフ構築 2022.5.21 IRReading2022春 7 語レベル ⽂レベル パッセージ レベル 同⼀エンティティと定義 共通語:肥満 (obesity) 語・⽂レベルで リンクあり

Slide 8

Slide 8 text

実験結果 2022.5.21 IRReading2022春 8 • すべてのデータセット・評価尺度で (同条 件の) 他の⼿法で統計的有意に性能改善

Slide 9

Slide 9 text

アブレーションスタディ • 設定 o MIR = intra- + inter- passage interactions o inter (graph) = p2p (パッセージ) +s2s (⽂) +t2t (語) • inter-passage interaction があると性能向上 • いずれのレベルの埋め込みも有⽤ 2022.5.21 IRReading2022春 9

Slide 10

Slide 10 text

効率と効果のトレードオフ • トークン⻑ (512〜2k) を変えて評価 o 尺度:スループット (処理⽂書数),MAP@100 • トークン⻑を⼤ -> ⾼精度・低速度 • 同条件なら他の⼿法より⾼性能 2022.5.21 IRReading2022春 10