論文紹介: Ad Hoc Table Retrieval using Intrinsic and Extrinsic Similarities (TheWebConf 2020) / ir-reading-2020-spring

Ad Hoc Table Retrieval using Intrinsic and Extrinsic Similarities Authors:
Roee Shraga(Israel Institute of Technology), Haggai Roitman, Guy Feigenblat, Mustafa Canim (IBM Research AI) (The Web Conference 2020) 紹介する⼈筑波⼤学加藤研究室 D1 中野優 https://sites.google.com/view/yu-nakano

• 最近の Google 検索は検索結果を表で返してくれたりする ‒ 表は特定のトピックについて整理されており分かりやすい背景: 検索結果を表で返す • 検索結果を表で返す研究
‒ 既存の表の検索 [1][2][本論⽂] • Web ページに含まれる表の中からクエリに関連する表を検索する ‒ 表の⽣成 [3] • 検索結果のために表を⽣成 [1] Cafarella et al., WebTables: Exploring the Power of Tables on the Web. In VLDB 2008. [2] Zhang and Balog, Ad Hoc Table Retrieval using Semantic Similarity. In WWW 2018. [3] Zhang and Balog, On-the-fly Table Generation. In SIGIR 2018. 図は https://www.google.com/search?q=りんご+⽣産量+市町村より (2020/06/21 閲覧) 2

• ⼊⼒: クエリ ‒ 例: シンガポール • 出⼒: 表のランキング ‒
例: シンガポールの GDP の表やシンガポールの⺟国語の割合などの表 • 既存⼿法 [2] ‒ 表の特徴 (例: 列数)，クエリの特徴 (例: クエリ⻑)，クエリと表の特徴 (例: クエリと表の類似度) を特徴量としたランキング学習アドホック表検索タスク (Ad Hoc Table Retrieval Task) [2] Zhang and Balog, Ad Hoc Table Retrieval using Semantic Similarity. In WWW 2018. 3 クエリ「Singapore」に対する表検索の結果 (図は [2] より引⽤)

表検索タスクの性能を Intrinsic な類似度と Extrinsic な類似度を⽤いて改善した本論⽂がやったこと表の⼀部分のみに着⽬表どうしの関連に着⽬ 4

表のどこに着⽬すべきかは表ごとに異なるがこれまでの研究ではすべて同じとして扱われてきた（例: 列名のみが重要，すべて同じ重み，など） Intrinsic な類似度のアイデア 5 検索では検索対象の⼀部分の情報のみが重要な場合もある表検索で利⽤可能な情報（存在しない場合もある）ページのタイトル
キャプション列名本体クエリ “ipod models” に関連する表クエリ “world interest rate” に関連する表 iPod という語は表の本体には何度も出現するが，列名やキャプションには⼀度も出現しない interest rate という語は列名には何度も出現するが，本体には⼀度も出現しない表の本体が重要表の列名が重要

• passage に着⽬した⽂書検索 [4] の適⽤ ‒ passage: ⽂書の⼀部分のこと（ここでは表の⼀部のこと） Intrinsic な類似度の計算
6 表 iPod || Chipsets and Electronics || Chipset or Electronic Product(s) Component(s) || Microcontroller iPod Classic 1st to 3rd generations Two ARM 7TDMI-derived CPUs …… テキスト 1.テキストへ変換 2. 様々な⻑さの passage を列挙 iPod || Chipsets … iPod Classic 1st to 3rd … … … … passage の集合 3. passage ごとにクエリとのスコアを計算 iPod || Chipsets … iPod Classic 1st to 3rd … … … … スコア 0.70 0.95 0.64 0.33 0.54 4. スコアの最⼤値を計算 iPod Classic 1st to 3rd … スコア 0.95 Intrinsic な類似度の計算⼿順 [4] Bendersky and Kurland, Utilizing Passage-based Language Models for Document Retrieval. In ECIR 2008.

しかし既存研究では表どうしの関連が考慮されてこなかった Extrinsic な類似度のアイデア 7 • 情報検索における「クラスタ仮説」 ‒ Documents in the
same cluster behave similarly with respect to relevance to information needs. [Introduction to Information Retrieval より引⽤] ‒ 表検索においても「クラスタ仮説」が成り⽴つのでは？ iPod に関する表 iPod Classic に関する表 Eurozone (ユーロ圏) に関する表 Relevant クエリ “ipod models” 類似度⼤類似度⼩ Relevant Non-Relevant

• 表どうしの類似度をもとにした多様体ランキング ‒ 多様体ランキング [5] • 類似度の⾼い⽂書のスコアが近くなるようにスコアを最適化するランキング⼿法 • 多様体構造が仮定しやすい画像検索 [6]
での応⽤が多いが⽂書検索の研究もある [7] Extrinsic な類似度の計算 8 Extrinsic な類似度の計算⼿順表 BM25などでクエリとのスコアを計算表どうしの類似度を計算表 A 表 B 表 C 類似度⼤類似度⼩スコア表A 0.90 表B 0.50 表C 0.55 多様体ランキングスコア表A 0.80 表B 0.60 表C 0.55 もとのスコアを保ちつつ類似度が⼤きい表のスコアを近くする [5] Zhou et al., Ranking on data manifolds. In NIPS 2004. [6] Xu et al., Efficient Manifold Ranking for Image Retrieval. In SIGIR 2011. [7] Wan et al., Towards a unified approach to document similarity search using manifold-ranking of blocks. Information Processing & Management 44.3 (2008).

Precision@5 NDCG@10 MAP ランキング学習 [2] 58.33 62.93 51.41 Intrinsic (提案⼿法)
58.67 63.04 49.78 Extrinsic (提案⼿法) 55.67 58.31 46.94 Intrinsic * Extrinsic (※) (提案⼿法) 60.00 64.79 51.24 実験: 既存⼿法との⽐較 9 [2] Zhang and Balog, Ad Hoc Table Retrieval using Semantic Similarity. In WWW 2018. (※) Intrinsic な類似度と Extrinsic な類似度をかけ合わせた値をスコアしたランキング結果太字は列の最⼤値を表す • ⽐較的単純な⼿法で既存の SOTA ⼿法に迫るか上回るスコア ‒ ランキング学習⼿法: word/graph embedding のような semantic な類似度を含む様々な特徴量を⽤いた教師ありランキング学習 ‒ 提案⼿法: BM25 など lexical な類似度 (exact な word の matching) を⽤いた⽐較的単純なランキング

Intrinsic な類似度 (passage の類似度) の結果の分析 10 表: 類似度が最⼤となった passage と表の各要素（タイトル，
キャプション，列名，本体）との類似度の平均値をクエリごとに算出 • クエリごとに類似度が⾼い部分が異なる ‒ passage (=表の⼀部分のみ) を⽤いることで表ごとに重要な部分に着⽬した効果的なランキングが⾏えている

• Further Reading ‒ Web Table Extraction, Retrieval and Augmentation
(SIGIR 2019 Tutorial) • https://iai-group.github.io/webtables-tutorial/ ‒ 上記のジャーナル版: Web Table Extraction, Retrieval, and Augmentation: A Survey. ACM TIST 11(2): 13:1-13:35 (2020) まとめ表検索タスクの性能を Intrinsic な類似度 (= 表の⼀部のに着⽬) と Extrinsic な類似度 (= 表どうしの関連に着⽬) を⽤いて改善した 11

Appendix

ランキングのアプローチ • ⼀般的なランキングの形式全⽂書検索結果 BM25 や TF-IDF などの速いランキング⼿法
Pooling ランキング学習などの遅いランキング⼿法 (ReRank) 今回提案する⼿法はこの部分で適⽤する 13

• WikiTables corpus ‒ 既存研究 [2] で提案された Wikipedia に含まれる表を検索対象としたデータセット
‒ もとは WebTable の研究で作られた 1.6M 個の Wikipedia のテーブル ‒ 60 個のクエリについて適合度が 3 段階でアノテーションされているデータセット 14 [2] Zhang and Balog, Ad Hoc Table Retrieval using Semantic Similarity. In WWW 2018. クエリの例適合性判定データの例クエリID 1 “world interest rate table” 対して，テーブル ID table-0370-614 は 2 (highly-relevant) と判定されている

ベースライン⼿法との⽐較 15 図は論⽂より引⽤

• 本⼿法の多様体ランキングの流れ 1. 表から抜き出したテキストから単語 unigram モデルの分布を推定 2. 分布間の類似度をBhattacharyya類似度で計算 3. 多様体ランキングを適⽤
• 単語 unigram モデルの分布は次元数=語彙数なので⼤きいが，実際の⾃然⾔語は⽂法などで縛られるため，本質的には次元数は語彙数より低いはず • よって単語 unigram モデルは，より低い次元の多様体であると仮定できる => これが多様体ベースの⼿法を使う動機なぜ多様体ランキングか？ 16

• スライド中の表は以下のページから引⽤ ‒ (すべて 2020/06/21 閲覧) ‒ https://en.wikipedia.org/wiki/IPod ‒ https://en.wikipedia.org/wiki/IPod_Classic
‒ https://en.wikipedia.org/wiki/Eurozone ‒ https://en.wikipedia.org/wiki/List_of_countries_by_central_bank_i nterest_rates 参考⽂献 17

論文紹介: Ad Hoc Table Retrieval using Intrinsic an...

論文紹介: Ad Hoc Table Retrieval using Intrinsic and Extrinsic Similarities (TheWebConf 2020) / ir-reading-2020-spring

Yu Nakano / 中野優

More Decks by Yu Nakano / 中野優

Other Decks in Research

Featured

Transcript

Ad Hoc Table Retrieval using Intrinsic and Extrinsic Similarities Authors:

• 最近の Google 検索は検索結果を表で返してくれたりする ‒ 表は特定のトピックについて整理されており分かりやすい背景: 検索結果を表で返す • 検索結果を表で返す研究

• ⼊⼒: クエリ ‒ 例: シンガポール • 出⼒: 表のランキング ‒

表検索タスクの性能を Intrinsic な類似度と Extrinsic な類似度を⽤いて改善した本論⽂がやったこと表の⼀部分のみに着⽬表どうしの関連に着⽬ 4

• passage に着⽬した⽂書検索 [4] の適⽤ ‒ passage: ⽂書の⼀部分のこと（ここでは表の⼀部のこと） Intrinsic な類似度の計算

しかし既存研究では表どうしの関連が考慮されてこなかった Extrinsic な類似度のアイデア 7 • 情報検索における「クラスタ仮説」 ‒ Documents in the

• 表どうしの類似度をもとにした多様体ランキング ‒ 多様体ランキング [5] • 類似度の⾼い⽂書のスコアが近くなるようにスコアを最適化するランキング⼿法 • 多様体構造が仮定しやすい画像検索 [6]

Precision@5 NDCG@10 MAP ランキング学習 [2] 58.33 62.93 51.41 Intrinsic (提案⼿法)

Intrinsic な類似度 (passage の類似度) の結果の分析 10 表: 類似度が最⼤となった passage と表の各要素（タイトル，

• Further Reading ‒ Web Table Extraction, Retrieval and Augmentation

Appendix

ランキングのアプローチ • ⼀般的なランキングの形式全⽂書検索結果 BM25 や TF-IDF などの速いランキング⼿法

• WikiTables corpus ‒ 既存研究 [2] で提案された Wikipedia に含まれる表を検索対象としたデータセット

ベースライン⼿法との⽐較 15 図は論⽂より引⽤

• 本⼿法の多様体ランキングの流れ 1. 表から抜き出したテキストから単語 unigram モデルの分布を推定 2. 分布間の類似度をBhattacharyya類似度で計算 3. 多様体ランキングを適⽤

• スライド中の表は以下のページから引⽤ ‒ (すべて 2020/06/21 閲覧) ‒ https://en.wikipedia.org/wiki/IPod ‒ https://en.wikipedia.org/wiki/IPod_Classic