$30 off During Our Annual Pro Sale. View Details »

論文紹介: Ad Hoc Table Retrieval using Intrinsic and Extrinsic Similarities (TheWebConf 2020) / ir-reading-2020-spring

Yu Nakano
June 21, 2020

論文紹介: Ad Hoc Table Retrieval using Intrinsic and Extrinsic Similarities (TheWebConf 2020) / ir-reading-2020-spring

IR Reading 2020 春 online での論文紹介に使用したスライドです.
https://sigir.jp/post/2020-06-21-irreading_2020spring_online/

Yu Nakano

June 21, 2020
Tweet

More Decks by Yu Nakano

Other Decks in Research

Transcript

  1. Ad Hoc Table Retrieval using Intrinsic
    and Extrinsic Similarities
    Authors: Roee Shraga(Israel Institute of Technology),
    Haggai Roitman, Guy Feigenblat, Mustafa Canim (IBM Research AI)
    (The Web Conference 2020)
    紹介する⼈
    筑波⼤学加藤研究室
    D1 中野 優
    https://sites.google.com/view/yu-nakano

    View Slide

  2. • 最近の Google 検索は検索結果を表で返してくれたりする
    ‒ 表は特定のトピックについて整理されており分かりやすい
    背景: 検索結果を表で返す
    • 検索結果を表で返す研究
    ‒ 既存の表の検索 [1][2][本論⽂]
    • Web ページに含まれる表の中から
    クエリに関連する表を検索する
    ‒ 表の⽣成 [3]
    • 検索結果のために表を⽣成
    [1] Cafarella et al., WebTables: Exploring the Power of Tables on the Web. In VLDB 2008.
    [2] Zhang and Balog, Ad Hoc Table Retrieval using Semantic Similarity. In WWW 2018.
    [3] Zhang and Balog, On-the-fly Table Generation. In SIGIR 2018.
    図は https://www.google.com/search?q=りんご+⽣産量+市町村 より (2020/06/21 閲覧)
    2

    View Slide

  3. • ⼊⼒: クエリ
    ‒ 例: シンガポール
    • 出⼒: 表のランキング
    ‒ 例: シンガポールの GDP の表や
    シンガポールの⺟国語の割合などの表
    • 既存⼿法 [2]
    ‒ 表の特徴 (例: 列数),クエリの特徴
    (例: クエリ⻑),クエリと表の特徴
    (例: クエリと表の類似度) を
    特徴量としたランキング学習
    アドホック表検索タスク (Ad Hoc Table Retrieval Task)
    [2] Zhang and Balog, Ad Hoc Table Retrieval using Semantic Similarity. In WWW 2018.
    3
    クエリ「Singapore」に
    対する表検索の結果
    (図は [2] より引⽤)

    View Slide

  4. 表検索タスクの性能を
    Intrinsic な類似度と
    Extrinsic な類似度を
    ⽤いて改善した
    本論⽂がやったこと
    表の⼀部分のみに着⽬
    表どうしの関連に着⽬
    4

    View Slide

  5. 表のどこに着⽬すべきかは表ごとに異なるがこれまでの研究では
    すべて同じとして扱われてきた(例: 列名のみが重要,すべて同じ重み,など)
    Intrinsic な類似度のアイデア 5
    検索では検索対象の⼀部分の情報のみが重要な場合もある
    表検索で利⽤可能な情報
    (存在しない場合もある)
    ページのタイトル
    キャプション
    列名
    本体
    クエリ “ipod models” に関連する表 クエリ “world interest rate” に関連する表
    iPod という語は表の本体には何度も出現するが,
    列名やキャプションには⼀度も出現しない
    interest rate という語は列名には何度も出現するが,
    本体には⼀度も出現しない
    表の本体が重要 表の列名が重要

    View Slide

  6. • passage に着⽬した⽂書検索 [4] の適⽤
    ‒ passage: ⽂書の⼀部分のこと(ここでは表の⼀部のこと)
    Intrinsic な類似度の計算 6

    iPod || Chipsets and
    Electronics || Chipset
    or Electronic
    Product(s)
    Component(s) ||
    Microcontroller iPod
    Classic 1st to 3rd
    generations Two ARM
    7TDMI-derived CPUs
    ……
    テキスト
    1.テキスト
    へ変換
    2. 様々な⻑さの
    passage を列挙
    iPod || Chipsets …
    iPod Classic 1st to 3rd …



    passage の集合
    3. passage ごとに
    クエリとの
    スコアを計算
    iPod || Chipsets …
    iPod Classic 1st to 3rd …



    スコア
    0.70
    0.95
    0.64
    0.33
    0.54
    4. スコアの
    最⼤値を計算 iPod Classic 1st to 3rd …
    スコア
    0.95
    Intrinsic な類似度の計算⼿順
    [4] Bendersky and Kurland, Utilizing Passage-based Language Models for Document Retrieval. In ECIR 2008.

    View Slide

  7. しかし既存研究では表どうしの関連が考慮されてこなかった
    Extrinsic な類似度のアイデア 7
    • 情報検索における「クラスタ仮説」
    ‒ Documents in the same cluster behave similarly with respect to
    relevance to information needs. [Introduction to Information Retrieval より引⽤]
    ‒ 表検索においても「クラスタ仮説」が成り⽴つのでは?
    iPod に関する表
    iPod Classic に関する表
    Eurozone (ユーロ圏) に関する表
    Relevant
    クエリ
    “ipod models”
    類似度

    類似度 ⼩
    Relevant
    Non-Relevant

    View Slide

  8. • 表どうしの類似度をもとにした多様体ランキング
    ‒ 多様体ランキング [5]
    • 類似度の⾼い⽂書のスコアが近くなるようにスコアを最適化するランキング⼿法
    • 多様体構造が仮定しやすい画像検索 [6] での応⽤が多いが⽂書検索の研究もある [7]
    Extrinsic な類似度の計算 8
    Extrinsic な類似度の計算⼿順

    BM25などで
    クエリとの
    スコアを計算
    表どうしの
    類似度を計算
    表 A
    表 B
    表 C
    類似度
    ⼤ 類似度 ⼩
    スコア
    表A 0.90
    表B 0.50
    表C 0.55
    多様体
    ランキング
    スコア
    表A 0.80
    表B 0.60
    表C 0.55
    もとのスコアを保ちつつ
    類似度が⼤きい表の
    スコアを近くする
    [5] Zhou et al., Ranking on data manifolds. In NIPS 2004.
    [6] Xu et al., Efficient Manifold Ranking for Image Retrieval. In SIGIR 2011.
    [7] Wan et al., Towards a unified approach to document similarity search using manifold-ranking of blocks. Information Processing & Management 44.3 (2008).

    View Slide

  9. Precision@5 NDCG@10 MAP
    ランキング学習 [2] 58.33 62.93 51.41
    Intrinsic (提案⼿法) 58.67 63.04 49.78
    Extrinsic (提案⼿法) 55.67 58.31 46.94
    Intrinsic * Extrinsic (※)
    (提案⼿法)
    60.00 64.79 51.24
    実験: 既存⼿法との⽐較 9
    [2] Zhang and Balog, Ad Hoc Table Retrieval using Semantic Similarity. In WWW 2018.
    (※) Intrinsic な類似度と Extrinsic な類似度をかけ合わせた値をスコアしたランキング結果
    太字は
    列の
    最⼤値
    を表す
    • ⽐較的単純な⼿法で既存の SOTA ⼿法に迫るか上回るスコア
    ‒ ランキング学習⼿法: word/graph embedding のような semantic な
    類似度を含む様々な特徴量を⽤いた教師ありランキング学習
    ‒ 提案⼿法: BM25 など lexical な類似度 (exact な word の matching)
    を⽤いた⽐較的単純なランキング

    View Slide

  10. Intrinsic な類似度 (passage の類似度) の結果の分析 10
    表: 類似度が最⼤となった passage と表の各要素(タイトル,
    キャプション,列名,本体)との類似度の平均値をクエリごとに算出
    • クエリごとに類似度が⾼い部分が異なる
    ‒ passage (=表の⼀部分のみ) を⽤いることで表ごとに重要な部分に
    着⽬した効果的なランキングが⾏えている

    View Slide

  11. • Further Reading
    ‒ Web Table Extraction, Retrieval and Augmentation (SIGIR 2019 Tutorial)
    • https://iai-group.github.io/webtables-tutorial/
    ‒ 上記のジャーナル版: Web Table Extraction, Retrieval, and Augmentation: A Survey.
    ACM TIST 11(2): 13:1-13:35 (2020)
    まとめ
    表検索タスクの性能を
    Intrinsic な類似度 (= 表の⼀部のに着⽬) と
    Extrinsic な類似度 (= 表どうしの関連に着⽬)
    を⽤いて改善した
    11

    View Slide

  12. Appendix

    View Slide

  13. ランキングのアプローチ
    • ⼀般的なランキングの形式
    全⽂書 検索結果
    BM25 や TF-IDF などの
    速いランキング⼿法
    Pooling
    ランキング学習などの
    遅いランキング⼿法
    (ReRank)
    今回提案する⼿法は
    この部分で適⽤する
    13

    View Slide

  14. • WikiTables corpus
    ‒ 既存研究 [2] で提案された Wikipedia に含まれる表を検索対象と
    したデータセット
    ‒ もとは WebTable の研究で作られた 1.6M 個の Wikipedia の
    テーブル
    ‒ 60 個のクエリについて適合度が 3 段階でアノテーションされている
    データセット 14
    [2] Zhang and Balog, Ad Hoc Table Retrieval using Semantic Similarity. In WWW 2018.
    クエリの例
    適合性判定データの例
    クエリID 1 “world interest rate table” 対して,
    テーブル ID table-0370-614 は
    2 (highly-relevant) と判定されている

    View Slide

  15. ベースライン⼿法との⽐較 15
    図は論⽂より引⽤

    View Slide

  16. • 本⼿法の多様体ランキングの流れ
    1. 表から抜き出したテキストから単語 unigram モデルの分布を推定
    2. 分布間の類似度をBhattacharyya類似度で計算
    3. 多様体ランキングを適⽤
    • 単語 unigram モデルの分布は次元数=語彙数なので⼤きいが,
    実際の⾃然⾔語は⽂法などで縛られるため,本質的には次元
    数は語彙数より低いはず
    • よって単語 unigram モデルは,より低い次元の多様体である
    と仮定できる => これが多様体ベースの⼿法を使う動機
    なぜ多様体ランキングか? 16

    View Slide

  17. • スライド中の表は以下のページから引⽤
    ‒ (すべて 2020/06/21 閲覧)
    ‒ https://en.wikipedia.org/wiki/IPod
    ‒ https://en.wikipedia.org/wiki/IPod_Classic
    ‒ https://en.wikipedia.org/wiki/Eurozone
    ‒ https://en.wikipedia.org/wiki/List_of_countries_by_central_bank_i
    nterest_rates
    参考⽂献 17

    View Slide