Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介: Web Table Retrieval using Multimodal Deep Learning (SIGIR 2020) Table Search Using a Deep Contextualized Language Model (SIGIR 2020) / ir-reading-2020-fall

Yu Nakano
October 31, 2020

論文紹介: Web Table Retrieval using Multimodal Deep Learning (SIGIR 2020) Table Search Using a Deep Contextualized Language Model (SIGIR 2020) / ir-reading-2020-fall

IR Reading 2020 秋 での論文紹介に使用したスライドです.
https://sigir.jp/post/2020-10-31-irreading_2020fall/

紹介した論文
1. Web Table Retrieval using Multimodal Deep Learning (SIGIR 2020)
2. Table Search Using a Deep Contextualized Language Model (SIGIR 2020)

Yu Nakano

October 31, 2020
Tweet

More Decks by Yu Nakano

Other Decks in Research

Transcript

  1. IR Reading 2020秋
    1. Web Table Retrieval using Multimodal Deep
    Learning (SIGIR 2020)
    2. Table Search Using a Deep Contextualized
    Language Model (SIGIR 2020)
    紹介する⼈
    筑波⼤学加藤研究室
    D1 中野 優
    ※ 図表は基本的に論⽂より引⽤
    https://sites.google.com/view/yu-nakano

    View full-size slide

  2. 問題設定: アドホック表検索タスク 2
    図は Zhang and Balog, Ad Hoc Table Retrieval using Semantic Similarity. In WWW 2018. より
    • ⼊⼒: クエリ
    ‒ 例: シンガポール
    • 出⼒: 表のランキング
    ‒ 例: シンガポールの GDP の表や
    シンガポールの⺟国語の割合などの表

    View full-size slide

  3. • 表の検索は複数のフィールドを持つ⽂書の検索である
    ‒ Multi-field Document Retrieval
    ‒ フィールドごとに異なった性質を持つ
    ‒ フィールドは必ずしも⽂章とは限らない
    • 例: 表検索の場合だとセルは数値の場合もある
    複数フィールドを持つ⽂書としての表 3
    表検索 Web 検索 商品検索
    • タイトル
    • キャプション
    • 列名
    • 表の中⾝
    (⾏・列・セル)
    • タイトル
    • URL
    • 本⽂
    • アンカーテキスト
    • 過去にその⽂書が
    クリックされたクエリ
    • 商品名
    • 商品の画像
    • カテゴリ
    • 説明
    • 過去の売上

    View full-size slide

  4. Web Table Retrieval using Multimodal Deep
    Learning (SIGIR 2020)
    1 本⽬の論⽂
    著者: Roee Shraga (Israel Institute of Technology),
    Haggai Roitman, Guy Feigenblat, Mustafa Canim (IBM Research)

    View full-size slide

  5. • 表をマルチモーダルなデータであるとみなし
    モダリティ(=フィールド)ごとに異なる構造の
    NN で Encode した後にモダリティを統合する
    ⼀⾔でいうと 5
    1. 表を個別の
    モダリティへ変換
    2. モダリティごとに
    Encoding
    3. GMU で
    モダリティを統合
    クエリ
    キャプション
    タイトル
    列名
    列の集合
    ⾏の集合

    View full-size slide

  6. ⼿法: 1. 表を個別のモダリティへ変換 6
    クエリ
    キャプション
    タイトル
    列名
    列の集合
    ⾏の集合
    1. 表を個別の
    モダリティへ変換
    2. モダリティごとに
    Encoding
    3. GMU で
    モダリティを統合
    処理の流れ
    ① 各フィールドごとに tokenize
    ② Glove で埋め込みベクトルに変換
    注: 表中の数値も Glove 中に語彙として
    含まれるならそのまま変換する

    View full-size slide

  7. ⼿法: 2. モダリティごとに Encoding 7
    1. 表を個別の
    モダリティへ変換
    2. モダリティごとに
    Encoding
    3. GMU で
    モダリティを統合
    クエリ
    キャプション
    タイトル
    列名
    列の集合
    ⾏の集合
    モダリティ(=フィールド)ごとの
    Encoding のための NN の構造
    ・クエリ/キャプション・タイトル
    → RCNN で変換
    ・列名
    → MLP で変換
    ・列の集合/⾏の集合
    → 3D-CNN で変換

    View full-size slide

  8. ⼿法: 3. GMU でモダリティを統合 8
    1. 表を個別の
    モダリティへ変換
    2. モダリティごとに
    Encoding
    3. GMU で
    モダリティを統合
    クエリ
    キャプション
    タイトル
    列名
    列の集合
    ⾏の集合
    Gated MultiModal Unit (GMU) での
    モダリティごとの表現の統合⼿順
    ① 表のモダリティごとの表現を
    GMU で統合
    ② 1 で得た表の表現とクエリの
    表現を GMU で統合
    ③ MLP でランキングのための
    スコアを推定

    ② ③

    View full-size slide

  9. 実験 9
    データセット WikiTables GNQTables
    クエリの形式 キーワード
    (=短い)
    質問⽂
    (=⻑い)
    表の取得元 Wikipedia WebTable
    表データ数 1.6 M 75 K
    クエリ数 60 610
    適合度の grade 数 3 2
    ベースライン
    ⼿法との⽐較
    WikiTables GNQTables
    nDCG@20 MAP nDCG@20 MAP
    既存⼿法: Multi-Field
    (field ごとの線形結合)
    61.15 44.77 37.59 31.13
    既存⼿法: NRM-F
    (multi-field 検索⽤ NN)
    64.97 48.39 54.47 47.81
    提案⼿法 73.70 60.58 72.20 63.28
    WikiTables GNQTables
    nDCG@20 MAP nDCG@20 MAP
    全て使う 73.70 60.58 72.20 63.28
    キャプション・
    タイトルを使わない
    55.96 38.03 63.52 52.55
    列名を使わない 67.89 54.43 68.39 58.42
    列の集合を使わない 67.40 54.06 61.05 49.59
    ⾏の集合を使わない 60.32 40.29 51.21 40.22
    フィールド(モダリティ)ごとの ablation study
    下線 は最もスコアが低い値を意味する
    (=最も影響が⼤きいモダリティである)
    ・WikiTables はキャプション・タイトル
    ・GNQTables は⾏の集合
    を使わない場合がそれぞれ最もスコアが低い
    → クエリ形式の性質による違いと推測される

    View full-size slide

  10. Table Search Using a Deep Contextualized
    Language Model (SIGIR 2020)
    2 本⽬の論⽂
    著者: Zhiyu Chen, Mohamed Trabelsi, Jeff Heflin (Lehigh University),
    Yinan Xu (Zhuiyi Technology), Brian D. Davison (Lehigh University)

    View full-size slide

  11. • BERT で表検索をするために⼊⼒⻑制限を回避する
    ⽅法をいくつか⽐較・検討した
    ⼀⾔でいうと 11
    WikiTables データセットにおける
    フィールドごとの⻑さの統計情報
    約 1/4 の表は
    BERT の⼊⼒⻑制限
    (512 token) に引っかかる
    計算コストのために
    ⼩さいモデルを使おうとすると
    その割合はさらに増加する

    View full-size slide

  12. フィールドの扱い 12
    キャプション
    タイトル
    列名
    列の集合
    ⾏の集合
    本論⽂では表のフィールドを
    以下のように使い分ける
    セルの集合
    → BERT に⼊⼒としてと
    そのまま⽤いる
    で類似度が⾼いもののみを
    クエリとの類似度を計算する
    ( )
    ( )
    ⼿法の概要
    BERT の⼊⼒として⽤いる

    View full-size slide

  13. Content Selector 13
    ではクエリと表の内容の類似度を単語埋め込みを利⽤して計算する
    類似度は以下の 3 つを提案
    内容の埋め込みの重⼼ クエリの埋め込みの重⼼
    Mean
    Sum
    Max
    列の集合
    ⾏の集合
    セルの集合
    内容としては のいずれかのみを⽤いる

    View full-size slide

  14. ⼿法(概要) 14
    列の集合
    ⾏の集合

    セルの集合
    を以下の列に変換し BERT に⼊れる
    [
    を⽤いてクエリとの
    から
    類似度でランキングし

    [CLS], , [SEP], , [SEP],
    item1
    , [SEP],
    item2 item M
    … , [SEP]
    ]
    ③ を MLP で Encode し ② で得た BERT の
    表現と合わせてランキングのスコアを推定する
    item1 item2 item M
    … (= ) とする

    ② ③
    ⼿法の概要
    (⼊⼒⻑制限を超える場合は超過分を捨てる)

    View full-size slide

  15. 実験 15
    データセット WikiTables WebQueryTable
    クエリの形式 キーワード キーワード
    表の取得元 Wikipedia Web+Wikipedia
    表データ数 1.6 M 273 K
    クエリ-表のペア数 3,120 21,113
    適合度の grade 数 3 2
    類似度 表の内容 MAP NDCG@20
    既存⼿法 0.5711 0.6111
    BERT
    Mean セル 0.6104 0.6388
    Max セル 0.6129 0.6395
    Sum セル 0.6207 0.6454
    Mean 列 0.6108 0.6412
    Max 列 0.6086 0.6362
    Sum 列 0.6131 0.6390
    Mean ⾏ 0.6196 0.6463
    Max ⾏ 0.6311 0.6564
    Sum ⾏ 0.6199 0.6445
    類似度 表の内容 MAP
    既存⼿法 0.6718
    BERT Sum ⾏ 0.7104
    WebQueryTable での結果
    WikiTables での結果
    ・どの類似度・表の内容でも既存⼿法よりも性能がよかった
    ・類似度=「Max」,表の内容=「⾏」を⽤いた場合が
    最もよかった
    ・BERT のみを⽤いる(特徴量ベースと組み合わせない)
    場合でも同じ傾向であった
    論⽂中では類似度=「Max」,表の内容=「⾏」を⽤いた場合は
    他のどの組み合わせと⽐較しても統計的有意であった,
    と書かれていたが,多重⽐較補正の話がどこにも出てこない
    ため補正が⾏われていない可能性がありそう.

    View full-size slide

  16. アドホック表検索タスクに対して
    1. 表をマルチモーダルなデータとみなしてランキングする⼿法
    2. BERT を⽤いてランキングする⼿法
    がそれぞれ提案された
    • 所感
    ‒ 複数フィールドを持つ⽂書の検索はフィールドの扱い⽅にこそに
    ⼯夫の余地があるという印象
    ‒ 表検索は⼿法が乱⽴し始めており⽐較がちゃんとなされていない
    ように感じる
    本発表のまとめ 16

    View full-size slide