$30 off During Our Annual Pro Sale. View Details »

論文紹介: Web Table Retrieval using Multimodal Deep Learning (SIGIR 2020) Table Search Using a Deep Contextualized Language Model (SIGIR 2020) / ir-reading-2020-fall

Yu Nakano
October 31, 2020

論文紹介: Web Table Retrieval using Multimodal Deep Learning (SIGIR 2020) Table Search Using a Deep Contextualized Language Model (SIGIR 2020) / ir-reading-2020-fall

IR Reading 2020 秋 での論文紹介に使用したスライドです.
https://sigir.jp/post/2020-10-31-irreading_2020fall/

紹介した論文
1. Web Table Retrieval using Multimodal Deep Learning (SIGIR 2020)
2. Table Search Using a Deep Contextualized Language Model (SIGIR 2020)

Yu Nakano

October 31, 2020
Tweet

More Decks by Yu Nakano

Other Decks in Research

Transcript

  1. IR Reading 2020秋 1. Web Table Retrieval using Multimodal Deep

    Learning (SIGIR 2020) 2. Table Search Using a Deep Contextualized Language Model (SIGIR 2020) 紹介する⼈ 筑波⼤学加藤研究室 D1 中野 優 ※ 図表は基本的に論⽂より引⽤ https://sites.google.com/view/yu-nakano
  2. 問題設定: アドホック表検索タスク 2 図は Zhang and Balog, Ad Hoc Table

    Retrieval using Semantic Similarity. In WWW 2018. より • ⼊⼒: クエリ ‒ 例: シンガポール • 出⼒: 表のランキング ‒ 例: シンガポールの GDP の表や シンガポールの⺟国語の割合などの表
  3. • 表の検索は複数のフィールドを持つ⽂書の検索である ‒ Multi-field Document Retrieval ‒ フィールドごとに異なった性質を持つ ‒ フィールドは必ずしも⽂章とは限らない

    • 例: 表検索の場合だとセルは数値の場合もある 複数フィールドを持つ⽂書としての表 3 表検索 Web 検索 商品検索 • タイトル • キャプション • 列名 • 表の中⾝ (⾏・列・セル) • タイトル • URL • 本⽂ • アンカーテキスト • 過去にその⽂書が クリックされたクエリ • 商品名 • 商品の画像 • カテゴリ • 説明 • 過去の売上
  4. Web Table Retrieval using Multimodal Deep Learning (SIGIR 2020) 1

    本⽬の論⽂ 著者: Roee Shraga (Israel Institute of Technology), Haggai Roitman, Guy Feigenblat, Mustafa Canim (IBM Research)
  5. • 表をマルチモーダルなデータであるとみなし モダリティ(=フィールド)ごとに異なる構造の NN で Encode した後にモダリティを統合する ⼀⾔でいうと 5 1.

    表を個別の モダリティへ変換 2. モダリティごとに Encoding 3. GMU で モダリティを統合 クエリ キャプション タイトル 列名 列の集合 ⾏の集合
  6. ⼿法: 1. 表を個別のモダリティへ変換 6 クエリ キャプション タイトル 列名 列の集合 ⾏の集合

    1. 表を個別の モダリティへ変換 2. モダリティごとに Encoding 3. GMU で モダリティを統合 処理の流れ ① 各フィールドごとに tokenize ② Glove で埋め込みベクトルに変換 注: 表中の数値も Glove 中に語彙として 含まれるならそのまま変換する
  7. ⼿法: 2. モダリティごとに Encoding 7 1. 表を個別の モダリティへ変換 2. モダリティごとに

    Encoding 3. GMU で モダリティを統合 クエリ キャプション タイトル 列名 列の集合 ⾏の集合 モダリティ(=フィールド)ごとの Encoding のための NN の構造 ・クエリ/キャプション・タイトル → RCNN で変換 ・列名 → MLP で変換 ・列の集合/⾏の集合 → 3D-CNN で変換
  8. ⼿法: 3. GMU でモダリティを統合 8 1. 表を個別の モダリティへ変換 2. モダリティごとに

    Encoding 3. GMU で モダリティを統合 クエリ キャプション タイトル 列名 列の集合 ⾏の集合 Gated MultiModal Unit (GMU) での モダリティごとの表現の統合⼿順 ① 表のモダリティごとの表現を GMU で統合 ② 1 で得た表の表現とクエリの 表現を GMU で統合 ③ MLP でランキングのための スコアを推定 ① ② ③
  9. 実験 9 データセット WikiTables GNQTables クエリの形式 キーワード (=短い) 質問⽂ (=⻑い)

    表の取得元 Wikipedia WebTable 表データ数 1.6 M 75 K クエリ数 60 610 適合度の grade 数 3 2 ベースライン ⼿法との⽐較 WikiTables GNQTables nDCG@20 MAP nDCG@20 MAP 既存⼿法: Multi-Field (field ごとの線形結合) 61.15 44.77 37.59 31.13 既存⼿法: NRM-F (multi-field 検索⽤ NN) 64.97 48.39 54.47 47.81 提案⼿法 73.70 60.58 72.20 63.28 WikiTables GNQTables nDCG@20 MAP nDCG@20 MAP 全て使う 73.70 60.58 72.20 63.28 キャプション・ タイトルを使わない 55.96 38.03 63.52 52.55 列名を使わない 67.89 54.43 68.39 58.42 列の集合を使わない 67.40 54.06 61.05 49.59 ⾏の集合を使わない 60.32 40.29 51.21 40.22 フィールド(モダリティ)ごとの ablation study 下線 は最もスコアが低い値を意味する (=最も影響が⼤きいモダリティである) ・WikiTables はキャプション・タイトル ・GNQTables は⾏の集合 を使わない場合がそれぞれ最もスコアが低い → クエリ形式の性質による違いと推測される
  10. Table Search Using a Deep Contextualized Language Model (SIGIR 2020)

    2 本⽬の論⽂ 著者: Zhiyu Chen, Mohamed Trabelsi, Jeff Heflin (Lehigh University), Yinan Xu (Zhuiyi Technology), Brian D. Davison (Lehigh University)
  11. • BERT で表検索をするために⼊⼒⻑制限を回避する ⽅法をいくつか⽐較・検討した ⼀⾔でいうと 11 WikiTables データセットにおける フィールドごとの⻑さの統計情報 約

    1/4 の表は BERT の⼊⼒⻑制限 (512 token) に引っかかる 計算コストのために ⼩さいモデルを使おうとすると その割合はさらに増加する
  12. フィールドの扱い 12 キャプション タイトル 列名 列の集合 ⾏の集合 本論⽂では表のフィールドを 以下のように使い分ける セルの集合

    → BERT に⼊⼒としてと そのまま⽤いる で類似度が⾼いもののみを クエリとの類似度を計算する ( ) ( ) ⼿法の概要 BERT の⼊⼒として⽤いる
  13. Content Selector 13 ではクエリと表の内容の類似度を単語埋め込みを利⽤して計算する 類似度は以下の 3 つを提案 内容の埋め込みの重⼼ クエリの埋め込みの重⼼ Mean

    Sum Max 列の集合 ⾏の集合 セルの集合 内容としては のいずれかのみを⽤いる
  14. ⼿法(概要) 14 列の集合 ⾏の集合 ① セルの集合 を以下の列に変換し BERT に⼊れる [

    を⽤いてクエリとの から 類似度でランキングし ② [CLS], , [SEP], , [SEP], item1 , [SEP], item2 item M … , [SEP] ] ③ を MLP で Encode し ② で得た BERT の 表現と合わせてランキングのスコアを推定する item1 item2 item M … (= ) とする ① ② ③ ⼿法の概要 (⼊⼒⻑制限を超える場合は超過分を捨てる)
  15. 実験 15 データセット WikiTables WebQueryTable クエリの形式 キーワード キーワード 表の取得元 Wikipedia

    Web+Wikipedia 表データ数 1.6 M 273 K クエリ-表のペア数 3,120 21,113 適合度の grade 数 3 2 類似度 表の内容 MAP NDCG@20 既存⼿法 0.5711 0.6111 BERT Mean セル 0.6104 0.6388 Max セル 0.6129 0.6395 Sum セル 0.6207 0.6454 Mean 列 0.6108 0.6412 Max 列 0.6086 0.6362 Sum 列 0.6131 0.6390 Mean ⾏ 0.6196 0.6463 Max ⾏ 0.6311 0.6564 Sum ⾏ 0.6199 0.6445 類似度 表の内容 MAP 既存⼿法 0.6718 BERT Sum ⾏ 0.7104 WebQueryTable での結果 WikiTables での結果 ・どの類似度・表の内容でも既存⼿法よりも性能がよかった ・類似度=「Max」,表の内容=「⾏」を⽤いた場合が 最もよかった ・BERT のみを⽤いる(特徴量ベースと組み合わせない) 場合でも同じ傾向であった 論⽂中では類似度=「Max」,表の内容=「⾏」を⽤いた場合は 他のどの組み合わせと⽐較しても統計的有意であった, と書かれていたが,多重⽐較補正の話がどこにも出てこない ため補正が⾏われていない可能性がありそう.
  16. アドホック表検索タスクに対して 1. 表をマルチモーダルなデータとみなしてランキングする⼿法 2. BERT を⽤いてランキングする⼿法 がそれぞれ提案された • 所感 ‒

    複数フィールドを持つ⽂書の検索はフィールドの扱い⽅にこそに ⼯夫の余地があるという印象 ‒ 表検索は⼿法が乱⽴し始めており⽐較がちゃんとなされていない ように感じる 本発表のまとめ 16