論文紹介: Web Table Retrieval using Multimodal Deep Learning (SIGIR 2020) Table Search Using a Deep Contextualized Language Model (SIGIR 2020) / ir-reading-2020-fall

IR Reading 2020秋 1. Web Table Retrieval using Multimodal Deep
Learning (SIGIR 2020) 2. Table Search Using a Deep Contextualized Language Model (SIGIR 2020) 紹介する⼈筑波⼤学加藤研究室 D1 中野優 ※ 図表は基本的に論⽂より引⽤ https://sites.google.com/view/yu-nakano

問題設定: アドホック表検索タスク 2 図は Zhang and Balog, Ad Hoc Table
Retrieval using Semantic Similarity. In WWW 2018. より • ⼊⼒: クエリ ‒ 例: シンガポール • 出⼒: 表のランキング ‒ 例: シンガポールの GDP の表やシンガポールの⺟国語の割合などの表

• 表の検索は複数のフィールドを持つ⽂書の検索である ‒ Multi-field Document Retrieval ‒ フィールドごとに異なった性質を持つ ‒ フィールドは必ずしも⽂章とは限らない
• 例: 表検索の場合だとセルは数値の場合もある複数フィールドを持つ⽂書としての表 3 表検索 Web 検索商品検索 • タイトル • キャプション • 列名 • 表の中⾝（⾏・列・セル） • タイトル • URL • 本⽂ • アンカーテキスト • 過去にその⽂書がクリックされたクエリ • 商品名 • 商品の画像 • カテゴリ • 説明 • 過去の売上

Web Table Retrieval using Multimodal Deep Learning (SIGIR 2020) 1
本⽬の論⽂著者: Roee Shraga (Israel Institute of Technology), Haggai Roitman, Guy Feigenblat, Mustafa Canim (IBM Research)

• 表をマルチモーダルなデータであるとみなしモダリティ（=フィールド）ごとに異なる構造の NN で Encode した後にモダリティを統合する⼀⾔でいうと 5 1.
表を個別のモダリティへ変換 2. モダリティごとに Encoding 3. GMU でモダリティを統合クエリキャプションタイトル列名列の集合⾏の集合

⼿法: 1. 表を個別のモダリティへ変換 6 クエリキャプションタイトル列名列の集合⾏の集合
1. 表を個別のモダリティへ変換 2. モダリティごとに Encoding 3. GMU でモダリティを統合処理の流れ ① 各フィールドごとに tokenize ② Glove で埋め込みベクトルに変換注: 表中の数値も Glove 中に語彙として含まれるならそのまま変換する

⼿法: 2. モダリティごとに Encoding 7 1. 表を個別のモダリティへ変換 2. モダリティごとに
Encoding 3. GMU でモダリティを統合クエリキャプションタイトル列名列の集合⾏の集合モダリティ（=フィールド）ごとの Encoding のための NN の構造・クエリ/キャプション・タイトル → RCNN で変換・列名 → MLP で変換・列の集合/⾏の集合 → 3D-CNN で変換

⼿法: 3. GMU でモダリティを統合 8 1. 表を個別のモダリティへ変換 2. モダリティごとに
Encoding 3. GMU でモダリティを統合クエリキャプションタイトル列名列の集合⾏の集合 Gated MultiModal Unit (GMU) でのモダリティごとの表現の統合⼿順 ① 表のモダリティごとの表現を GMU で統合 ② 1 で得た表の表現とクエリの表現を GMU で統合 ③ MLP でランキングのためのスコアを推定 ① ② ③

実験 9 データセット WikiTables GNQTables クエリの形式キーワード (=短い) 質問⽂ (=⻑い)
表の取得元 Wikipedia WebTable 表データ数 1.6 M 75 K クエリ数 60 610 適合度の grade 数 3 2 ベースライン⼿法との⽐較 WikiTables GNQTables nDCG@20 MAP nDCG@20 MAP 既存⼿法: Multi-Field (field ごとの線形結合) 61.15 44.77 37.59 31.13 既存⼿法: NRM-F (multi-field 検索⽤ NN) 64.97 48.39 54.47 47.81 提案⼿法 73.70 60.58 72.20 63.28 WikiTables GNQTables nDCG@20 MAP nDCG@20 MAP 全て使う 73.70 60.58 72.20 63.28 キャプション・タイトルを使わない 55.96 38.03 63.52 52.55 列名を使わない 67.89 54.43 68.39 58.42 列の集合を使わない 67.40 54.06 61.05 49.59 ⾏の集合を使わない 60.32 40.29 51.21 40.22 フィールド（モダリティ）ごとの ablation study 下線は最もスコアが低い値を意味する（=最も影響が⼤きいモダリティである）・WikiTables はキャプション・タイトル・GNQTables は⾏の集合を使わない場合がそれぞれ最もスコアが低い → クエリ形式の性質による違いと推測される

Table Search Using a Deep Contextualized Language Model (SIGIR 2020)
2 本⽬の論⽂著者: Zhiyu Chen, Mohamed Trabelsi, Jeff Heflin (Lehigh University), Yinan Xu (Zhuiyi Technology), Brian D. Davison (Lehigh University)

• BERT で表検索をするために⼊⼒⻑制限を回避する⽅法をいくつか⽐較・検討した⼀⾔でいうと 11 WikiTables データセットにおけるフィールドごとの⻑さの統計情報約
1/4 の表は BERT の⼊⼒⻑制限 (512 token) に引っかかる計算コストのために⼩さいモデルを使おうとするとその割合はさらに増加する

フィールドの扱い 12 キャプションタイトル列名列の集合⾏の集合本論⽂では表のフィールドを以下のように使い分けるセルの集合
→ BERT に⼊⼒としてとそのまま⽤いるで類似度が⾼いもののみをクエリとの類似度を計算する ( ) ( ) ⼿法の概要 BERT の⼊⼒として⽤いる

Content Selector 13 ではクエリと表の内容の類似度を単語埋め込みを利⽤して計算する類似度は以下の 3 つを提案内容の埋め込みの重⼼クエリの埋め込みの重⼼ Mean
Sum Max 列の集合⾏の集合セルの集合内容としてはのいずれかのみを⽤いる

⼿法（概要） 14 列の集合⾏の集合 ① セルの集合を以下の列に変換し BERT に⼊れる [
を⽤いてクエリとのから類似度でランキングし ② [CLS], , [SEP], , [SEP], item1 , [SEP], item2 item M … , [SEP] ] ③ を MLP で Encode し ② で得た BERT の表現と合わせてランキングのスコアを推定する item1 item2 item M … (= ) とする ① ② ③ ⼿法の概要 (⼊⼒⻑制限を超える場合は超過分を捨てる)

実験 15 データセット WikiTables WebQueryTable クエリの形式キーワードキーワード表の取得元 Wikipedia
Web+Wikipedia 表データ数 1.6 M 273 K クエリ-表のペア数 3,120 21,113 適合度の grade 数 3 2 類似度表の内容 MAP NDCG@20 既存⼿法 0.5711 0.6111 BERT Mean セル 0.6104 0.6388 Max セル 0.6129 0.6395 Sum セル 0.6207 0.6454 Mean 列 0.6108 0.6412 Max 列 0.6086 0.6362 Sum 列 0.6131 0.6390 Mean ⾏ 0.6196 0.6463 Max ⾏ 0.6311 0.6564 Sum ⾏ 0.6199 0.6445 類似度表の内容 MAP 既存⼿法 0.6718 BERT Sum ⾏ 0.7104 WebQueryTable での結果 WikiTables での結果・どの類似度・表の内容でも既存⼿法よりも性能がよかった・類似度=「Max」，表の内容=「⾏」を⽤いた場合が最もよかった・BERT のみを⽤いる（特徴量ベースと組み合わせない）場合でも同じ傾向であった論⽂中では類似度=「Max」，表の内容=「⾏」を⽤いた場合は他のどの組み合わせと⽐較しても統計的有意であった，と書かれていたが，多重⽐較補正の話がどこにも出てこないため補正が⾏われていない可能性がありそう．

アドホック表検索タスクに対して 1. 表をマルチモーダルなデータとみなしてランキングする⼿法 2. BERT を⽤いてランキングする⼿法がそれぞれ提案された • 所感 ‒
複数フィールドを持つ⽂書の検索はフィールドの扱い⽅にこそに⼯夫の余地があるという印象 ‒ 表検索は⼿法が乱⽴し始めており⽐較がちゃんとなされていないように感じる本発表のまとめ 16

論文紹介: Web Table Retrieval using Multimodal Deep...

論文紹介: Web Table Retrieval using Multimodal Deep Learning (SIGIR 2020) Table Search Using a Deep Contextualized Language Model (SIGIR 2020) / ir-reading-2020-fall

Yu Nakano / 中野優

More Decks by Yu Nakano / 中野優

Other Decks in Research

Featured

Transcript

IR Reading 2020秋 1. Web Table Retrieval using Multimodal Deep

問題設定: アドホック表検索タスク 2 図は Zhang and Balog, Ad Hoc Table

• 表の検索は複数のフィールドを持つ⽂書の検索である ‒ Multi-field Document Retrieval ‒ フィールドごとに異なった性質を持つ ‒ フィールドは必ずしも⽂章とは限らない

Web Table Retrieval using Multimodal Deep Learning (SIGIR 2020) 1

• 表をマルチモーダルなデータであるとみなしモダリティ（=フィールド）ごとに異なる構造の NN で Encode した後にモダリティを統合する⼀⾔でいうと 5 1.

⼿法: 1. 表を個別のモダリティへ変換 6 クエリキャプションタイトル列名列の集合⾏の集合

⼿法: 2. モダリティごとに Encoding 7 1. 表を個別のモダリティへ変換 2. モダリティごとに

⼿法: 3. GMU でモダリティを統合 8 1. 表を個別のモダリティへ変換 2. モダリティごとに

実験 9 データセット WikiTables GNQTables クエリの形式キーワード (=短い) 質問⽂ (=⻑い)

Table Search Using a Deep Contextualized Language Model (SIGIR 2020)

• BERT で表検索をするために⼊⼒⻑制限を回避する⽅法をいくつか⽐較・検討した⼀⾔でいうと 11 WikiTables データセットにおけるフィールドごとの⻑さの統計情報約

フィールドの扱い 12 キャプションタイトル列名列の集合⾏の集合本論⽂では表のフィールドを以下のように使い分けるセルの集合

Content Selector 13 ではクエリと表の内容の類似度を単語埋め込みを利⽤して計算する類似度は以下の 3 つを提案内容の埋め込みの重⼼クエリの埋め込みの重⼼ Mean

⼿法（概要） 14 列の集合⾏の集合 ① セルの集合を以下の列に変換し BERT に⼊れる [

実験 15 データセット WikiTables WebQueryTable クエリの形式キーワードキーワード表の取得元 Wikipedia

アドホック表検索タスクに対して 1. 表をマルチモーダルなデータとみなしてランキングする⼿法 2. BERT を⽤いてランキングする⼿法がそれぞれ提案された • 所感 ‒