The Web Conference 2022 国際会議報告丸田

Slide 1

Slide 1 text

StruBERT: Structure-aware BERT for Table Search and Matching の紹介 Pengcheng Yin, Graham Neubig, Wen-tau Yih, Sebastian Riedel 筑波⼤学加藤研究室修⼠ 2年丸⽥敦貴

Slide 2

Slide 2 text

背景: 表検索 2 クエリと表形式データのペアを⼊⼒し、各ペアの適合度を出⼒クエリ適合度: 2.0 スペイン出⾝のサッカー選⼿⼊⼒表検索モデル出⼒適合度: 0.1 各ペアの適合度名前チーム国メッシ Paris アルゼンチンロナウド Manchester United ポルトガルラモス Real Madrid スペイン年⼈⼝国 GDP 2017 1.2 ⽇本 4.9 2017 6.0 アメリカ 19.5 2022 6.4 アメリカ 23.0 … 国の統計に関する表形式データ出⼒サッカー選⼿に関する表形式データ

Slide 3

Slide 3 text

背景: 表マッチング 3 類似度: 0.8 選⼿チーム番号ロナウド Manchester United 7 メッシ Paris 30 ラモス Real Madrid 4 サッカー選⼿に関する表形式データのペア表形式データのペアを⼊⼒し、各ペアの類似度を出⼒名前チーム国メッシ Paris アルゼンチンロナウド Manchester United ポルトガルラモス Real Madrid スペイン表マッチングモデル名前チーム国メッシ Paris アルゼンチンロナウド Manchester United ポルトガルラモス Real Madrid スペイン年⼈⼝国 GDP 2017 1.2 ⽇本 4.9 2017 6.0 アメリカ 19.5 2022 6.4 アメリカ 23.0 サッカー選⼿に関する表形式データと国の統計に関する表形式データのペア類似度: 0.1 ⼊⼒出⼒各ペアの類似度 …

Slide 4

Slide 4 text

背景: BERT 4 • 事前学習済みモデルのBERT[1]は⾃然⾔語処理に関する様々なタスクで⾼い性能を⽰す深層学習モデル • 表検索タスクでもBERTを応⽤した⼿法が⾼い性能を⽰している[2] ‒ 表形式データから抽出したデータのみをBERTに⼊⼒しており、⾏や列といった表形式データの構造を考慮していない表形式データの構造情報をBERTに⼊⼒する表検索と表マッチングの⼿法は提案されていない [1] Devlin et al. “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”,arXiv:1810.04805 (2018). [2] Chen et al. “Table Search Using a Deep Contextualized Language Model” SIGIR 2020.

Slide 5

Slide 5 text

表形式データの構造を考慮したBERTベースの表検索、表マッチング⼿法を提案研究の⽬的 5 スペイン出⾝のサッカー選⼿適合度: 1.2 表形式データとクエリのペア表形式データのペア類似度: 0.8 選⼿チーム番号ロナウド Manchester United 7 メッシ Paris 30 ラモス Real Madrid 4 名前チーム国メッシ Paris アルゼンチンロナウド Manchester United ポルトガルラモス Real Madrid スペイン名前チーム国ポジションメッシ Paris 30 フォワードロナウド Manchester United 7 フォワードラモス Real Madrid 4 ディフェンス表検索⼿法⼊⼒出⼒表マッチング⼿法出⼒⼊⼒

Slide 6

Slide 6 text

表形式データの構造を考慮した埋め込みを表検索、表マッチングのランキングモデルに⼊⼒する提案⼿法 6 構造を考慮した表形式データの埋め込み適合度: 2.0 出⼒⼊⼒スペイン出⾝のサッカー選⼿表形式データとクエリのペア名前チーム国メッシ Paris アルゼンチンロナウド Manchester United ポルトガルラモス Real Madrid スペイン表形式データのペア選⼿チーム番号ロナウド Manchester United 7 メッシ Paris 30 ラモス Real Madrid 4 名前チーム国ポジションメッシ Paris 30 フォワードロナウド Manchester United 7 フォワードラモス Real Madrid 4 ディフェンス埋め込みモデル表検索ランキングモデル表マッチングランキングモデル類似度: 0.8 出⼒⼊⼒提案⼿法の概要図

Slide 7

Slide 7 text

表形式データの構造を考慮した埋め込みモデルと表検索、表マッチングのランキングモデルを提案提案⼿法 7 構造を考慮した表形式データの埋め込み適合度: 2.0 出⼒⼊⼒スペイン出⾝のサッカー選⼿表形式データとクエリのペア名前チーム国メッシ Paris アルゼンチンロナウド Manchester United ポルトガルラモス Real Madrid スペイン表形式データのペア選⼿チーム番号ロナウド Manchester United 7 メッシ Paris 30 ラモス Real Madrid 4 名前チーム国ポジションメッシ Paris 30 フォワードロナウド Manchester United 7 フォワードラモス Real Madrid 4 ディフェンス埋め込みモデル表検索ランキングモデル表マッチングランキングモデル類似度: 0.8 出⼒⼊⼒提案⼿法の概要図

Slide 8

Slide 8 text

• 表形式データの構造 ‒ 列: 複数のデータを1つの属性で表現 ‒ ⾏: 1件のデータを複数の属性で表現 • 表形式データの構造を考慮した埋め込み = 列と⾏のデータの関係性を保つ埋め込み ‒ 例)「メッシ」というセルが⼈の「名前」で「Paris」というチームに所属して、「アルゼンチン」という国出⾝であることを表すような埋め込みを⾏いたい • 表形式データの各列をテキストに変換してBERTに⼊⼒する⼿法[3]が表形式データの質問応答タスクで⾼い性能を⽰している提案⼿法: 表形式データ埋め込みのアイデア 8 各列と各⾏をテキストに変換してBERTに⼊⼒することで表形式データの構造情報を埋め込む名前チーム国メッシ Paris アルゼンチンロナウド Manchester United ポルトガルラモス Real Madrid スペイン列⾏表形式データ [3] Yin, et al. “TABERT: Pretraining for Joint Understanding of Textual and Tabular Data”. ACL 2020.

Slide 9

Slide 9 text

• 表形式データの列と⾏をテキストに変換し、BERTに⼊⼒ ‒ 各セルをヘッダ、データタイプ(text or real)、値の3つで表現 ‒ 例) セル「メッシ」→「名前 text メッシ」提案⼿法: 表形式データ埋め込み 9 列テキスト⾏テキスト BERT 表形式データの埋め込み名前チーム国メッシ Paris アルゼンチンロナウド Manchester United ポルトガルラモス Real Madrid スペインスペイン出⾝のサッカー選⼿表形式データクエリ [CLS]クエリ[SEP] 選⼿ text ラモス [SEP]…スペイン[SEP] [CLS]クエリ[SEP] 選⼿ text ロナウド [SEP]…ルトガル[SEP] [CLS]クエリ[SEP] 選⼿ text メッシ [SEP]…アルゼンチン[SEP] [CLS]クエリ[SEP] 国 text アルゼンチン [SEP]…スペイン[SEP] [CLS]クエリ[SEP] チーム text Paris [SEP]…Madrid[SEP] [CLS]クエリ[SEP] 選⼿ text メッシ [SEP]…ラモス[SEP] テキスト変換⾏テキストの BERT出⼒列テキストの BERT出⼒結合

Slide 10

Slide 10 text

表形式データの構造を考慮した埋め込みモデルと表検索、表マッチングのランキングモデルを提案提案⼿法 10 構造を考慮した表形式データの埋め込み適合度: 2.0 出⼒⼊⼒スペイン出⾝のサッカー選⼿表形式データとクエリのペア名前チーム国メッシ Paris アルゼンチンロナウド Manchester United ポルトガルラモス Real Madrid スペイン表形式データのペア選⼿チーム番号ロナウド Manchester United 7 メッシ Paris 30 ラモス Real Madrid 4 名前チーム国ポジションメッシ Paris 30 フォワードロナウド Manchester United 7 フォワードラモス Real Madrid 4 ディフェンス埋め込みモデル表検索ランキングモデル表マッチングランキングモデル類似度: 0.8 出⼒⼊⼒提案⼿法の概要図

Slide 11

Slide 11 text

• BERTを簡単にしたminiBERTに表形式データの埋め込みを⼊⼒ ‒ 1層のTransformer層 ‒ テキストではなくベクトルを⼊⼒する提案⼿法: ランキングモデル 11 表形式データの埋め込み⼊⼒ miniBERT 出⼒適合度: 2.0 表検索ランキングモデル表マッチングランキングモデル 2つの表形式データの埋め込み miniBERT 類似度: 0.8

Slide 12

Slide 12 text

• 表マッチングタスク ‒ 表形式データのペアを⼊⼒し、類似度を予測するタスク ‒ データセット: PMC ‒ 評価指標: 適合率、再現率、F値 ‒ ⽐較対象: TabSim[4]、TaBERT[3] • 表検索タスク ‒ クエリと表形式データを⼊⼒し、適合度を予測するタスク ‒ データセット: WikiTables ‒ 評価指標: nDCG、MRR、MAP ‒ ⽐較対象: TaBERT[3]、BERT-Row-Max[5]、DSRMM[6] 実験 12 実験の結果、提案⼿法が最も⾼い性能を⽰した [4] Habibi, et al. “TabSim: A Siamese Neural Network for Accurate Estimation of Table Similarity”. Big Data 2020. [5] Chem, et al. “Table Search Using a Deep Contextualized Language Model”. SIGIR 2020. [6] Trabelsi, et al. “A Hybrid Deep Model for Learning to Rank Data Tables”. Big Data 2020.

Slide 13

Slide 13 text

• 研究⽬的 ‒ 表形式データの構造を考慮したBERTベースの表検索、表マッチング⼿法を提案 • 提案⼿法 ‒ 表形式データの構造を考慮した埋め込みを作成し、ランキングモデルに⼊⼒ • 実験結果 ‒ 3つのタスクにおいて提案⼿法が最も⾼い性能を⽰した • 表マッチングタスク • キーワードベース表検索タスク • コンテンツベース表検索タスクまとめ 13

Slide 14

Slide 14 text

• データセット: PMC 実験結果: 表マッチング 14 0.5 0.6 0.7 0.8 0.9 提案⼿法 TaBERT[1] TabSim[2] ベースライン⼿法提案⼿法 (CNN) 表マッチングタスクにおいて、提案⼿法が最も⾼い性能を⽰した F値 [1] Yin et al. “TABERT: Pretraining for Joint Understanding of Textual and Tabular Data”, ACL 2020. [2] Habibi et al. “TabSim: A Siamese Neural Network for Accurate Estimation of Table Similarity”, Big Data 2020. Tfidf Embedding Tfidf & Embedding

Slide 15

Slide 15 text

0.3 0.4 0.5 0.6 0.7 • データセット: WikiTables 実験結果: キーワード表検索 15 nDCG@5 提案⼿法提案⼿法 (coarse) 提案⼿法 (fine) BERT-Row -Max[3] TaBERT[1] DSRMM[4] BM25 キーワード表検索タスクにおいて、提案⼿法が最も⾼い性能を⽰したベースライン⼿法 [1] Yin et al. “TABERT: Pretraining for Joint Understanding of Textual and Tabular Data”, ACL 2020. [3] Chen et al. “Table Search Using a Deep Contextualized Language Model”, SIGIR 2020. [4] Trabelsi et al. “A Hybrid Deep Model for Learning to Rank Data Tables. ”, Big Data 2020.

Slide 16

Slide 16 text

• データセット: query by example 実験結果:コンテンツベース表検索 16 0.45 0.5 0.55 0.6 0.65 提案⼿法 TaBERT[1] TabSim[2] 提案⼿法 (CNN) DSRMM[4] BM25 コンテンツベース表検索タスクにおいて、提案⼿法が最も⾼い性能を⽰した nDCG@5 ベースライン⼿法 [1] Yin et al. “TABERT: Pretraining for Joint Understanding of Textual and Tabular Data”, ACL 2020. [2] Habibi et al. “TabSim: A Siamese Neural Network for Accurate Estimation of Table Similarity”, Big Data 2020. [4] [4] Trabelsi et al. “A Hybrid Deep Model for Learning to Rank Data Tables. ”, Big Data 2020.

Slide 17

Slide 17 text

Slide 18

Slide 18 text

VisGNN: Personalized Visualization Recommendation via Graph Neural Networks の紹介 Fayokemi Ojo, Ryan A. Rossi, Jane Hoffswell, Shunan Guo, Fan Du, Sungchul Kim, Chang Xiao, Eunyee Koh 筑波⼤学修⼠2年丸⽥敦貴

Slide 19

Slide 19 text

背景: 可視化推薦 19 ⼊⼒されたデータから適切な可視化を推薦する技術年⼈⼝国 GDP 2017 1.2 ⽇本 4.9 2017 6.0 アメリカ 19.5 2022 6.4 アメリカ 23.0 ⼊⼒出⼒⼈⼝ 2017 2022 2019 年 1.23 1.24 1.25 1.26 1.27 データ可視化可視化推薦システムの概要図 … 可視化推薦システム

Slide 20

Slide 20 text

可視化推薦の既存研究 20 ⼊⼒されたデータの統計情報から事前に決められたルールや機械学習を⽤いて適切な可視化を推薦する⼿法が提案されている[1, 2] 既存⼿法ではデータのみに基づいており、ユーザの好みを考慮していない年⼈⼝ 2017 1.24 2018 1.23 2019 1.18 2020 1.10 データ抽出列数 : 2, ⾏数 : 4 “年” データタイプ: 数値値の平均値: 2018.5 “⼈⼝” … ⼊⼒既存⼿法⼈⼝ 2017 2020 年出⼒性別 ID 男性 1 男性 2 ⼥性 3 1 1.2 1.4 2018 2019 列数 : 2, ⾏数 : 3 “性別” データタイプ: ⽂字 “⼈⼝” データタイプ: 数値 … データの統計情報男性⼥性可視化抽出 [1] Vartak, et al. “Towards visualization recommendation systems”. SIGMOD 45, 4 (2017), 34‒39. [2] Hu, et al. “VizML: A Machine Learning Approach to Visualization Recommendation”. CHI 2019.

Slide 21

Slide 21 text

推薦システム推薦システムユーザの可視化の好みを推定する可視化推薦システムを提案研究の⽬的 21 ユーザデータ推薦システム出⼒ユーザの好みを反映した可視化可視化推薦システム⽇本の都道府県の⼈⼝データ時間経過を分析する可視化ユーザの好み年⼈⼝出⽣率転出率 2017 1.24 20 4.9 2018 1.23 19 19.5 2019 1.18 18 23.0 1.15 1.2 1.25 2017 2018 2019 ⼈⼝年⼊⼒ユーザの好みを推定することでユーザにとって適切な可視化を推薦

Slide 22

Slide 22 text

可視化の特性から既存⼿法を可視化推薦に適⽤することは困難可視化推薦の問題点 22 同じ可視化が作成されることはほとんどないため、ユーザの好みを推定することが困難 ‒ 可視化推薦では他のユーザとの共通点が⾒つからない映画推薦可視化推薦ユーザA ユーザB ユーザAの視聴履歴ユーザBの視聴履歴推薦？ユーザA ユーザB ユーザAの可視化履歴ユーザBの可視化履歴推薦好みが類似？

Slide 23

Slide 23 text

この研究ではユーザの可視化の好みを2つに分類 1. ユーザのデータの好み 2. ユーザの可視化⽅法の好みユーザの可視化の好み 23 ユーザA ⻑野県の⼈⼝データ茨城県の⼈⼝データユーザAが過去に使ったデータ推定⽇本の都道府県の⼈⼝データユーザAのデータの好み年⼈⼝出⽣率転出率 2017 1.24 20 4.9 2018 1.23 19 19.5 2019 1.18 18 23.0 ユーザAの⼊⼒データ推定ユーザA X軸:⽼年⼈⼝ Y軸:年折れ線グラフユーザAが過去に⾏った可視化 X軸:年少⼈⼝ Y軸:年折れ線グラフ時間経過による変化を分析する可視化推定ユーザAの可視化の好み推定年⼈⼝ 2017 1.24 2018 1.23 2019 1.18 X軸 Y軸ユーザAの⼊⼒データグラフの種類

Slide 24

Slide 24 text

• ユーザのデータの好みと可視化表現の好みはグラフと⾒なすことができる ‒ ユーザ、可視化⽅法、データをノードとして、ユーザの好みをエッジ • グラフニューラルネットワークはグラフ構造を考慮した埋め込みが可能 ‒ 可視化⽅法の好みとデータの好みに基づいたユーザ埋め込みが可能提案⼿法のアイデア 24 可視化⽅法データユーザ

Slide 25

Slide 25 text

グラフニューラルネットワークを⽤いて、データの好みと可視化⽅法の好みに基づいて、全ユーザを同じベクトル空間上に表現提案⼿法 25 ベクトル空間ユーザ同⼠の類似度から可視化推薦が可能になるユーザA ユーザB ユーザC ユーザAと好みが似ているユーザユーザB 可視化⽅法A 可視化⽅法B 可視化⽅法C ユーザAに対して可視化⽅法B を推薦

Slide 26

Slide 26 text

• データセット ‒ 可視化共有サイトPlot.lyから収集したデータ • 評価⽅法 ‒ データセットの中の特定のデータからそのデータを⽤いた可視化⽅法を推薦できるかどうか ‒ 評価指標: HR, nDCG ‒ ⽐較対象: k近傍ベース⼿法、eALS[3] • 結果提案⼿法が最も⾼い性能を⽰した実験 26 [3] He, et al. “Fast Matrix Factorization for Online Recommendation with Implicit Feedback”. SIGIR 2016

Slide 27

Slide 27 text

• 研究⽬的 ‒ パーソナライズされた可視化推薦システム • 提案⼿法 ‒ グラフニューラルネットワークを⽤いて、データの好みと可視化表現の好みに基づいて、全ユーザの表現を作成する • 実験 ‒ 可視化推薦タスクにおいて提案⼿法が⾼い性能を⽰したまとめ 27

Slide 28

Slide 28 text

実験結果: 可視化推薦 28 可視化推薦タスクにおいて、提案⼿法が最も⾼い性能を⽰した 0 0.1 0.2 0.3 0.4 0.5 0.6 nDCG@K 提案⼿法 eALS kNNVis PopVis K=1, 3, 5 K=1, 3, 5 K=1, 3, 5 K=1, 3, 5

Slide 29

Slide 29 text

実験結果: データ推薦 29 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 提案⼿法 K近傍法 Rondom HR@K K=1, 3, 5 K=1, 3, 5 K=1, 3, 5 データ推薦タスクにおいて、提案⼿法が最も⾼い性能を⽰した