Slide 1

Slide 1 text

StruBERT: Structure-aware BERT for Table Search and Matching の紹介 Pengcheng Yin, Graham Neubig, Wen-tau Yih, Sebastian Riedel 筑波⼤学 加藤研究室 修⼠ 2年 丸⽥ 敦貴

Slide 2

Slide 2 text

背景: 表検索 2 クエリと表形式データのペアを⼊⼒し、各ペアの適合度を出⼒ クエリ 適合度: 2.0 スペイン出⾝の サッカー選⼿ ⼊⼒ 表検索 モデル 出⼒ 適合度: 0.1 各ペアの適合度 名前 チーム 国 メッシ Paris アルゼンチン ロナウド Manchester United ポルトガル ラモス Real Madrid スペイン 年 ⼈⼝ 国 GDP 2017 1.2 ⽇本 4.9 2017 6.0 アメリカ 19.5 2022 6.4 アメリカ 23.0 … 国の統計に関する表形式データ 出⼒ サッカー選⼿に関する表形式データ

Slide 3

Slide 3 text

背景: 表マッチング 3 類似度: 0.8 選⼿ チーム 番号 ロナウド Manchester United 7 メッシ Paris 30 ラモス Real Madrid 4 サッカー選⼿に関する表形式データのペア 表形式データのペアを⼊⼒し、各ペアの類似度を出⼒ 名前 チーム 国 メッシ Paris アルゼンチン ロナウド Manchester United ポルトガル ラモス Real Madrid スペイン 表マッチング モデル 名前 チーム 国 メッシ Paris アルゼンチン ロナウド Manchester United ポルトガル ラモス Real Madrid スペイン 年 ⼈⼝ 国 GDP 2017 1.2 ⽇本 4.9 2017 6.0 アメリカ 19.5 2022 6.4 アメリカ 23.0 サッカー選⼿に関する表形式データと 国の統計に関する表形式データのペア 類似度: 0.1 ⼊⼒ 出⼒ 各ペアの類似度 …

Slide 4

Slide 4 text

背景: BERT 4 • 事前学習済みモデルのBERT[1]は⾃然⾔語処理に関する様々な タスクで⾼い性能を⽰す深層学習モデル • 表検索タスクでもBERTを応⽤した⼿法が⾼い性能を⽰している[2] ‒ 表形式データから抽出したデータのみをBERTに⼊⼒しており、⾏や列といっ た表形式データの構造を考慮していない 表形式データの構造情報をBERTに⼊⼒する表検索と表マッチング の⼿法は提案されていない [1] Devlin et al. “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”,arXiv:1810.04805 (2018). [2] Chen et al. “Table Search Using a Deep Contextualized Language Model” SIGIR 2020.

Slide 5

Slide 5 text

表形式データの構造を考慮したBERTベースの 表検索、表マッチング⼿法を提案 研究の⽬的 5 スペイン出⾝のサッカー選⼿ 適合度: 1.2 表形式データとクエリのペア 表形式データのペア 類似度: 0.8 選⼿ チーム 番号 ロナウド Manchester United 7 メッシ Paris 30 ラモス Real Madrid 4 名前 チーム 国 メッシ Paris アルゼンチン ロナウド Manchester United ポルトガル ラモス Real Madrid スペイン 名前 チーム 国 ポジション メッシ Paris 30 フォワード ロナウド Manchester United 7 フォワード ラモス Real Madrid 4 ディフェンス 表検索 ⼿法 ⼊⼒ 出⼒ 表マッチング ⼿法 出⼒ ⼊⼒

Slide 6

Slide 6 text

表形式データの構造を考慮した埋め込みを 表検索、表マッチングのランキングモデルに⼊⼒する 提案⼿法 6 構造を考慮した 表形式データの 埋め込み 適合度: 2.0 出⼒ ⼊⼒ スペイン出⾝のサッカー選⼿ 表形式データとクエリのペア 名前 チーム 国 メッシ Paris アルゼンチン ロナウド Manchester United ポルトガル ラモス Real Madrid スペイン 表形式データのペア 選⼿ チーム 番号 ロナウド Manchester United 7 メッシ Paris 30 ラモス Real Madrid 4 名前 チーム 国 ポジション メッシ Paris 30 フォワード ロナウド Manchester United 7 フォワード ラモス Real Madrid 4 ディフェンス 埋め込み モデル 表検索 ランキング モデル 表マッチング ランキング モデル 類似度: 0.8 出⼒ ⼊⼒ 提案⼿法の概要図

Slide 7

Slide 7 text

表形式データの構造を考慮した埋め込みモデルと 表検索、表マッチングのランキングモデルを提案 提案⼿法 7 構造を考慮した 表形式データの 埋め込み 適合度: 2.0 出⼒ ⼊⼒ スペイン出⾝のサッカー選⼿ 表形式データとクエリのペア 名前 チーム 国 メッシ Paris アルゼンチン ロナウド Manchester United ポルトガル ラモス Real Madrid スペイン 表形式データのペア 選⼿ チーム 番号 ロナウド Manchester United 7 メッシ Paris 30 ラモス Real Madrid 4 名前 チーム 国 ポジション メッシ Paris 30 フォワード ロナウド Manchester United 7 フォワード ラモス Real Madrid 4 ディフェンス 埋め込み モデル 表検索 ランキング モデル 表マッチング ランキング モデル 類似度: 0.8 出⼒ ⼊⼒ 提案⼿法の概要図

Slide 8

Slide 8 text

• 表形式データの構造 ‒ 列: 複数のデータを1つの属性で表現 ‒ ⾏: 1件のデータを複数の属性で表現 • 表形式データの構造を考慮した埋め込み = 列と⾏のデータの関係性を保つ埋め込み ‒ 例)「メッシ」というセルが⼈の「名前」で「Paris」というチームに所属して、 「アルゼンチン」という国出⾝であることを表すような埋め込みを⾏いたい • 表形式データの各列をテキストに変換してBERTに⼊⼒する⼿法[3]が 表形式データの質問応答タスクで⾼い性能を⽰している 提案⼿法: 表形式データ埋め込みのアイデア 8 各列と各⾏をテキストに変換してBERTに⼊⼒することで 表形式データの構造情報を埋め込む 名前 チーム 国 メッシ Paris アルゼンチン ロナウド Manchester United ポルトガル ラモス Real Madrid スペイン 列 ⾏ 表形式データ [3] Yin, et al. “TABERT: Pretraining for Joint Understanding of Textual and Tabular Data”. ACL 2020.

Slide 9

Slide 9 text

• 表形式データの列と⾏をテキストに変換し、BERTに⼊⼒ ‒ 各セルをヘッダ、データタイプ(text or real)、値の3つで表現 ‒ 例) セル「メッシ」→「名前 text メッシ」 提案⼿法: 表形式データ埋め込み 9 列テキスト ⾏テキスト BERT 表形式データの埋め込み 名前 チーム 国 メッシ Paris アルゼンチン ロナウド Manchester United ポルトガル ラモス Real Madrid スペイン スペイン出⾝のサッカー選⼿ 表形式データ クエリ [CLS]クエリ[SEP] 選⼿ text ラモス [SEP]…スペイン[SEP] [CLS]クエリ[SEP] 選⼿ text ロナウド [SEP]…ルトガル[SEP] [CLS]クエリ[SEP] 選⼿ text メッシ [SEP]…アルゼンチン[SEP] [CLS]クエリ[SEP] 国 text アルゼンチン [SEP]…スペイン[SEP] [CLS]クエリ[SEP] チーム text Paris [SEP]…Madrid[SEP] [CLS]クエリ[SEP] 選⼿ text メッシ [SEP]…ラモス[SEP] テキスト変換 ⾏テキストの BERT出⼒ 列テキストの BERT出⼒ 結合

Slide 10

Slide 10 text

表形式データの構造を考慮した埋め込みモデルと 表検索、表マッチングのランキングモデルを提案 提案⼿法 10 構造を考慮した 表形式データの 埋め込み 適合度: 2.0 出⼒ ⼊⼒ スペイン出⾝のサッカー選⼿ 表形式データとクエリのペア 名前 チーム 国 メッシ Paris アルゼンチン ロナウド Manchester United ポルトガル ラモス Real Madrid スペイン 表形式データのペア 選⼿ チーム 番号 ロナウド Manchester United 7 メッシ Paris 30 ラモス Real Madrid 4 名前 チーム 国 ポジション メッシ Paris 30 フォワード ロナウド Manchester United 7 フォワード ラモス Real Madrid 4 ディフェンス 埋め込み モデル 表検索 ランキング モデル 表マッチング ランキング モデル 類似度: 0.8 出⼒ ⼊⼒ 提案⼿法の概要図

Slide 11

Slide 11 text

• BERTを簡単にしたminiBERTに表形式データの埋め込みを⼊⼒ ‒ 1層のTransformer層 ‒ テキストではなくベクトルを⼊⼒する 提案⼿法: ランキングモデル 11 表形式データの埋め込み ⼊⼒ miniBERT 出⼒ 適合度: 2.0 表検索ランキングモデル 表マッチングランキングモデル 2つの表形式データの埋め込み miniBERT 類似度: 0.8

Slide 12

Slide 12 text

• 表マッチングタスク ‒ 表形式データのペアを⼊⼒し、類似度を予測するタスク ‒ データセット: PMC ‒ 評価指標: 適合率、再現率、F値 ‒ ⽐較対象: TabSim[4]、TaBERT[3] • 表検索タスク ‒ クエリと表形式データを⼊⼒し、適合度を予測するタスク ‒ データセット: WikiTables ‒ 評価指標: nDCG、MRR、MAP ‒ ⽐較対象: TaBERT[3]、BERT-Row-Max[5]、DSRMM[6] 実験 12 実験の結果、提案⼿法が最も⾼い性能を⽰した [4] Habibi, et al. “TabSim: A Siamese Neural Network for Accurate Estimation of Table Similarity”. Big Data 2020. [5] Chem, et al. “Table Search Using a Deep Contextualized Language Model”. SIGIR 2020. [6] Trabelsi, et al. “A Hybrid Deep Model for Learning to Rank Data Tables”. Big Data 2020.

Slide 13

Slide 13 text

• 研究⽬的 ‒ 表形式データの構造を考慮したBERTベースの表検索、表マッチング⼿法 を提案 • 提案⼿法 ‒ 表形式データの構造を考慮した埋め込みを作成し、ランキングモデルに⼊ ⼒ • 実験結果 ‒ 3つのタスクにおいて提案⼿法が最も⾼い性能を⽰した • 表マッチングタスク • キーワードベース表検索タスク • コンテンツベース表検索タスク まとめ 13

Slide 14

Slide 14 text

• データセット: PMC 実験結果: 表マッチング 14 0.5 0.6 0.7 0.8 0.9 提案⼿法 TaBERT[1] TabSim[2] ベースライン⼿法 提案⼿法 (CNN) 表マッチングタスクにおいて、提案⼿法が最も⾼い性能を⽰した F値 [1] Yin et al. “TABERT: Pretraining for Joint Understanding of Textual and Tabular Data”, ACL 2020. [2] Habibi et al. “TabSim: A Siamese Neural Network for Accurate Estimation of Table Similarity”, Big Data 2020. Tfidf Embedding Tfidf & Embedding

Slide 15

Slide 15 text

0.3 0.4 0.5 0.6 0.7 • データセット: WikiTables 実験結果: キーワード表検索 15 nDCG@5 提案⼿法 提案⼿法 (coarse) 提案⼿法 (fine) BERT-Row -Max[3] TaBERT[1] DSRMM[4] BM25 キーワード表検索タスクにおいて、提案⼿法が最も⾼い性能を⽰した ベースライン⼿法 [1] Yin et al. “TABERT: Pretraining for Joint Understanding of Textual and Tabular Data”, ACL 2020. [3] Chen et al. “Table Search Using a Deep Contextualized Language Model”, SIGIR 2020. [4] Trabelsi et al. “A Hybrid Deep Model for Learning to Rank Data Tables. ”, Big Data 2020.

Slide 16

Slide 16 text

• データセット: query by example 実験結果:コンテンツベース表検索 16 0.45 0.5 0.55 0.6 0.65 提案⼿法 TaBERT[1] TabSim[2] 提案⼿法 (CNN) DSRMM[4] BM25 コンテンツベース表検索タスクにおいて、提案⼿法が最も⾼い性能を⽰した nDCG@5 ベースライン⼿法 [1] Yin et al. “TABERT: Pretraining for Joint Understanding of Textual and Tabular Data”, ACL 2020. [2] Habibi et al. “TabSim: A Siamese Neural Network for Accurate Estimation of Table Similarity”, Big Data 2020. [4] [4] Trabelsi et al. “A Hybrid Deep Model for Learning to Rank Data Tables. ”, Big Data 2020.

Slide 17

Slide 17 text

17

Slide 18

Slide 18 text

VisGNN: Personalized Visualization Recommendation via Graph Neural Networks の紹介 Fayokemi Ojo, Ryan A. Rossi, Jane Hoffswell, Shunan Guo, Fan Du, Sungchul Kim, Chang Xiao, Eunyee Koh 筑波⼤学 修⼠2年 丸⽥ 敦貴

Slide 19

Slide 19 text

背景: 可視化推薦 19 ⼊⼒されたデータから適切な可視化を推薦する技術 年 ⼈⼝ 国 GDP 2017 1.2 ⽇本 4.9 2017 6.0 アメリカ 19.5 2022 6.4 アメリカ 23.0 ⼊⼒ 出⼒ ⼈⼝ 2017 2022 2019 年 1.23 1.24 1.25 1.26 1.27 データ 可視化 可視化推薦システムの概要図 … 可視化推薦 システム

Slide 20

Slide 20 text

可視化推薦の既存研究 20 ⼊⼒されたデータの統計情報から事前に決められたルールや機械学習を ⽤いて適切な可視化を推薦する⼿法が提案されている[1, 2] 既存⼿法ではデータのみに基づいており、ユーザの好みを考慮していない 年 ⼈⼝ 2017 1.24 2018 1.23 2019 1.18 2020 1.10 データ 抽出 列数 : 2, ⾏数 : 4 “年” データタイプ: 数値 値の平均値: 2018.5 “⼈⼝” … ⼊⼒ 既存⼿法 ⼈⼝ 2017 2020 年 出⼒ 性別 ID 男性 1 男性 2 ⼥性 3 1 1.2 1.4 2018 2019 列数 : 2, ⾏数 : 3 “性別” データタイプ: ⽂字 “⼈⼝” データタイプ: 数値 … データの統計情報 男性 ⼥性 可視化 抽出 [1] Vartak, et al. “Towards visualization recommendation systems”. SIGMOD 45, 4 (2017), 34‒39. [2] Hu, et al. “VizML: A Machine Learning Approach to Visualization Recommendation”. CHI 2019.

Slide 21

Slide 21 text

推薦 システム 推薦 システム ユーザの可視化の好みを推定する可視化推薦システムを提案 研究の⽬的 21 ユーザ データ 推薦 システム 出⼒ ユーザの好みを反映した可視化 可視化推薦システム ⽇本の都道府県 の⼈⼝データ 時間経過を 分析する可視化 ユーザの好み 年 ⼈⼝ 出⽣率 転出率 2017 1.24 20 4.9 2018 1.23 19 19.5 2019 1.18 18 23.0 1.15 1.2 1.25 2017 2018 2019 ⼈⼝ 年 ⼊⼒ ユーザの好みを推定することでユーザにとって適切な可視化を推薦

Slide 22

Slide 22 text

可視化の特性から既存⼿法を可視化推薦に適⽤することは困難 可視化推薦の問題点 22 同じ可視化が作成されることはほとんどないため、 ユーザの好みを推定することが困難 ‒ 可視化推薦では他のユーザとの共通点が⾒つからない 映画推薦 可視化推薦 ユーザA ユーザB ユーザAの視聴履歴 ユーザBの視聴履歴 推薦 ? ユーザA ユーザB ユーザAの可視化履歴 ユーザBの可視化履歴 推薦 好みが類似 ?

Slide 23

Slide 23 text

この研究ではユーザの可視化の好みを2つに分類 1. ユーザのデータの好み 2. ユーザの可視化⽅法の好み ユーザの可視化の好み 23 ユーザA ⻑野県の ⼈⼝データ 茨城県の ⼈⼝データ ユーザAが過去に使ったデータ 推定 ⽇本の都道府県の ⼈⼝データ ユーザAのデータの好み 年 ⼈⼝ 出⽣率 転出率 2017 1.24 20 4.9 2018 1.23 19 19.5 2019 1.18 18 23.0 ユーザAの⼊⼒データ 推定 ユーザA X軸:⽼年⼈⼝ Y軸:年 折れ線グラフ ユーザAが過去に⾏った可視化 X軸:年少⼈⼝ Y軸:年 折れ線グラフ 時間経過による変化を 分析する可視化 推定 ユーザAの可視化の好み 推定 年 ⼈⼝ 2017 1.24 2018 1.23 2019 1.18 X軸 Y軸 ユーザAの⼊⼒データ グラフの種類

Slide 24

Slide 24 text

• ユーザのデータの好みと可視化表現の好みはグラフと⾒なすこと ができる ‒ ユーザ、可視化⽅法、データをノードとして、ユーザの好みをエッジ • グラフニューラルネットワークはグラフ構造を考慮した埋め込み が可能 ‒ 可視化⽅法の好みとデータの好みに基づいたユーザ埋め込みが可能 提案⼿法のアイデア 24 可視化⽅法 データ ユーザ

Slide 25

Slide 25 text

グラフニューラルネットワークを⽤いて、データの好みと可視化⽅法の 好みに基づいて、全ユーザを同じベクトル空間上に表現 提案⼿法 25 ベクトル空間 ユーザ同⼠の類似度から可視化推薦が可能になる ユーザA ユーザB ユーザC ユーザAと好みが 似ているユーザ ユーザB 可視化⽅法A 可視化⽅法B 可視化⽅法C ユーザAに対して 可視化⽅法B を推薦

Slide 26

Slide 26 text

• データセット ‒ 可視化共有サイトPlot.lyから収集したデータ • 評価⽅法 ‒ データセットの中の特定のデータからそのデータを⽤いた可視化⽅法を推 薦できるかどうか ‒ 評価指標: HR, nDCG ‒ ⽐較対象: k近傍ベース⼿法、eALS[3] • 結果 提案⼿法が最も⾼い性能を⽰した 実験 26 [3] He, et al. “Fast Matrix Factorization for Online Recommendation with Implicit Feedback”. SIGIR 2016

Slide 27

Slide 27 text

• 研究⽬的 ‒ パーソナライズされた可視化推薦システム • 提案⼿法 ‒ グラフニューラルネットワークを⽤いて、データの好みと可視化表現の好 みに基づいて、全ユーザの表現を作成する • 実験 ‒ 可視化推薦タスクにおいて提案⼿法が⾼い性能を⽰した まとめ 27

Slide 28

Slide 28 text

実験結果: 可視化推薦 28 可視化推薦タスクにおいて、提案⼿法が最も⾼い性能を⽰した 0 0.1 0.2 0.3 0.4 0.5 0.6 nDCG@K 提案⼿法 eALS kNNVis PopVis K=1, 3, 5 K=1, 3, 5 K=1, 3, 5 K=1, 3, 5

Slide 29

Slide 29 text

実験結果: データ推薦 29 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 提案⼿法 K近傍法 Rondom HR@K K=1, 3, 5 K=1, 3, 5 K=1, 3, 5 データ推薦タスクにおいて、提案⼿法が最も⾼い性能を⽰した