【輪講資料】Optimal Hashing Schemes for Entity Matching【WWW2013】

Slide 1

Slide 1 text

2013-05-29 1 Optimal Hashing Schemes for Entity Matching N. Dalvi†, V. Rastogi‡, A. Dasgupta§, A. D. Sarma‡, T. Sarlos‡ †Facebook, ‡Google, §Yahoo 2013-05-29 輪講資料

Slide 2

Slide 2 text

2013-05-29 2 概要  Web上から収集した固有情報（店舗とか）を集約する技術の論文  Yahoo! LOCALが対象  固有情報集約の仕組みを一般化・定式化して  最適化問題として集約関数を自動調整する手法  基本的に定式化の証明が中心になっています  証明部分はあまり面白くないのですっ飛ばして説明します

Slide 3

Slide 3 text

2013-05-29 3 背景  地図サービスとかクーポン情報検索とかをする場合，多様なサイトから抽出した店舗情報を集約する

Slide 4

Slide 4 text

2013-05-29 4 背景  地図サービスとかクーポン情報検索とかをするばあい多様なサイトから抽出した店舗情報を集約する  でも、元の情報は多様な書き方をされている ⇒自動で集約する仕組みが必要

Slide 5

Slide 5 text

2013-05-29 5 背景  人手もしくは自動（機械学習）で集約ルール作るけど複雑かつ冗長すぎる！ ⇒重複確認は各ペアに対して行うので計算量が爆発こんなのが出来るらしい……

Slide 6

Slide 6 text

2013-05-29 6 対象とするタスク  人手/自動で整備した複雑なルールを最適化する！  ルールの品質を数値化し，最適化問題として解く最適化入力：出力：

Slide 7

Slide 7 text

2013-05-29 7 最適なルールの定義 1. 固有物の集合を適切に分割できる ⇒『（店名）が一致』だと aとcが区別できない ⇒『（店名∧住所) が一致』ならOK 2. 分割が重複するルールがない ⇒ 『（店名∧住所）∨（TEL）が一致』よりも『（TEL）が一致』の方がよい店名住所 TEL a. 甘太郎東京都 03XXXX... b. 庄屋東京都 03YYYY... c. 甘太郎神奈川県 045ZZZ... d. 甘太郎神奈川県 045ZZZ... 重複データおよびおよびまたは

Slide 8

Slide 8 text

2013-05-29 8 アプローチ  集約ルール（ｈ）および集約ルール集合（Hもしくはφ）のコスト関数を定義し、cost(H)の最小化問題とする  単独で細かく集約できるルールがよいルール  Bはルールhによって分割された要素集合  完全一致による分割で，一致するものが多いとコスト大（店名）:32+12=10 （住所）:22+22=8 (TEL）:12+12+22=６店名住所 TEL a. 甘太郎東京都 03XXXX... b. 庄屋東京都 03YYYY... c. 甘太郎神奈川県 045ZZZ... d. 甘太郎神奈川県 045ZZZ... TELがコスト最小

Slide 9

Slide 9 text

2013-05-29 9 最適化手法  入力ルール集合を組み替えて最適化する  手法は4種類 Hbase : 最適化しない（=入力をそのまま使う） Hdp : 動的計画法による最適化 Hgreedy : Chvatal et. al.の手法による最適化 Hmerge : ボトムアップ集約による最適化 »コストの算出は基本力づく（全データなめる） 提案手法であるHdp とHmerge について説明 »Hmerge はHgreedy の改良版

Slide 10

Slide 10 text

2013-05-29 10 Hdp : 動的計画法による最適化  下記のDP（φ）を再帰的に呼び出す  総当りで少しずつルールを削ってコスト低減を見る除去対象とするルール sを除いた後のφ

Slide 11

Slide 11 text

2013-05-29 11 Hmerge : ボトムアップ最適化  総コストが減少するようにルールを統合していく２つのルールを集約 cost(h)＜cost(h∩h’)なので cost(h)=cost(h∩h’)で最大

Slide 12

Slide 12 text

2013-05-29 12 でも実際は類似度で判定するよね  ここまでは全部『完全一致』で一致判定する話でした  実際は「手作り居酒屋甘太郎田町店」と「個室居酒屋甘太郎田町店【焼肉食べ放題飲み放題誕生日カラオケ】」を名寄せしないといけない(´・ω・`)

Slide 13

Slide 13 text

2013-05-29 13 類似度を使う場合でのコスト算出  サンプリングアルゴリズム（ Bar-Yossef et. al.）を元に類似度での分割状況を予測する上手くばらついていないともう一度ランダムにEntityを選んで分割数を予測する

Slide 14

Slide 14 text

2013-05-29 14 評価  データセット  Yahoo!LOCALの企業データ100.9M Entity  各Entityは12属性を持つ » name, contact, estimated-budget, etc...  最適化対象データセット  ランダムに作成した集約ルール集合（完全一致）  ランダムに作成した集約ルール集合（類似度） » 集約ルール数k、各集約ルールの属性数s  Yahoo!LOCALで使っている集約ルール集合 » random forestで学習したものを変換 » 判定精度は良いが冗長なルール

Slide 15

Slide 15 text

2013-05-29 15 参考：Yahoo!LOCALの集約ルール集合  元はランダムフォレストで学習したモデル  分かりやすいように人手で整形したのが上の例  各属性ごとに類似度を計算して一致判定  太字は確信度の高くないと一致としない属性  類似度は4gramでハミング距離を算出

Slide 16

Slide 16 text

2013-05-29 16 ランダムデータにおけるコスト低減度合い  大体どれを使っても同等のコスト低減効果  集約ルール数が30以上ではコストが増加しない  ランダムに増加する冗長な集約ルールを削除できている

Slide 17

Slide 17 text

2013-05-29 17 最適化手法ごとの差分  Hdp （ExactCover）がコスト高い分若干性能良い  実用的にはHmerge （MergeCover）が最善  処理コストも低く，コスト低減効果も高い

Slide 18

Slide 18 text

2013-05-29 18 Yahoo!LOCALルール集合での評価  どの手法でも十分コストが低下  同様に実用的にはHmerge （GreedyMerge）が最善 » 名称が統一されていない理由は不明……

Slide 19

Slide 19 text

2013-05-29 19 最適化前後の集約ルール比較  劇的に低下！  randam forestェ・・・最適化入力：出力：

Slide 20

Slide 20 text

2013-05-29 20 まとめと所感  貢献は以下の3点 固有情報集約の仕組みを一般化・定式化 集約ルールを最適化する手法を提案 » Hmergeが処理量も少なく集約効果も高かった 運用されている複雑なルールが劇的に最適化された実例を提示  省略したが，最適化の近似度合い等も定式化されてかなりきれいに理論が整理されている  その分読み解くのがかなり難しい  ところどころ解釈を間違っているかも orz...