Slide 1

Slide 1 text

2013-05-29 1 Optimal Hashing Schemes for Entity Matching N. Dalvi†, V. Rastogi‡, A. Dasgupta§, A. D. Sarma‡, T. Sarlos‡ †Facebook, ‡Google, §Yahoo 2013-05-29 輪講資料

Slide 2

Slide 2 text

2013-05-29 2 概要  Web上から収集した固有情報(店舗とか)を集約する 技術の論文  Yahoo! LOCALが対象  固有情報集約の仕組みを一般化・定式化して  最適化問題として集約関数を自動調整する手法  基本的に定式化の証明が中心になっています  証明部分はあまり面白くないのですっ飛ばして説明します

Slide 3

Slide 3 text

2013-05-29 3 背景  地図サービスとかクーポン情報検索とかをする場合, 多様なサイトから抽出した店舗情報を集約する

Slide 4

Slide 4 text

2013-05-29 4 背景  地図サービスとかクーポン情報検索とかをするばあい 多様なサイトから抽出した店舗情報を集約する  でも、元の情報は多様な書き方をされている ⇒自動で集約する仕組みが必要

Slide 5

Slide 5 text

2013-05-29 5 背景  人手もしくは自動(機械学習)で集約ルール作るけど 複雑かつ冗長すぎる! ⇒重複確認は各ペアに対して行うので計算量が爆発 こんなのが出来るらしい……

Slide 6

Slide 6 text

2013-05-29 6 対象とするタスク  人手/自動で整備した複雑なルールを最適化する!  ルールの品質を数値化し,最適化問題として解く 最適化 入 力 : 出 力 :

Slide 7

Slide 7 text

2013-05-29 7 最適なルールの定義 1. 固有物の集合を適切に分割できる ⇒『(店名)が一致』 だと aとcが区別できない ⇒『(店名∧住所) が一致』 ならOK 2. 分割が重複するルールがない ⇒ 『(店名∧住所)∨(TEL)が一致』よりも 『(TEL)が一致』の方がよい 店名 住所 TEL a. 甘太郎 東京都 03XXXX... b. 庄屋 東京都 03YYYY... c. 甘太郎 神奈川県 045ZZZ... d. 甘太郎 神奈川県 045ZZZ... 重複データ および および または

Slide 8

Slide 8 text

2013-05-29 8 アプローチ  集約ルール(h)および集約ルール集合(Hもしくはφ)の コスト関数を定義し、cost(H)の最小化問題とする  単独で細かく集約できるルールがよいルール  Bはルールhによって分割された要素集合  完全一致による分割で,一致するものが多いとコスト大 (店名):32+12=10 (住所):22+22=8 (TEL):12+12+22=6 店名 住所 TEL a. 甘太郎 東京都 03XXXX... b. 庄屋 東京都 03YYYY... c. 甘太郎 神奈川県 045ZZZ... d. 甘太郎 神奈川県 045ZZZ... TELがコスト最小

Slide 9

Slide 9 text

2013-05-29 9 最適化手法  入力ルール集合を組み替えて最適化する  手法は4種類 Hbase : 最適化しない(=入力をそのまま使う) Hdp : 動的計画法による最適化 Hgreedy : Chvatal et. al.の手法による最適化 Hmerge : ボトムアップ集約による最適化 »コストの算出は基本力づく(全データなめる) 提案手法であるHdp とHmerge について説明 »Hmerge はHgreedy の改良版

Slide 10

Slide 10 text

2013-05-29 10 Hdp : 動的計画法による最適化  下記のDP(φ)を再帰的に呼び出す  総当りで少しずつルールを削ってコスト低減を見る 除去対象とするルール sを除いた後のφ

Slide 11

Slide 11 text

2013-05-29 11 Hmerge : ボトムアップ最適化  総コストが減少するようにルールを統合していく 2つのルールを集約 cost(h)<cost(h∩h’)なので cost(h)=cost(h∩h’)で最大

Slide 12

Slide 12 text

2013-05-29 12 でも実際は類似度で判定するよね  ここまでは全部『完全一致』で一致判定する話でした  実際は 「手作り居酒屋 甘太郎 田町店」と 「個室 居酒屋 甘太郎 田町店 【焼肉 食べ放題 飲み放題 誕生日 カラオケ】」 を名寄せしないといけない(´・ω・`)

Slide 13

Slide 13 text

2013-05-29 13 類似度を使う場合でのコスト算出  サンプリングアルゴリズム( Bar-Yossef et. al.)を 元に類似度での分割状況を予測する 上手くばらついていないと もう一度 ランダムにEntityを選んで 分割数を予測する

Slide 14

Slide 14 text

2013-05-29 14 評価  データセット  Yahoo!LOCALの企業データ100.9M Entity  各Entityは12属性を持つ » name, contact, estimated-budget, etc...  最適化対象データセット  ランダムに作成した集約ルール集合(完全一致)  ランダムに作成した集約ルール集合(類似度) » 集約ルール数k、各集約ルールの属性数s  Yahoo!LOCALで使っている集約ルール集合 » random forestで学習したものを変換 » 判定精度は良いが冗長なルール

Slide 15

Slide 15 text

2013-05-29 15 参考:Yahoo!LOCALの集約ルール集合  元はランダムフォレストで学習したモデル  分かりやすいように人手で整形したのが上の例  各属性ごとに類似度を計算して一致判定  太字は確信度の高くないと一致としない属性  類似度は4gramでハミング距離を算出

Slide 16

Slide 16 text

2013-05-29 16 ランダムデータにおけるコスト低減度合い  大体どれを使っても同等のコスト低減効果  集約ルール数が30以上ではコストが増加しない  ランダムに増加する冗長な集約ルールを削除できている

Slide 17

Slide 17 text

2013-05-29 17 最適化手法ごとの差分  Hdp (ExactCover)がコスト高い分若干性能良い  実用的にはHmerge (MergeCover)が最善  処理コストも低く,コスト低減効果も高い

Slide 18

Slide 18 text

2013-05-29 18 Yahoo!LOCALルール集合での評価  どの手法でも十分コストが低下  同様に実用的にはHmerge (GreedyMerge)が最善 » 名称が統一されていない理由は不明……

Slide 19

Slide 19 text

2013-05-29 19 最適化前後の集約ルール比較  劇的に低下!  randam forestェ・・・ 最適化 入 力 : 出 力 :

Slide 20

Slide 20 text

2013-05-29 20 まとめと所感  貢献は以下の3点 固有情報集約の仕組みを一般化・定式化 集約ルールを最適化する手法を提案 » Hmergeが処理量も少なく集約効果も高かった 運用されている複雑なルールが劇的に最適化 された実例を提示  省略したが,最適化の近似度合い等も定式化されて かなりきれいに理論が整理されている  その分読み解くのがかなり難しい  ところどころ解釈を間違っているかも orz...