【輪講資料】Optimal Hashing Schemes for Entity Matching【WWW2013】
by
Yuichiro SEKIGUCHI
×
Copy
Open
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
2013-05-29 1 Optimal Hashing Schemes for Entity Matching N. Dalvi†, V. Rastogi‡, A. Dasgupta§, A. D. Sarma‡, T. Sarlos‡ †Facebook, ‡Google, §Yahoo 2013-05-29 輪講資料
Slide 2
Slide 2 text
2013-05-29 2 概要 Web上から収集した固有情報(店舗とか)を集約する 技術の論文 Yahoo! LOCALが対象 固有情報集約の仕組みを一般化・定式化して 最適化問題として集約関数を自動調整する手法 基本的に定式化の証明が中心になっています 証明部分はあまり面白くないのですっ飛ばして説明します
Slide 3
Slide 3 text
2013-05-29 3 背景 地図サービスとかクーポン情報検索とかをする場合, 多様なサイトから抽出した店舗情報を集約する
Slide 4
Slide 4 text
2013-05-29 4 背景 地図サービスとかクーポン情報検索とかをするばあい 多様なサイトから抽出した店舗情報を集約する でも、元の情報は多様な書き方をされている ⇒自動で集約する仕組みが必要
Slide 5
Slide 5 text
2013-05-29 5 背景 人手もしくは自動(機械学習)で集約ルール作るけど 複雑かつ冗長すぎる! ⇒重複確認は各ペアに対して行うので計算量が爆発 こんなのが出来るらしい……
Slide 6
Slide 6 text
2013-05-29 6 対象とするタスク 人手/自動で整備した複雑なルールを最適化する! ルールの品質を数値化し,最適化問題として解く 最適化 入 力 : 出 力 :
Slide 7
Slide 7 text
2013-05-29 7 最適なルールの定義 1. 固有物の集合を適切に分割できる ⇒『(店名)が一致』 だと aとcが区別できない ⇒『(店名∧住所) が一致』 ならOK 2. 分割が重複するルールがない ⇒ 『(店名∧住所)∨(TEL)が一致』よりも 『(TEL)が一致』の方がよい 店名 住所 TEL a. 甘太郎 東京都 03XXXX... b. 庄屋 東京都 03YYYY... c. 甘太郎 神奈川県 045ZZZ... d. 甘太郎 神奈川県 045ZZZ... 重複データ および および または
Slide 8
Slide 8 text
2013-05-29 8 アプローチ 集約ルール(h)および集約ルール集合(Hもしくはφ)の コスト関数を定義し、cost(H)の最小化問題とする 単独で細かく集約できるルールがよいルール Bはルールhによって分割された要素集合 完全一致による分割で,一致するものが多いとコスト大 (店名):32+12=10 (住所):22+22=8 (TEL):12+12+22=6 店名 住所 TEL a. 甘太郎 東京都 03XXXX... b. 庄屋 東京都 03YYYY... c. 甘太郎 神奈川県 045ZZZ... d. 甘太郎 神奈川県 045ZZZ... TELがコスト最小
Slide 9
Slide 9 text
2013-05-29 9 最適化手法 入力ルール集合を組み替えて最適化する 手法は4種類 Hbase : 最適化しない(=入力をそのまま使う) Hdp : 動的計画法による最適化 Hgreedy : Chvatal et. al.の手法による最適化 Hmerge : ボトムアップ集約による最適化 »コストの算出は基本力づく(全データなめる) 提案手法であるHdp とHmerge について説明 »Hmerge はHgreedy の改良版
Slide 10
Slide 10 text
2013-05-29 10 Hdp : 動的計画法による最適化 下記のDP(φ)を再帰的に呼び出す 総当りで少しずつルールを削ってコスト低減を見る 除去対象とするルール sを除いた後のφ
Slide 11
Slide 11 text
2013-05-29 11 Hmerge : ボトムアップ最適化 総コストが減少するようにルールを統合していく 2つのルールを集約 cost(h)<cost(h∩h’)なので cost(h)=cost(h∩h’)で最大
Slide 12
Slide 12 text
2013-05-29 12 でも実際は類似度で判定するよね ここまでは全部『完全一致』で一致判定する話でした 実際は 「手作り居酒屋 甘太郎 田町店」と 「個室 居酒屋 甘太郎 田町店 【焼肉 食べ放題 飲み放題 誕生日 カラオケ】」 を名寄せしないといけない(´・ω・`)
Slide 13
Slide 13 text
2013-05-29 13 類似度を使う場合でのコスト算出 サンプリングアルゴリズム( Bar-Yossef et. al.)を 元に類似度での分割状況を予測する 上手くばらついていないと もう一度 ランダムにEntityを選んで 分割数を予測する
Slide 14
Slide 14 text
2013-05-29 14 評価 データセット Yahoo!LOCALの企業データ100.9M Entity 各Entityは12属性を持つ » name, contact, estimated-budget, etc... 最適化対象データセット ランダムに作成した集約ルール集合(完全一致) ランダムに作成した集約ルール集合(類似度) » 集約ルール数k、各集約ルールの属性数s Yahoo!LOCALで使っている集約ルール集合 » random forestで学習したものを変換 » 判定精度は良いが冗長なルール
Slide 15
Slide 15 text
2013-05-29 15 参考:Yahoo!LOCALの集約ルール集合 元はランダムフォレストで学習したモデル 分かりやすいように人手で整形したのが上の例 各属性ごとに類似度を計算して一致判定 太字は確信度の高くないと一致としない属性 類似度は4gramでハミング距離を算出
Slide 16
Slide 16 text
2013-05-29 16 ランダムデータにおけるコスト低減度合い 大体どれを使っても同等のコスト低減効果 集約ルール数が30以上ではコストが増加しない ランダムに増加する冗長な集約ルールを削除できている
Slide 17
Slide 17 text
2013-05-29 17 最適化手法ごとの差分 Hdp (ExactCover)がコスト高い分若干性能良い 実用的にはHmerge (MergeCover)が最善 処理コストも低く,コスト低減効果も高い
Slide 18
Slide 18 text
2013-05-29 18 Yahoo!LOCALルール集合での評価 どの手法でも十分コストが低下 同様に実用的にはHmerge (GreedyMerge)が最善 » 名称が統一されていない理由は不明……
Slide 19
Slide 19 text
2013-05-29 19 最適化前後の集約ルール比較 劇的に低下! randam forestェ・・・ 最適化 入 力 : 出 力 :
Slide 20
Slide 20 text
2013-05-29 20 まとめと所感 貢献は以下の3点 固有情報集約の仕組みを一般化・定式化 集約ルールを最適化する手法を提案 » Hmergeが処理量も少なく集約効果も高かった 運用されている複雑なルールが劇的に最適化 された実例を提示 省略したが,最適化の近似度合い等も定式化されて かなりきれいに理論が整理されている その分読み解くのがかなり難しい ところどころ解釈を間違っているかも orz...