Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【輪講資料】Optimal Hashing Schemes for Entity Matching【WWW2013】

【輪講資料】Optimal Hashing Schemes for Entity Matching【WWW2013】

2013-05-29に職場の輪講で発表した資料をアップロード.
WWW2013で発表された,Webページなどから抽出した大量の固有表現(人名・組織名などなど)に対して一致判定を行う際に,その一致判定ルールを最適化する方法について理論的にアプローチしている論文です.

簡単な感想付きの記事を以下に公開しています.
http://www.dreamedge.net/archives/609

Yuichiro SEKIGUCHI

May 29, 2013
Tweet

More Decks by Yuichiro SEKIGUCHI

Other Decks in Research

Transcript

  1. 2013-05-29 1 Optimal Hashing Schemes for Entity Matching N. Dalvi†,

    V. Rastogi‡, A. Dasgupta§, A. D. Sarma‡, T. Sarlos‡ †Facebook, ‡Google, §Yahoo 2013-05-29 輪講資料
  2. 2013-05-29 2 概要  Web上から収集した固有情報(店舗とか)を集約する 技術の論文  Yahoo! LOCALが対象 

    固有情報集約の仕組みを一般化・定式化して  最適化問題として集約関数を自動調整する手法  基本的に定式化の証明が中心になっています  証明部分はあまり面白くないのですっ飛ばして説明します
  3. 2013-05-29 7 最適なルールの定義 1. 固有物の集合を適切に分割できる ⇒『(店名)が一致』 だと aとcが区別できない ⇒『(店名∧住所) が一致』

    ならOK 2. 分割が重複するルールがない ⇒ 『(店名∧住所)∨(TEL)が一致』よりも 『(TEL)が一致』の方がよい 店名 住所 TEL a. 甘太郎 東京都 03XXXX... b. 庄屋 東京都 03YYYY... c. 甘太郎 神奈川県 045ZZZ... d. 甘太郎 神奈川県 045ZZZ... 重複データ および および または
  4. 2013-05-29 8 アプローチ  集約ルール(h)および集約ルール集合(Hもしくはφ)の コスト関数を定義し、cost(H)の最小化問題とする  単独で細かく集約できるルールがよいルール  Bはルールhによって分割された要素集合

     完全一致による分割で,一致するものが多いとコスト大 (店名):32+12=10 (住所):22+22=8 (TEL):12+12+22=6 店名 住所 TEL a. 甘太郎 東京都 03XXXX... b. 庄屋 東京都 03YYYY... c. 甘太郎 神奈川県 045ZZZ... d. 甘太郎 神奈川県 045ZZZ... TELがコスト最小
  5. 2013-05-29 9 最適化手法  入力ルール集合を組み替えて最適化する  手法は4種類 Hbase : 最適化しない(=入力をそのまま使う)

    Hdp : 動的計画法による最適化 Hgreedy : Chvatal et. al.の手法による最適化 Hmerge : ボトムアップ集約による最適化 »コストの算出は基本力づく(全データなめる) 提案手法であるHdp とHmerge について説明 »Hmerge はHgreedy の改良版
  6. 2013-05-29 12 でも実際は類似度で判定するよね  ここまでは全部『完全一致』で一致判定する話でした  実際は 「手作り居酒屋 甘太郎 田町店」と

    「個室 居酒屋 甘太郎 田町店 【焼肉 食べ放題 飲み放題 誕生日 カラオケ】」 を名寄せしないといけない(´・ω・`)
  7. 2013-05-29 14 評価  データセット  Yahoo!LOCALの企業データ100.9M Entity  各Entityは12属性を持つ

    » name, contact, estimated-budget, etc...  最適化対象データセット  ランダムに作成した集約ルール集合(完全一致)  ランダムに作成した集約ルール集合(類似度) » 集約ルール数k、各集約ルールの属性数s  Yahoo!LOCALで使っている集約ルール集合 » random forestで学習したものを変換 » 判定精度は良いが冗長なルール
  8. 2013-05-29 20 まとめと所感  貢献は以下の3点 固有情報集約の仕組みを一般化・定式化 集約ルールを最適化する手法を提案 » Hmergeが処理量も少なく集約効果も高かった 運用されている複雑なルールが劇的に最適化

    された実例を提示  省略したが,最適化の近似度合い等も定式化されて かなりきれいに理論が整理されている  その分読み解くのがかなり難しい  ところどころ解釈を間違っているかも orz...