【輪講資料】Mining the Web for Points of Interest【SIGIR2012】

Slide 1

Slide 1 text

2013-04-24 1 Mining the Web for Points of Interest Rae, A., Murdock, V., Bouchard, H. @Yahoo! Research Popescu, A. @CEA,LIST 2013-04-24 輪講資料

Slide 2

Slide 2 text

2013-04-24 2 概要  Web文書からのPOI情報の自動収集  POI = Point Of Interest » ランドマークや遺跡、店舗などの地理的な固有物 » 名称と緯度経度情報からなる  WikipediaやFoursquareのから学習データを用意するしくみを提案  Yahoo!の既存サービス（Placemaker）よりもPrecision, Recallともに大幅に上昇  現在， PlacemakerはYahoo!BOSSの1機能 http://developer.yahoo.com/boss/

Slide 3

Slide 3 text

2013-04-24 3 課題：POIの抽出  文書中の地名を自動で抽出し、それに対して緯度経度を付与するマリノスタウンで見学した緯度：35.46355 経度：139.629917  地理検索などの基本技術  通常は人で整備したDBを利用する

Slide 4

Slide 4 text

2013-04-24 4 提案手法概要  POI特定、緯度経度付与の2段階の手法マリノスタウンで見学した緯度：35.46355 経度：139.629917 ①POIの特定 ②緯度経度付与

Slide 5

Slide 5 text

2013-04-24 5 POIの特定  CRFを用いてPOI部分を特定する  既存の固有表現抽出と同様の仕組み  CRFとは  系列ラベリングの手法の一つ  前後の内容を考慮しながら各要素を分類するマリノス B-POI タウン I-POI で Other 見学 Other した Other 入力系列：推定結果： B-POI：POIの開始形態素 I-POI：POIの形態素（先頭以外） Other：それ以外の形態素

Slide 6

Slide 6 text

2013-04-24 6 CRFの基本手法  ありえる全てのラベルの組み合わせのうち最も確率の高くなる系列を選択する  Viterbiアルゴリズムなどで解く  今回はPOIの抽出のみに特化 BOF EOS B I O マリノス B I O B I O B I O B I O タウンで見学した

Slide 7

Slide 7 text

2013-04-24 7 CRFに用いる素性  語句ベース、品詞、バイグラム、地理関係の大きく4種別

Slide 8

Slide 8 text

2013-04-24 8 語句ベース・品詞素性 ”one of the most successful J-League clubs”  表記：J-League  小文字化表記：j-league  大文字およびハイフンがあるか：1  先頭が大文字か: 1  文頭にあるか: 0  文末にあるか: 0  先頭３文字: J-L  末尾３文字: gue  品詞（OpenNLPで付与）: 名詞

Slide 9

Slide 9 text

2013-04-24 9  次の語句とのPointwise mutural informationを正規化・離散化例：p(x)、p(y)：語句x,yの出現確率 p（ｘ, ｙ）：語句xyが同時に出現する確率 ⇒2語の検索クエリログから確率取得  クエリログから確率とるのは特徴的バイグラム素性

Slide 10

Slide 10 text

2013-04-24 10 地理関係の素性  単語をPlacemakerにかけた結果を用いる  有料のシステムを潤沢に使っている！ » 1000クエリあたり3～6ドル≒30語の文で約0.1ドル  各素性は以下のとおり  地名らしさの確率  既存地名にマッチするか  適合した地名数（表記ゆれ有り）  適合した地名数（表記ゆれ無し）  ユニーク率（表記ゆれあり数 / 表記ゆれ無し数）

Slide 11

Slide 11 text

2013-04-24 11 評価：POIの抽出  ２つのデータセットを用意  ニュース記事1337件を人手評価 » ２名で正解付け、一致率73.9％  Wikipediaの概要5186文 » 見出し名を正解POIとする » GeonamesでSpotクラスとなる語句を抽出（2896語）  10分割交差検定で評価

Slide 12

Slide 12 text

2013-04-24 12 交差検定とは  交差検定（Cross-validation）とは、統計学において標本データを分割し、その一部をまず解析して、残る部分でその解析のテストを行い、解析自身の妥当性の検証・確認に当てる手法を指す。 - wikipediaより例：正解付きデータ150件を50件ずつ3グループに分けて以下のように実施し平均をとる  nグループに分ける場合をn分割交差検定（n-fold cross validation）と呼ぶ（上の例は３分割交差検定）  各グループごとにデータがばらつかないよう気をつける必要があるグループ1 グループ2 グループ3 1回目学習学習評価 2回目学習評価学習 3回目評価学習学習

Slide 13

Slide 13 text

2013-04-24 13 学習データ補強  人手での正解データやWikipediaの概要文では学習データが足りない ⇒検索結果スニペットを利用  Wikipedia見出し語、Foursquare地点名、Gowalla地点名でBing検索  上位10スニペットを取得、検索語を正解とする » Foursquare, Gowallaはそのうち5万文をランダムサンプル

Slide 14

Slide 14 text

2013-04-24 14 補強データでの精度  補強データで学習し，人手正解データで評価  Placemakerで判別可能な地名（Known）と判別不可能な地名（New）それぞれの精度も算出  人手作成の正解データを使った場合（Precision:0.686, Recall:0.463）には及ばないがそれなりに向上

Slide 15

Slide 15 text

2013-04-24 15 緯度経度付与  Serdykovらの手法の改良（LocationModel）  Flickr写真のタグ文字列と緯度経度情報を利用  1km四方に含まれるタグ集合を文書として、文書検索するﾏﾘﾉｽﾀｳﾝﾏﾘﾉｽﾀｳﾝﾏﾘﾉｽﾀｳﾝﾏﾘﾉｽﾀｳﾝﾏﾘﾉｽﾀｳﾝみなとみらいみなとみらいみなとみらいみなとみらいみなとみらいみなとみらいみなとみらいみなとみらいみなとみらいみなとみらいみなとみらいみなとみらいマリノスタウンの場所ﾏﾘﾉｽﾀｳﾝ

Slide 16

Slide 16 text

2013-04-24 16 検索重みの計算式  P(t|qL )：範囲Lにおいてタグｔが出現する確率  cuser (t,L)：範囲Lでタグｔを付与したユーザ数  オリジナルと違いタグ数でなくユーザ数を採用  付与する緯度経度は1km四方の重心を採用  重心が四角形の中央かタグの重心か読み取りきれなかった

Slide 17

Slide 17 text

2013-04-24 17 Placemakerとの複合手法  Cascade Model  まずPlacemakerで取得  取れない場合にLocation Modelで取得  Geo Scope Model  まずPlacemakerで取得  Placemakerで解析対象文書の地理範囲を取得 » 文中の他のPOIから推定する模様  その範囲内でLocation Modelを実行

Slide 18

Slide 18 text

2013-04-24 18 評価：緯度経度の付与  400POIについて緯度経度を人手で付与  POIを３種類に分類  POI（known）：PlacemakerでPOIとなる語句  Other：PlacemakerでPOIにならないが取得可能  New：Placemakerで取得不可能  正解との距離[km]の中央値で評価  一番外れると地球の裏側になるので中央値  Placemakerは全400POI中265取得  POI：134，Other：131  Location Modelは395取得

Slide 19

Slide 19 text

2013-04-24 19 評価：緯度経度の付与  NewについてはGeoScopeがかなり効く  それでも6km離れる  分散とかがないので実際に実用的かは不明  Placemaker（おそらく辞書ベース）はやっぱり優秀

Slide 20

Slide 20 text

2013-04-24 20 まとめと所感  既存の技術をWeb情報で向上させる手法  ややIndustrial Sessionっぽい内容  正解50,000文を自動作成してもYahoo!BOSS使用料で 50万円（$1=￥100，1snippet=30words換算）かかるお…  Wikipediaによるデータ拡張はPrecisionが， Foursquareによるデータ拡張はRecallが向上  チェックインサービスはPOIのバリエーションが多いから？  緯度経度の自動付与手法を改良  GeoScopeModelにより新規地名への精度を向上  実用的でなく感じるのは日本と距離感覚が違うからか…？