Slide 1

Slide 1 text

2013-04-24 1 Mining the Web for Points of Interest Rae, A., Murdock, V., Bouchard, H. @Yahoo! Research Popescu, A. @CEA,LIST 2013-04-24 輪講資料

Slide 2

Slide 2 text

2013-04-24 2 概要  Web文書からのPOI情報の自動収集  POI = Point Of Interest » ランドマークや遺跡、店舗などの地理的な固有物 » 名称と緯度経度情報からなる  WikipediaやFoursquareのから学習データを用意する しくみを提案  Yahoo!の既存サービス(Placemaker)よりもPrecision, Recallともに大幅に上昇  現在, PlacemakerはYahoo!BOSSの1機能 http://developer.yahoo.com/boss/

Slide 3

Slide 3 text

2013-04-24 3 課題:POIの抽出  文書中の地名を自動で抽出し、 それに対して緯度経度を付与する マリノスタウンで見学した 緯度:35.46355 経度:139.629917  地理検索などの基本技術  通常は人で整備したDBを利用する

Slide 4

Slide 4 text

2013-04-24 4 提案手法概要  POI特定、緯度経度付与の2段階の手法 マリノスタウンで見学した 緯度:35.46355 経度:139.629917 ①POIの特定 ②緯度経度付与

Slide 5

Slide 5 text

2013-04-24 5 POIの特定  CRFを用いてPOI部分を特定する  既存の固有表現抽出と同様の仕組み  CRFとは  系列ラベリングの手法の一つ  前後の内容を考慮しながら各要素を分類する マリノス B-POI タウン I-POI で Other 見学 Other した Other 入力系列: 推定結果: B-POI:POIの開始形態素 I-POI:POIの形態素(先頭以外) Other:それ以外の形態素

Slide 6

Slide 6 text

2013-04-24 6 CRFの基本手法  ありえる全てのラベルの組み合わせのうち 最も確率の高くなる系列を選択する  Viterbiアルゴリズムなどで解く  今回はPOIの抽出のみに特化 BOF EOS B I O マリノス B I O B I O B I O B I O タウン で 見学 した

Slide 7

Slide 7 text

2013-04-24 7 CRFに用いる素性  語句ベース、品詞、バイグラム、地理関係の 大きく4種別

Slide 8

Slide 8 text

2013-04-24 8 語句ベース・品詞素性 ”one of the most successful J-League clubs”  表記:J-League  小文字化表記:j-league  大文字およびハイフンがあるか:1  先頭が大文字か: 1  文頭にあるか: 0  文末にあるか: 0  先頭3文字: J-L  末尾3文字: gue  品詞(OpenNLPで付与): 名詞

Slide 9

Slide 9 text

2013-04-24 9  次の語句とのPointwise mutural informationを正規 化・離散化 例:p(x)、p(y):語句x,yの出現確率 p(x, y):語句xyが同時に出現する確率 ⇒2語の検索クエリログから確率取得  クエリログから確率とるのは特徴的 バイグラム素性

Slide 10

Slide 10 text

2013-04-24 10 地理関係の素性  単語をPlacemakerにかけた結果を用いる  有料のシステムを潤沢に使っている! » 1000クエリあたり3~6ドル≒30語の文で約0.1ドル  各素性は以下のとおり  地名らしさの確率  既存地名にマッチするか  適合した地名数(表記ゆれ有り)  適合した地名数(表記ゆれ無し)  ユニーク率(表記ゆれあり数 / 表記ゆれ無し数)

Slide 11

Slide 11 text

2013-04-24 11 評価:POIの抽出  2つのデータセットを用意  ニュース記事1337件を人手評価 » 2名で正解付け、一致率73.9%  Wikipediaの概要5186文 » 見出し名を正解POIとする » GeonamesでSpotクラスとなる語句を抽出(2896語)  10分割交差検定で評価

Slide 12

Slide 12 text

2013-04-24 12 交差検定とは  交差検定(Cross-validation)とは、統計学において標本データを分割し、 その一部をまず解析して、残る部分でその解析のテストを行い、解析自身 の妥当性の検証・確認に当てる手法を指す。 - wikipediaより 例:正解付きデータ150件を50件ずつ3グループに分けて 以下のように実施し平均をとる  nグループに分ける場合をn分割交差検定(n-fold cross validation) と呼ぶ(上の例は3分割交差検定)  各グループごとにデータがばらつかないよう気をつける必要がある グループ1 グループ2 グループ3 1回目 学習 学習 評価 2回目 学習 評価 学習 3回目 評価 学習 学習

Slide 13

Slide 13 text

2013-04-24 13 学習データ補強  人手での正解データやWikipediaの概要文では学習 データが足りない ⇒検索結果スニペットを利用  Wikipedia見出し語、Foursquare地点名、Gowalla地点名 でBing検索  上位10スニペットを取得、検索語を正解とする » Foursquare, Gowallaはそのうち5万文をランダムサンプル

Slide 14

Slide 14 text

2013-04-24 14 補強データでの精度  補強データで学習し,人手正解データで評価  Placemakerで判別可能な地名(Known)と 判別不可能な地名(New)それぞれの精度も算出  人手作成の正解データを使った場合(Precision:0.686, Recall:0.463)には及ばないがそれなりに向上

Slide 15

Slide 15 text

2013-04-24 15 緯度経度付与  Serdykovらの手法の改良(LocationModel)  Flickr写真のタグ文字列と緯度経度情報を利用  1km四方に含まれるタグ集合を文書として、 文書検索する マリノスタウン マリノスタウン マリノスタウン マリノスタウン マリノスタウン みなとみらい みなとみらい みなとみらい みなとみらい みなとみらい みなとみらい みなとみらい みなとみらい みなとみらい みなとみらい みなとみらい みなとみらい マリノスタウン の場所 マリノスタウン

Slide 16

Slide 16 text

2013-04-24 16 検索重みの計算式  P(t|qL ):範囲Lにおいてタグtが出現する確率  cuser (t,L):範囲Lでタグtを付与したユーザ数  オリジナルと違いタグ数でなくユーザ数を採用  付与する緯度経度は1km四方の重心を採用  重心が四角形の中央かタグの重心か読み取りきれなかった

Slide 17

Slide 17 text

2013-04-24 17 Placemakerとの複合手法  Cascade Model  まずPlacemakerで取得  取れない場合にLocation Modelで取得  Geo Scope Model  まずPlacemakerで取得  Placemakerで解析対象文書の地理範囲を取得 » 文中の他のPOIから推定する模様  その範囲内でLocation Modelを実行

Slide 18

Slide 18 text

2013-04-24 18 評価:緯度経度の付与  400POIについて緯度経度を人手で付与  POIを3種類に分類  POI(known):PlacemakerでPOIとなる語句  Other:PlacemakerでPOIにならないが取得可能  New:Placemakerで取得不可能  正解との距離[km]の中央値で評価  一番外れると地球の裏側になるので中央値  Placemakerは全400POI中265取得  POI:134,Other:131  Location Modelは395取得

Slide 19

Slide 19 text

2013-04-24 19 評価:緯度経度の付与  NewについてはGeoScopeがかなり効く  それでも6km離れる  分散とかがないので実際に実用的かは不明  Placemaker(おそらく辞書ベース)はやっぱり優秀

Slide 20

Slide 20 text

2013-04-24 20 まとめ と 所感  既存の技術をWeb情報で向上させる手法  ややIndustrial Sessionっぽい内容  正解50,000文を自動作成してもYahoo!BOSS使用料で 50万円($1=¥100,1snippet=30words換算)かかるお…  Wikipediaによるデータ拡張はPrecisionが, Foursquareによるデータ拡張はRecallが向上  チェックインサービスはPOIのバリエーションが多いから?  緯度経度の自動付与手法を改良  GeoScopeModelにより新規地名への精度を向上  実用的でなく感じるのは日本と距離感覚が違うからか…?