Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【輪講資料】Mining the Web for Points of Interest【SIG...

【輪講資料】Mining the Web for Points of Interest【SIGIR2012】

2013-04-24に職場の輪講で発表した資料をアップロード.
SIGIR2012で発表された,POI(Point of Interest: ランドマークや遺跡、店舗などの地理的な固有物)を文中から抽出し,緯度経度情報を付与する手法の論文を扱っています.

簡単な感想付きの記事を以下に公開しています.
http://www.dreamedge.net/archives/587

Yuichiro SEKIGUCHI

April 24, 2013
Tweet

More Decks by Yuichiro SEKIGUCHI

Other Decks in Research

Transcript

  1. 2013-04-24 1 Mining the Web for Points of Interest Rae,

    A., Murdock, V., Bouchard, H. @Yahoo! Research Popescu, A. @CEA,LIST 2013-04-24 輪講資料
  2. 2013-04-24 2 概要  Web文書からのPOI情報の自動収集  POI = Point Of

    Interest » ランドマークや遺跡、店舗などの地理的な固有物 » 名称と緯度経度情報からなる  WikipediaやFoursquareのから学習データを用意する しくみを提案  Yahoo!の既存サービス(Placemaker)よりもPrecision, Recallともに大幅に上昇  現在, PlacemakerはYahoo!BOSSの1機能 http://developer.yahoo.com/boss/
  3. 2013-04-24 5 POIの特定  CRFを用いてPOI部分を特定する  既存の固有表現抽出と同様の仕組み  CRFとは 

    系列ラベリングの手法の一つ  前後の内容を考慮しながら各要素を分類する マリノス B-POI タウン I-POI で Other 見学 Other した Other 入力系列: 推定結果: B-POI:POIの開始形態素 I-POI:POIの形態素(先頭以外) Other:それ以外の形態素
  4. 2013-04-24 8 語句ベース・品詞素性 ”one of the most successful J-League clubs”

     表記:J-League  小文字化表記:j-league  大文字およびハイフンがあるか:1  先頭が大文字か: 1  文頭にあるか: 0  文末にあるか: 0  先頭3文字: J-L  末尾3文字: gue  品詞(OpenNLPで付与): 名詞
  5. 2013-04-24 10 地理関係の素性  単語をPlacemakerにかけた結果を用いる  有料のシステムを潤沢に使っている! » 1000クエリあたり3~6ドル≒30語の文で約0.1ドル 

    各素性は以下のとおり  地名らしさの確率  既存地名にマッチするか  適合した地名数(表記ゆれ有り)  適合した地名数(表記ゆれ無し)  ユニーク率(表記ゆれあり数 / 表記ゆれ無し数)
  6. 2013-04-24 11 評価:POIの抽出  2つのデータセットを用意  ニュース記事1337件を人手評価 » 2名で正解付け、一致率73.9% 

    Wikipediaの概要5186文 » 見出し名を正解POIとする » GeonamesでSpotクラスとなる語句を抽出(2896語)  10分割交差検定で評価
  7. 2013-04-24 12 交差検定とは  交差検定(Cross-validation)とは、統計学において標本データを分割し、 その一部をまず解析して、残る部分でその解析のテストを行い、解析自身 の妥当性の検証・確認に当てる手法を指す。 - wikipediaより 例:正解付きデータ150件を50件ずつ3グループに分けて

    以下のように実施し平均をとる  nグループに分ける場合をn分割交差検定(n-fold cross validation) と呼ぶ(上の例は3分割交差検定)  各グループごとにデータがばらつかないよう気をつける必要がある グループ1 グループ2 グループ3 1回目 学習 学習 評価 2回目 学習 評価 学習 3回目 評価 学習 学習
  8. 2013-04-24 15 緯度経度付与  Serdykovらの手法の改良(LocationModel)  Flickr写真のタグ文字列と緯度経度情報を利用  1km四方に含まれるタグ集合を文書として、 文書検索する

    マリノスタウン マリノスタウン マリノスタウン マリノスタウン マリノスタウン みなとみらい みなとみらい みなとみらい みなとみらい みなとみらい みなとみらい みなとみらい みなとみらい みなとみらい みなとみらい みなとみらい みなとみらい マリノスタウン の場所 マリノスタウン
  9. 2013-04-24 16 検索重みの計算式  P(t|qL ):範囲Lにおいてタグtが出現する確率  cuser (t,L):範囲Lでタグtを付与したユーザ数 

    オリジナルと違いタグ数でなくユーザ数を採用  付与する緯度経度は1km四方の重心を採用  重心が四角形の中央かタグの重心か読み取りきれなかった
  10. 2013-04-24 17 Placemakerとの複合手法  Cascade Model  まずPlacemakerで取得  取れない場合にLocation

    Modelで取得  Geo Scope Model  まずPlacemakerで取得  Placemakerで解析対象文書の地理範囲を取得 » 文中の他のPOIから推定する模様  その範囲内でLocation Modelを実行
  11. 2013-04-24 18 評価:緯度経度の付与  400POIについて緯度経度を人手で付与  POIを3種類に分類  POI(known):PlacemakerでPOIとなる語句 

    Other:PlacemakerでPOIにならないが取得可能  New:Placemakerで取得不可能  正解との距離[km]の中央値で評価  一番外れると地球の裏側になるので中央値  Placemakerは全400POI中265取得  POI:134,Other:131  Location Modelは395取得
  12. 2013-04-24 20 まとめ と 所感  既存の技術をWeb情報で向上させる手法  ややIndustrial Sessionっぽい内容

     正解50,000文を自動作成してもYahoo!BOSS使用料で 50万円($1=¥100,1snippet=30words換算)かかるお…  Wikipediaによるデータ拡張はPrecisionが, Foursquareによるデータ拡張はRecallが向上  チェックインサービスはPOIのバリエーションが多いから?  緯度経度の自動付与手法を改良  GeoScopeModelにより新規地名への精度を向上  実用的でなく感じるのは日本と距離感覚が違うからか…?