Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【輪講資料】Learning to Rank for Spatiotemporal Search【WSDM2013】

【輪講資料】Learning to Rank for Spatiotemporal Search【WSDM2013】

2013-05-15に職場で実施した輪講資料を代理アップロードしました.

Yuichiro SEKIGUCHI

May 15, 2013
Tweet

More Decks by Yuichiro SEKIGUCHI

Other Decks in Research

Transcript

  1. 1 2013-05-05 輪講資料 Learning to Rank for Spatiotemporal Search Blake

    Shaw, Jon Shea, Siddhartha Sinha, Andrew Hogue Foursquare WSDM’13, February 4–8, 2012, Rome, Italy
  2. 2 参考: この論文が発表されたカンファレンスについて •WSDM(ウィズダム)2013 –6th ACM International Conference on Web

    Search and Data Mining •Web系の新たなトップカンファレンスの一つ。 WSDM13全論文の アブストラクトワードのタグクラウド http://www.wordle.net/show/wrdl/6627839/WSDM2013
  3. 6 この論文の概要 [まとめ] •位置情報からユーザが訪問したPOIを推定する –POI = Point of Interest, 誰かが便利、あるいは興味の

    ある所と思った特定の場所 –GPSの精度の悪さ、都会におけるPOIの密集が課題 –単なるFoursquareサービスの精度向上ではなく、「人 々」と「場所」のモデリングに貢献 –Foursquareの検索基盤システムについても紹介あり •アプローチ –各POIについて位置と時間を確率的モデル化 –ランキング学習の利用 •結果: チェックインのP@1 = 0.531
  4. 14 再掲 •位置で検索した結果を、機械学習に基づいて正し く並び替える 入力: 緯度・経度・ 時間・ユーザID 位置で検索 出力: ランキング

    されたスポット フィードバック: チェックイン等 ランキング学習モデル 並び替え ① ② ③
  5. 16 検索システム •GoogleのOSS「S2 Geometry Library」を使用 –http://code.google.com/p/s2-geometry-library/ •S2は、球面を立方体(a cube)にマッピング、 立方体の各面を4つの子正方形に分割し、これをセ ルと呼ぶ

    –立方体の各面をレベル0として、レベル30までセルに分 割すると、レベル30のセルは1cm未満のエリアとなる –各セルは64ビットの識別子(cell ID)を持つ –Key-valueストアDB上で検索システムを実装可能 •本論文(=Foursquare?)では、Apache Sole(ソーラ)を 使用
  6. 18 再掲 •位置で検索した結果を、機械学習に基づいて正し く並び替える 入力: 緯度・経度・ 時間・ユーザID 位置で検索 出力: ランキング

    されたスポット フィードバック: チェックイン等 ランキング学習モデル 並び替え ① ② ③ ④
  7. 22 実験に用いた最適化方法 •線形回帰 •Coordinate ascent(座標降下法) – Donald Metzler and W.

    Bruce Croft. Linear feature-based models for information retrieval. Information Retrieval, 10(3):257–274, June 2007. –線形回帰の最適化、ドメイン知識を組み込める •LambdaMART – Q. Wu, C. J. Burges, K. M. Svore, and J. Gao. Adapting boosting for information retrieval measures. Information Retrieval, 13(3):254–270, June 2010. –決定木のアンサンブルによるランキング学習法
  8. 24 予備実験:位置情報の限界 •Bleecker and Jones St. における14.3万件のチェッ クイン(右図) – チェックイン数が100件に満

    たないスポットを除去 – 90%学習、10%テスト •各スポットについて、正規 分布数1~5個(CVで決定 )の混合正規分布で学習 距離+時間の両方を考慮した方が良い結果。 それでも低い! ユーザ履歴が重要
  9. 27 今後の展望 •ユーザ属性(性別、年代、、、)も加えたい •スポットの訪問系列も考慮したい •スポットを点ではなく形状として考慮したい •天気も考慮したい •最後の文: –Every location update

    can act as a search into local real-time information, surfacing highly contextual results that can help people better understand and navigate the real world.  人々の行動の理解とナビゲーションを、位置情報でも っと良くして行きたい
  10. 28 この論文の概要 [まとめ] •位置情報からユーザが訪問したPOIを推定する –POI = Point of Interest, 誰かが便利、あるいは興味の

    ある所と思った特定の場所 –GPSの精度の悪さ、都会におけるPOIの密集が課題 –単なるFoursquareサービスの精度向上ではなく、「人 々」と「場所」のモデリングに貢献 –Foursquareの検索基盤システムについても紹介あり •アプローチ –各POIについて位置と時間を確率的モデル化 –ランキング学習の利用 •結果: チェックインのP@1 = 0.531