【輪講資料】Learning to Rank for Spatiotemporal Search【WSDM2013】

1 2013-05-05 輪講資料 Learning to Rank for Spatiotemporal Search Blake
Shaw, Jon Shea, Siddhartha Sinha, Andrew Hogue Foursquare WSDM’13, February 4–8, 2012, Rome, Italy

2 参考: この論文が発表されたカンファレンスについて •WSDM（ウィズダム）2013 –6th ACM International Conference on Web
Search and Data Mining •Web系の新たなトップカンファレンスの一つ。 WSDM13全論文のアブストラクトワードのタグクラウド http://www.wordle.net/show/wrdl/6627839/WSDM2013

3 紹介目次の目次 •概要 •課題 •手法 •実験 •まとめ

4 この論文の概要 [テーマ] •このリストをいかに精度よく提示するか？  ユーザが実際に訪れた場所を、GPSなどが示す現在位置から推定する研究いまここにいる
付近のスポット（お店など）のリスト

5 この論文の概要 [システム] •位置で検索した結果を、機械学習に基づいて正しく並び替える入力: 緯度・経度・時間・ユーザID 位置で検索出力:
ランキングされたスポットフィードバック: チェックイン等ランキング学習モデル並び替え

6 この論文の概要 [まとめ] •位置情報からユーザが訪問したPOIを推定する –POI = Point of Interest, 誰かが便利、あるいは興味の
ある所と思った特定の場所 –GPSの精度の悪さ、都会におけるPOIの密集が課題 –単なるFoursquareサービスの精度向上ではなく、「人々」と「場所」のモデリングに貢献 –Foursquareの検索基盤システムについても紹介あり •アプローチ –各POIについて位置と時間を確率的モデル化 –ランキング学習の利用 •結果: チェックインのP@1 = 0.531

7 紹介論文の目次 •概要 •課題 •手法 •実験 •まとめ

8 測位精度の悪さ（GPS、Wi-Fi、携帯基地局） •ユーザがチェックインした位置と、選択したPOIの位置の間の距離の中央値は70m、平均値は551m

9 ユーザがチェックインする位置のバラつき黒点: チェックイン位置背景色: チェックイン確率（低）青赤（高）

10 紹介論文の目次 •概要 •課題 •手法 •実験 •まとめ

11 再掲 •位置で検索した結果を、機械学習に基づいて正しく並び替える入力: 緯度・経度・時間・ユーザID 位置で検索出力: ランキング
されたスポットフィードバック: チェックイン等ランキング学習モデル並び替え ① ②

12 POIとチェックイン位置のモデリング •「位置lが特定の場所vに属する確率」P(l|v)を混合正規分布モデルで定義、EMアルゴリズムで推定 •k: 正規分布インデクス •g: 2変量正規分布（μ、Σ） •c: 混合比
•混合正規分布数はCVで決定（1～5）

13 POIとチェックイン時間のモデリング •「場所vにおいて時間tにチェックインする確率」 P(t|v)を以下のモデルで定義 – wh(t): hours of the week,
※ 時間単位は不明

されたスポットフィードバック: チェックイン等ランキング学習モデル並び替え ① ② ③

15 位置からの検索 •最も単純な方法＝ユーザのクエリ位置に近いm個の人気スポットを返す –測位精度の悪さ –都市部におけるスポットの密集 –スポットは「中心点」でインデキシングされている  これだけだと精度がかなり悪いため、以下の3つで検索可能なスポットも補足として含める
–ユーザの現在位置から1km以内の最近6ヶ月以内にチェックインしたスポット –1.2km以内の友人が居るスポット –数km以内の「大きな」スポット（空港など）

16 検索システム •GoogleのOSS「S2 Geometry Library」を使用 –http://code.google.com/p/s2-geometry-library/ •S2は、球面を立方体（a cube）にマッピング、立方体の各面を4つの子正方形に分割し、これをセルと呼ぶ
–立方体の各面をレベル0として、レベル30までセルに分割すると、レベル30のセルは1cm未満のエリアとなる –各セルは64ビットの識別子（cell ID）を持つ –Key-valueストアDB上で検索システムを実装可能 •本論文（＝Foursquare？）では、Apache Sole（ソーラ）を使用

17 検索システム •S2は異なるセルレベルで検索可能 –ユーザの現在位置から指定した半径をカバーするように異なるレベルのセルが検索される –約150個のスポットをカバーするように、セ
ル内のスポット密度を用いて半径を決定 –上記＋前述の補足分がランキング対象

されたスポットフィードバック: チェックイン等ランキング学習モデル並び替え ① ② ③ ④

19 •ユーザによるチェックインを教師データとする –入力 : クエリに対してユーザに提示されたスポットのリスト –教師 : チェックインの有無{0,1}
–出力 : スポットのランキング •学習データの生成はMapReduce（Scala & Pig）学習データ

20 素性 •空間スコア（12ページ） •時間スコア（13ページ） •1日あたりの期待チェックイン数（指数移動平均） •その場所に今（＝最終チェックインから3時間以内）居る他のユーザ数 •ユーザがその場所を過去に訪問した回数 •ユーザがその場所を作成したか否か •ユーザがその場所のメイヤー（最もチェックインしている人物）か否か •その場所に今居る友人数
•ユーザがその場所を過去の同時間帯に訪問した回数 ↓ユーザ依存

21 評価指標 •情報検索の指標を利用 1件だけで当てる＝オートチェックイン精度 5件出した中に正解が含まれる割合上位で当てるほど値が高くなる

22 実験に用いた最適化方法 •線形回帰 •Coordinate ascent（座標降下法） – Donald Metzler and W.
Bruce Croft. Linear feature-based models for information retrieval. Information Retrieval, 10(3):257–274, June 2007. –線形回帰の最適化、ドメイン知識を組み込める •LambdaMART – Q. Wu, C. J. Burges, K. M. Svore, and J. Gao. Adapting boosting for information retrieval measures. Information Retrieval, 13(3):254–270, June 2010. –決定木のアンサンブルによるランキング学習法

23 紹介論文の目次 •概要 •課題 •手法 •実験 –予備実験 –本実験 •まとめ

24 予備実験：位置情報の限界 •Bleecker and Jones St. における14.3万件のチェックイン（右図） – チェックイン数が100件に満
たないスポットを除去 – 90％学習、10%テスト •各スポットについて、正規分布数1～5個（CVで決定）の混合正規分布で学習距離＋時間の両方を考慮した方が良い結果。それでも低い！ ユーザ履歴が重要

25 本実験 •38000件のチェックイン（世界中からランダムサンプリングしたもの）を学習データとする –400万のチェックイン候補が存在する –70％をTraining、15%をValidation、15%をTest 結果まとめ： •時間、空間、人気、ユーザ履歴の中で、最も重要なのはユーザ履歴
•全ての素性を使うことで精度アップ •最適化手法は LambdaMARTが最も良かった

26 分析 •近くに訪問経験のあるスポットが少量の時、推定精度が良い（左図） •スポットの密度が低いほど、推定精度が良い（中図） •位置測定時の精度(*)が良いほど、推定精度が良い（右図） – (*) 位置測定デバイスが報告する値

27 今後の展望 •ユーザ属性（性別、年代、、、）も加えたい •スポットの訪問系列も考慮したい •スポットを点ではなく形状として考慮したい •天気も考慮したい •最後の文: –Every location update
can act as a search into local real-time information, surfacing highly contextual results that can help people better understand and navigate the real world.  人々の行動の理解とナビゲーションを、位置情報でもっと良くして行きたい

28 この論文の概要 [まとめ] •位置情報からユーザが訪問したPOIを推定する –POI = Point of Interest, 誰かが便利、あるいは興味の
ある所と思った特定の場所 –GPSの精度の悪さ、都会におけるPOIの密集が課題 –単なるFoursquareサービスの精度向上ではなく、「人々」と「場所」のモデリングに貢献 –Foursquareの検索基盤システムについても紹介あり •アプローチ –各POIについて位置と時間を確率的モデル化 –ランキング学習の利用 •結果: チェックインのP@1 = 0.531

【輪講資料】Learning to Rank for Spatiotemporal Searc...

【輪講資料】Learning to Rank for Spatiotemporal Search【WSDM2013】

Yuichiro SEKIGUCHI

More Decks by Yuichiro SEKIGUCHI

Other Decks in Research

Featured

Transcript

1 2013-05-05 輪講資料 Learning to Rank for Spatiotemporal Search Blake

2 参考: この論文が発表されたカンファレンスについて •WSDM（ウィズダム）2013 –6th ACM International Conference on Web

3 紹介目次の目次 •概要 •課題 •手法 •実験 •まとめ

4 この論文の概要 [テーマ] •このリストをいかに精度よく提示するか？  ユーザが実際に訪れた場所を、GPSなどが示す現在位置から推定する研究いまここにいる

5 この論文の概要 [システム] •位置で検索した結果を、機械学習に基づいて正しく並び替える入力: 緯度・経度・時間・ユーザID 位置で検索出力:

6 この論文の概要 [まとめ] •位置情報からユーザが訪問したPOIを推定する –POI = Point of Interest, 誰かが便利、あるいは興味の

7 紹介論文の目次 •概要 •課題 •手法 •実験 •まとめ

8 測位精度の悪さ（GPS、Wi-Fi、携帯基地局） •ユーザがチェックインした位置と、選択したPOIの位置の間の距離の中央値は70m、平均値は551m

9 ユーザがチェックインする位置のバラつき黒点: チェックイン位置背景色: チェックイン確率（低）青赤（高）

10 紹介論文の目次 •概要 •課題 •手法 •実験 •まとめ

11 再掲 •位置で検索した結果を、機械学習に基づいて正しく並び替える入力: 緯度・経度・時間・ユーザID 位置で検索出力: ランキング

12 POIとチェックイン位置のモデリング •「位置lが特定の場所vに属する確率」P(l|v)を混合正規分布モデルで定義、EMアルゴリズムで推定 •k: 正規分布インデクス •g: 2変量正規分布（μ、Σ） •c: 混合比

13 POIとチェックイン時間のモデリング •「場所vにおいて時間tにチェックインする確率」 P(t|v)を以下のモデルで定義 – wh(t): hours of the week,

14 再掲 •位置で検索した結果を、機械学習に基づいて正しく並び替える入力: 緯度・経度・時間・ユーザID 位置で検索出力: ランキング

16 検索システム •GoogleのOSS「S2 Geometry Library」を使用 –http://code.google.com/p/s2-geometry-library/ •S2は、球面を立方体（a cube）にマッピング、立方体の各面を4つの子正方形に分割し、これをセルと呼ぶ

17 検索システム •S2は異なるセルレベルで検索可能 –ユーザの現在位置から指定した半径をカバーするように異なるレベルのセルが検索される –約150個のスポットをカバーするように、セ

18 再掲 •位置で検索した結果を、機械学習に基づいて正しく並び替える入力: 緯度・経度・時間・ユーザID 位置で検索出力: ランキング

19 •ユーザによるチェックインを教師データとする –入力 : クエリに対してユーザに提示されたスポットのリスト –教師 : チェックインの有無{0,1}

21 評価指標 •情報検索の指標を利用 1件だけで当てる＝オートチェックイン精度 5件出した中に正解が含まれる割合上位で当てるほど値が高くなる

22 実験に用いた最適化方法 •線形回帰 •Coordinate ascent（座標降下法） – Donald Metzler and W.

23 紹介論文の目次 •概要 •課題 •手法 •実験 –予備実験 –本実験 •まとめ

24 予備実験：位置情報の限界 •Bleecker and Jones St. における14.3万件のチェックイン（右図） – チェックイン数が100件に満

27 今後の展望 •ユーザ属性（性別、年代、、、）も加えたい •スポットの訪問系列も考慮したい •スポットを点ではなく形状として考慮したい •天気も考慮したい •最後の文: –Every location update

28 この論文の概要 [まとめ] •位置情報からユーザが訪問したPOIを推定する –POI = Point of Interest, 誰かが便利、あるいは興味の