【輪講資料】Destination Prediction by Sub-Trajectory Synthesis and Privacy Protection Against Such Prediction【ICDE2013】

1 Andy Yuan Xue, Rui Zhang, Yu Zheng, Xing Xie,
Jin Huang, Zhenghua Xu: ICDE 2013: 254-265 Destination Prediction by Sub-Trajectory Synthesis and Privacy Protection Against Such Prediction 2013-12-18 輪講資料

2 • ＧＰＳ軌跡から目的地を推定する – 軌跡データを分割して遷移確率を計算し，スパースさを解消する – タクシーデータを利用
• 提案アルゴリズムを用いたプライバシー防止 – チェックインなどにより，ユーザの目的地（家など）を推定されるのを防ぐ概要 s: スタート c: 現在地 d: 推定目的地(出力) T: 軌跡(入力)

3 • 目的地推定（Destination Prediction）は多数の位置情報サービスで必要な技術である – 観光地推薦 – (目的地関連の)広告配信 –
カーナビの自動目的地設定など • 目的地推定の一般的なアプローチは，過去の軌跡データを利用すること – 入力軌跡と，過去履歴のマッチングを行い，目的地を推定するはじめに

4 • 概要 • 関連研究 – 一般的手法のイメージ・問題点 – ベイズ推定による目的地推定 •
提案手法（SubSyn; Sub-Trajectory Synthesis Algorithm） • 提案手法を用いたプライバシー漏洩防止 • 実験 • まとめ目次

5 • 下図のような過去履歴を持ち， • 入力軌跡が{l 1 ,l 4 }のとき，過去履歴からl 7
を目的地と推定できる一般的手法のイメージ ▪ 過去履歴 T1 ={l1 ,l2 ,l5 ,l6 ,l9 } T2 ={l6 ,l3 ,l2 } T3 ={l4 ,l5 ,l8 } T4 ={l9 ,l8 ,l7 } T5 ={l1 ,l4 ,l7 }

6 • 入力軌跡が{l 1 ,l 4 ,l 5 }のとき，過去履歴とマッチしないので目的地と推定できない
 提案手法では，完全に過去履歴と一致しなくても，目的地の推定を可能とする一般的手法の問題点 ▪ 過去履歴 T1 ={l1 ,l2 ,l5 ,l6 ,l9 } T2 ={l6 ,l3 ,l2 } T3 ={l4 ,l5 ,l8 } T4 ={l9 ,l8 ,l7 } T5 ={l1 ,l4 ,l7 }

7 • ベイズの定理により，入力軌跡Tpが与えられた時の目的地dの推定確率は以下の様に与えられる • Tp＝入力軌跡，nj＝ノードj（グリッドのセル），d＝目的地 • は全履歴のうち到着地がnjの割合で計算可  をどのように求めるかが課題
ベイズ推定による目的地推定[1/2] 推定値が高い到着ノードnjを求めたい

8 • 従来手法は，入力軌跡を含む過去履歴の数を用いて推定 • 入力と過去履歴が完全にマッチしないと分子が0となるため，目的地が予測できない入力軌跡があるベイズ推定による目的地推定[2/2] 到着地がnjの軌跡数到着地がnjで，入力軌跡を含むの軌跡数

9 • 概要 • 関連研究 • 提案手法（SubSyn; Sub-Trajectory Synthesis Algorithm）
– 部分遷移系列に基づく1次マルコフモデル – 迂回路を考慮した総合遷移確率 – 事後確率の計算 • 提案手法を用いたプライバシー漏洩防止 • 実験 • まとめ目次

10 • 提案モデルは，最小の部分軌跡（長さ2）のノード遷移確率を利用する • 1次のマルコフモデルを仮定する – あるノードへの移動は，直前1個のノードにより決定される確率過程とする 1次マルコフモデル[1/2]
ノード{i,j}の連続を含む軌跡数ノードiを含む軌跡数 i→jの遷移確率

11 1次マルコフモデル[2/2] ▪ 過去履歴 T1 ={l1 ,l2 ,l5 ,l6 ,l9
} T2 ={l6 ,l3 ,l2 } T3 ={l4 ,l5 ,l8 } T4 ={l9 ,l8 ,l7 } T5 ={l1 ,l4 ,l7 } 1次マルコフベースの遷移行列M

12 • 遷移行列Mをr乗すると，Mrの要素はあるノードから別のノードへrステップで辿り着く確率となる • 例えば，ノード1からノード6への最短経路長が長さ3 のとき，最短経路長で遷移する確率はM3の行列の要素(1,6)の値となる • ノード1からノード6への(迂回も含めた)遷移確率は，
M3 16 +M4 16 +…+M∞ 16 で計算できる – ※ 大部分の迂回路の長さは，最短経路長の1.2倍を超えることは無いため，これを上限値とする迂回路を考慮した総合遷移確率[1/2]

13 • ノードiからkへの遷移確率 • グリッドが30×30のとき，遷移行列Mは302×302  下記変形を行うことで計算量・メモリ量を抑えられる迂回路を考慮した総合遷移確率[2/2] 最短経路長+ceil(最短経路長×0.2)

14 • 2(g-1)が最も長い経路長 • Line3はA[0]←I の誤り？ • 遷移が無いノードをリストから除く •
Listを経路長でソートすることでMpowerの計算量を抑えているアルゴリズム(学習) メモリ量

15 • 入力軌跡Tp（s→c）を用いて尤度を推定 • 入力軌跡の出現確率 • 遷移確率pijは全て計算済みなので，高速計算可能事後確率の推定出発地→到着地現在地→到着地

16 アルゴリズム(推定)

• 提案手法を用いたプライバシー漏洩防止 – End-Point 削除法 • 実験 • まとめ目次

18 • 入力軌跡Tp={l 1 ,l 4 ,l 5 ,l 6
}に対して，提案手法を用いれば目的地を推定することができる  FoursquareのチェックインやSNSにアップした写真のジオタグの系列（＝入力軌跡）から，自分の知られたく無い目的地が推定されないかを提案手法を用いて調べる • 知られたく無い目的地が，推定結果の上位k件に含まれない様になるまで，入力軌跡からノードを削除 – End-Point削除法を提案プライバシー漏洩防止

19 • 目的地推定に関わるノードは，以下の変形により入力軌跡の端点（出発地・現在地）のみであることがわかる  プライバシー漏洩を防止したいノードが上位に現れなくなるまで端点2つを削除し続ける End-Point 削除法

• 提案手法を用いたプライバシー漏洩防止 • 実験 – 予測精度(Prediction Error），網羅性（Coverage） – 学習時間，推定時間 • まとめ目次

21 • タクシー軌跡データ＠北京（T-project） – 580,000軌跡，2000万GPS点 – ランダムに選択した1000個をテストデータ，残りを学習データとしたデータセット

22 • Coverage [% test dataset] – 入力軌跡に対して，k個の目的地を推定できた割合 ※ 従来手法の場合，入力軌跡が過去履歴に含まれないと
目的地を推定できないため，Coverageが低くなる • (Aggregated) Prediction Error [km] • 推定値と真の到着地の間の距離 • 入力軌跡に対して複数個出力した場合は，その平均値評価指標

23 • グリッドサイズ – g = 20×20, 30×30, 40×40, 50×50
• 入力軌跡長 – trip = 軌跡全体の10% 〜 90% • 推定地数 – Top-k = 1〜5 評価パラメータ

24 グリッドサイズによる影響提案手法は常にCoverage=100%．どんな入力に対しても推定可能提案手法のPrediction Errorはグリッドが30x30のとき最も良い．

25 入力軌跡長による影響入力軌跡長が長くなるほど従来手法ではCoverageが低くなる入力軌跡長が長くなると，Prediction Errorは低くなる

26 Top-k推定数による影響従来手法はデータのスパースさにより多数の候補を提示できない提案手法はスパースさの問題を解決できている

27 学習に要する時間グリッドを細かくすると計算時間は爆発的に増加する

28 推定に要する時間提案手法は計算済みのノード遷移確率を利用するのみなので，非常に高速に目的地推定が可能になる

29 プライバシー防止に要する時間完全探索する方法に比べて，End-Points削除法は入力軌跡の端点を計算するのみなので高速に計算可能

30 • ＧＰＳ軌跡から目的地を推定するSubSynの提案 – 軌跡データを2点の遷移に分割して遷移確率を計算し，スパースさを解消する • 提案アルゴリズムを用いた
プライバシー漏洩防止 – 入力軌跡の端点を削除して目的地推定できなくするまとめ s: スタート c: 現在地 d: 推定目的地(出力) T: 軌跡(入力)

31 • 過去に無い経路でも，部分軌跡の組合せがあれば目的地推定可能 • グリッドサイズが大きくなると学習時間が爆発的に増えてしまう – 1グリッド内に複数個のPOIが存在することになる •
パーソナライズはしていない • 時間帯を考慮するには複数個遷移行列を考えなければならない？ • 1次マルコフで本当にOKなのか？考察

【輪講資料】Destination Prediction by Sub-Trajectory ...

【輪講資料】Destination Prediction by Sub-Trajectory Synthesis and Privacy Protection Against Such Prediction【ICDE2013】

Yuichiro SEKIGUCHI

More Decks by Yuichiro SEKIGUCHI

Other Decks in Research

Featured

Transcript

1 Andy Yuan Xue, Rui Zhang, Yu Zheng, Xing Xie,

2 • ＧＰＳ軌跡から目的地を推定する – 軌跡データを分割して遷移確率を計算し，スパースさを解消する – タクシーデータを利用

3 • 目的地推定（Destination Prediction）は多数の位置情報サービスで必要な技術である – 観光地推薦 – (目的地関連の)広告配信 –

4 • 概要 • 関連研究 – 一般的手法のイメージ・問題点 – ベイズ推定による目的地推定 •

5 • 下図のような過去履歴を持ち， • 入力軌跡が{l 1 ,l 4 }のとき，過去履歴からl 7

6 • 入力軌跡が{l 1 ,l 4 ,l 5 }のとき，過去履歴とマッチしないので目的地と推定できない

9 • 概要 • 関連研究 • 提案手法（SubSyn; Sub-Trajectory Synthesis Algorithm）

10 • 提案モデルは，最小の部分軌跡（長さ2）のノード遷移確率を利用する • 1次のマルコフモデルを仮定する – あるノードへの移動は，直前1個のノードにより決定される確率過程とする 1次マルコフモデル[1/2]

11 1次マルコフモデル[2/2] ▪ 過去履歴 T1 ={l1 ,l2 ,l5 ,l6 ,l9

13 • ノードiからkへの遷移確率 • グリッドが30×30のとき，遷移行列Mは302×302  下記変形を行うことで計算量・メモリ量を抑えられる迂回路を考慮した総合遷移確率[2/2] 最短経路長+ceil(最短経路長×0.2)

14 • 2(g-1)が最も長い経路長 • Line3はA[0]←I の誤り？ • 遷移が無いノードをリストから除く •

15 • 入力軌跡Tp（s→c）を用いて尤度を推定 • 入力軌跡の出現確率 • 遷移確率pijは全て計算済みなので，高速計算可能事後確率の推定出発地→到着地現在地→到着地

16 アルゴリズム(推定)

17 • 概要 • 関連研究 • 提案手法（SubSyn; Sub-Trajectory Synthesis Algorithm）

18 • 入力軌跡Tp={l 1 ,l 4 ,l 5 ,l 6

19 • 目的地推定に関わるノードは，以下の変形により入力軌跡の端点（出発地・現在地）のみであることがわかる  プライバシー漏洩を防止したいノードが上位に現れなくなるまで端点2つを削除し続ける End-Point 削除法

20 • 概要 • 関連研究 • 提案手法（SubSyn; Sub-Trajectory Synthesis Algorithm）

21 • タクシー軌跡データ＠北京（T-project） – 580,000軌跡，2000万GPS点 – ランダムに選択した1000個をテストデータ，残りを学習データとしたデータセット

22 • Coverage [% test dataset] – 入力軌跡に対して，k個の目的地を推定できた割合 ※ 従来手法の場合，入力軌跡が過去履歴に含まれないと

23 • グリッドサイズ – g = 20×20, 30×30, 40×40, 50×50