Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
【輪講資料】Destination Prediction by Sub-Trajectory Synthesis and Privacy Protection Against Such Prediction【ICDE2013】
Search
Yuichiro SEKIGUCHI
December 18, 2013
Research
0
390
【輪講資料】Destination Prediction by Sub-Trajectory Synthesis and Privacy Protection Against Such Prediction【ICDE2013】
2013-12-18に職場で実施した輪講資料を代理アップロードしました.
Yuichiro SEKIGUCHI
December 18, 2013
Tweet
Share
More Decks by Yuichiro SEKIGUCHI
See All by Yuichiro SEKIGUCHI
【輪講資料】Time-aware Point-of-Interest Recommendation【SIGIR2013】
dreamedge
1
640
【輪講資料】Exploring and Exploiting User Search Behavior on Mobile and Tablet Devices to Improve Search Relevance【WWW2013】
dreamedge
1
170
【輪講資料】Fast Candidate Generation for Two-Phase Document【CIKM2012】
dreamedge
1
110
【輪講資料】Inferring the Demographics of Search Users【WWW2013】
dreamedge
1
180
【輪講資料】Optimal Hashing Schemes for Entity Matching【WWW2013】
dreamedge
2
860
【輪講資料】From Query to Question in One Click: Suggesting Synthetic Questions to Searchers【WWW2013】
dreamedge
1
160
【輪講資料】Are Web Users Really Markovian?【WWW2012】
dreamedge
1
140
【輪講資料】Learning to Rank for Spatiotemporal Search【WSDM2013】
dreamedge
1
800
【輪講資料】Mining the Web for Points of Interest【SIGIR2012】
dreamedge
1
880
Other Decks in Research
See All in Research
精神疾患患者のアクティビティデータを利用したリハビリテーションのためのシステムに関する研究
comfortdesignlab
0
140
オープンな日本語埋め込みモデルの選択肢 / Exploring Publicly Available Japanese Embedding Models
nttcom
13
5.2k
クリック率を最大化しない推薦システム
joisino
41
14k
Target trial emulationの概要
shuntaros
2
1.1k
サウナでのプロジェクションマッピングの可能性の検討 / EC71koizumi
yumulab
0
150
ニフティのインナーソース導入事例 - InnerSource Commons #11
niftycorp
PRO
0
250
Active Retrieval Augmented Generation
kiyohiro8
3
440
センサデータを活用した 肌質改善への支援システムに関する研究
comfortdesignlab
0
150
First Authorに俺はなるっ!! IROS’23 CCC2023 FY
shota_nishiyama
0
170
近似最近傍探索とVector DBの理論的背景
matsui_528
4
1.3k
People Driven Transformation / 人が起点の、社会の変え方
dmattsun
0
150
Prompt Tuning から Fine Tuning への移行時期推定
icoxfog417
17
6.8k
Featured
See All Featured
What's new in Ruby 2.0
geeforr
336
31k
The Brand Is Dead. Long Live the Brand.
mthomps
48
28k
GitHub's CSS Performance
jonrohan
1023
450k
Side Projects
sachag
451
41k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
225
51k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
501
140k
Build The Right Thing And Hit Your Dates
maggiecrowley
23
2k
Documentation Writing (for coders)
carmenintech
59
3.9k
The Pragmatic Product Professional
lauravandoore
24
5.8k
The World Runs on Bad Software
bkeepers
PRO
61
6.7k
A better future with KSS
kneath
230
16k
Fontdeck: Realign not Redesign
paulrobertlloyd
75
4.9k
Transcript
1 Andy Yuan Xue, Rui Zhang, Yu Zheng, Xing Xie,
Jin Huang, Zhenghua Xu: ICDE 2013: 254-265 Destination Prediction by Sub-Trajectory Synthesis and Privacy Protection Against Such Prediction 2013-12-18 輪講資料
2 • GPS軌跡から目的地を推 定する – 軌跡データを分割して遷移 確率を計算し,スパースさを 解消する – タクシーデータを利用
• 提案アルゴリズムを用いた プライバシー防止 – チェックインなどにより,ユー ザの目的地(家など)を推定 されるのを防ぐ 概要 s: スタート c: 現在地 d: 推定目的地(出力) T: 軌跡(入力)
3 • 目的地推定(Destination Prediction)は多数の位置情 報サービスで必要な技術である – 観光地推薦 – (目的地関連の)広告配信 –
カーナビの自動目的地設定など • 目的地推定の一般的なアプローチは,過去の 軌跡データを利用すること – 入力軌跡と,過去履歴のマッチングを行い,目的地を 推定する はじめに
4 • 概要 • 関連研究 – 一般的手法のイメージ・問題点 – ベイズ推定による目的地推定 •
提案手法(SubSyn; Sub-Trajectory Synthesis Algorithm) • 提案手法を用いたプライバシー漏洩防止 • 実験 • まとめ 目次
5 • 下図のような過去履歴を持ち, • 入力軌跡が{l 1 ,l 4 }のとき,過去履歴からl 7
を目的 地と推定できる 一般的手法のイメージ ▪ 過去履歴 T1 ={l1 ,l2 ,l5 ,l6 ,l9 } T2 ={l6 ,l3 ,l2 } T3 ={l4 ,l5 ,l8 } T4 ={l9 ,l8 ,l7 } T5 ={l1 ,l4 ,l7 }
6 • 入力軌跡が{l 1 ,l 4 ,l 5 }のとき,過去履歴とマッチし ないので目的地と推定できない
提案手法では,完全に過去履歴と一致しなくても, 目的地の推定を可能とする 一般的手法の問題点 ▪ 過去履歴 T1 ={l1 ,l2 ,l5 ,l6 ,l9 } T2 ={l6 ,l3 ,l2 } T3 ={l4 ,l5 ,l8 } T4 ={l9 ,l8 ,l7 } T5 ={l1 ,l4 ,l7 }
7 • ベイズの定理により,入力軌跡Tpが与えられた時の 目的地dの推定確率は以下の様に与えられる • Tp=入力軌跡,nj=ノードj(グリッドのセル),d=目的地 • は全履歴のうち到着地がnjの割合で計算可 をどのように求めるかが課題
ベイズ推定による目的地推定[1/2] 推定値が高い到着ノードnjを求めたい
8 • 従来手法は,入力軌跡を含む過去履歴の数を用いて 推定 • 入力と過去履歴が完全にマッチしないと分子が0とな るため,目的地が予測できない入力軌跡がある ベイズ推定による目的地推定[2/2] 到着地がnjの軌跡数 到着地がnjで,入力軌跡を含むの軌跡数
9 • 概要 • 関連研究 • 提案手法(SubSyn; Sub-Trajectory Synthesis Algorithm)
– 部分遷移系列に基づく1次マルコフモデル – 迂回路を考慮した総合遷移確率 – 事後確率の計算 • 提案手法を用いたプライバシー漏洩防止 • 実験 • まとめ 目次
10 • 提案モデルは,最小の部分軌跡(長さ2)のノー ド遷移確率を利用する • 1次のマルコフモデルを仮定する – あるノードへの移動は,直前1個のノードにより決定 される確率過程とする 1次マルコフモデル[1/2]
ノード{i,j}の連続を含む軌跡数 ノードiを含む軌跡数 i→jの 遷移確率
11 1次マルコフモデル[2/2] ▪ 過去履歴 T1 ={l1 ,l2 ,l5 ,l6 ,l9
} T2 ={l6 ,l3 ,l2 } T3 ={l4 ,l5 ,l8 } T4 ={l9 ,l8 ,l7 } T5 ={l1 ,l4 ,l7 } 1次マルコフベースの 遷移行列M
12 • 遷移行列Mをr乗すると,Mrの要素はあるノードから別 のノードへrステップで辿り着く確率となる • 例えば,ノード1からノード6への最短経路長が長さ3 のとき,最短経路長で遷移する確率はM3の行列の要 素(1,6)の値となる • ノード1からノード6への(迂回も含めた)遷移確率は,
M3 16 +M4 16 +…+M∞ 16 で計算できる – ※ 大部分の迂回路の長さは,最短経路長の1.2倍を超える ことは無いため,これを上限値とする 迂回路を考慮した総合遷移確率[1/2]
13 • ノードiからkへの遷移確率 • グリッドが30×30のとき,遷移行列Mは302×302 下記変形を行うことで計算量・メモリ量を抑えられる 迂回路を考慮した総合遷移確率[2/2] 最短経路長+ceil(最短経路長×0.2)
14 • 2(g-1)が最も長い経路長 • Line3はA[0]←I の誤り? • 遷移が無いノードをリスト から除く •
Listを経路長でソートする ことでMpowerの計算量を 抑えている アルゴリズム(学習) メモリ量
15 • 入力軌跡Tp(s→c)を用いて尤度を推定 • 入力軌跡の出現確率 • 遷移確率pijは全て計算済みなので,高速計算可能 事後確率の推定 出発地→到着地 現在地→到着地
16 アルゴリズム(推定)
17 • 概要 • 関連研究 • 提案手法(SubSyn; Sub-Trajectory Synthesis Algorithm)
• 提案手法を用いたプライバシー漏洩防止 – End-Point 削除法 • 実験 • まとめ 目次
18 • 入力軌跡Tp={l 1 ,l 4 ,l 5 ,l 6
}に対して,提案手法を用いれば 目的地を推定することができる FoursquareのチェックインやSNSにアップした写真のジオタ グの系列(=入力軌跡)から,自分の知られたく無い目的地 が推定されないかを提案手法を用いて調べる • 知られたく無い目的地が,推定結果の上位k件に含ま れない様になるまで,入力軌跡からノードを削除 – End-Point削除法を提案 プライバシー漏洩防止
19 • 目的地推定に関わるノードは,以下の変形により入 力軌跡の端点(出発地・現在地)のみであることがわ かる プライバシー漏洩を防止したいノードが上位に現れなくなる まで端点2つを削除し続ける End-Point 削除法
20 • 概要 • 関連研究 • 提案手法(SubSyn; Sub-Trajectory Synthesis Algorithm)
• 提案手法を用いたプライバシー漏洩防止 • 実験 – 予測精度(Prediction Error),網羅性(Coverage) – 学習時間,推定時間 • まとめ 目次
21 • タクシー軌跡データ@北京(T-project) – 580,000軌跡,2000万GPS点 – ランダムに選択した1000個をテストデータ,残りを 学習データとした データセット
22 • Coverage [% test dataset] – 入力軌跡に対して,k個の目的地を推定できた割合 ※ 従来手法の場合,入力軌跡が過去履歴に含まれないと
目的地を推定できないため,Coverageが低くなる • (Aggregated) Prediction Error [km] • 推定値と真の到着地の間の距離 • 入力軌跡に対して複数個出力した場合は,その平均値 評価指標
23 • グリッドサイズ – g = 20×20, 30×30, 40×40, 50×50
• 入力軌跡長 – trip = 軌跡全体の10% 〜 90% • 推定地数 – Top-k = 1〜5 評価パラメータ
24 グリッドサイズによる影響 提案手法は常にCoverage=100%.どんな入力に対しても推定可能 提案手法のPrediction Errorはグリッドが30x30のとき最も良い.
25 入力軌跡長による影響 入力軌跡長が長くなるほど従来手法ではCoverageが低くなる 入力軌跡長が長くなると,Prediction Errorは低くなる
26 Top-k推定数による影響 従来手法はデータのスパースさにより多数の候補を提示できない 提案手法はスパースさの問題を解決できている
27 学習に要する時間 グリッドを細かくすると計算時間は爆発的に増加する
28 推定に要する時間 提案手法は計算済みのノード遷移確率を利用するのみ なので,非常に高速に目的地推定が可能になる
29 プライバシー防止に要する時間 完全探索する方法に比べて,End-Points削除法は 入力軌跡の端点を計算するのみなので高速に計算可能
30 • GPS軌跡から目的地を推 定するSubSynの提案 – 軌跡データを2点の遷移に分 割して遷移確率を計算し,ス パースさを解消する • 提案アルゴリズムを用いた
プライバシー漏洩防止 – 入力軌跡の端点を削除して目的 地推定できなくする まとめ s: スタート c: 現在地 d: 推定目的地(出力) T: 軌跡(入力)
31 • 過去に無い経路でも,部分軌跡の組合せがあれば 目的地推定可能 • グリッドサイズが大きくなると学習時間が爆発的に 増えてしまう – 1グリッド内に複数個のPOIが存在することになる •
パーソナライズはしていない • 時間帯を考慮するには複数個遷移行列を考えなけれ ばならない? • 1次マルコフで本当にOKなのか? 考察