論文読み会 HT2010 | Automatic Construction of Travel Itineraries Using Social Breadcrumbs

Slide 1

Slide 1 text

Automatic Construction of Travel Itineraries Using Social Breadcrumbs 著者: Choudhury, M. et al. (Yahoo! Research多め=Flickrデータ) 学会: HT2010 (and WWW2010) (HT: ACM conference on Hypertext and hypermedia) 読む人: @cocomoff

Slide 2

Slide 2 text

概要 Flickrデータ (日時・場所・POIとの関連性・メタタグ) を収集した上で，時間パスを作成し，時間パスから旅程を作成する手法を提案した．各都市で，作成した4つの旅程と1つのground-truth旅程を用意し， AMTアンケート調査を行った結果，ground-truth旅程に対する反応 (like/dislike) と似た結果が得られた = 高品質旅程を自動生成できた : バルセロナ，ロンドン，ニューヨーク，パリ，サンフランシスコ (ground-truthはツアリスト向けサイトから取得)

Slide 3

Slide 3 text

単体アンケート評価

Slide 4

Slide 4 text

結果 Q1-Q4の比較 (ロンドン) MWR (Mean Weighted Response 定義は後ほど) Q1-Q4の5都市比較

Slide 5

Slide 5 text

目次概要手法時間パス (Timed path) の生成 §3 旅程の生成 §4 実験 §5 結論 §6

Slide 6

Slide 6 text

時間パスの生成 (1/5) | 目的と課題目的 (書いてないけど推測) 旅程を作るためにオリエンテーリング問題 (後で) を解くので，それに必要な情報を集合から取り出してくるために時間パスを作成する課題 1. 旅行者に関係のない写真・POIに関係のない写真を取り除く 2. 写真とPOIを対応付ける 3. 時間パスを作る

Slide 7

Slide 7 text

時間パスの生成 (2/5) | 記号記号写真の集合，所有者の集合，都市の集合，のPOIの集合写真の属性: 所有者，撮った人/アップロードした人，撮った位置，タグメモ: Flickrにはphoto-setという概念がある (アルバム?)．photo- setについたタグは写真についたタグと思ってpropagateしている． POIのソースはYahoo! Travel/Lonely Planet POIの情報は名前，都市，位置

Slide 8

Slide 8 text

時間パスの生成 (3/5) | ユーザのPhoto Stream作成タスク1: 対象の都市で取られた写真のみを探す写真が都市に関連づいている写真のタグに，都市の名前のvariantを1つでも含む (例: New York City, NYC, Manhattan) タスク2: 旅行者らしいユーザを探す (= 住民じゃないユーザ) ユーザが都市の旅行者である都市における最初の写真撮影時間と最後の時間が日以下 (実験では )．タスク3: 旅程に使いたいので時刻情報が怪しい写真を取り除く写真のは正確である「分」と「秒」の情報について，．または一致していてもとで24時間以上離れている．タスク1～3を終えると，ユーザごとのストリームが得られる

Slide 9

Slide 9 text

時間パスの生成 (4/5) | 写真とPOIの対応付け都市におけるユーザごとの写真ストリームから抽出する都市に関連づいたPOIは情報源から取得する (集合 ) 定義: 写真と都市の関連付け 2種類 (geo-based, tag-based) の方法で判定する geo-based: 位置情報 (lat/long) を使って100m以内ならYes (ただし写真の最近傍のPOI にのみ判定する) tag-based: geo情報が欠けているときに使う．タグとPOIの名前を単純にマッチングする (手法: tri-gram, しきい値0.3)． (おなじく最も類似度が高いPOI にのみ判定する) 作成したストリームが得られる

Slide 10

Slide 10 text

時間パスの生成 (5/5) | 時間パスの生成ユーザのストリームが最大で日つながっている可能性があるので，撮影感覚が時間超えているところで切る（その後1つのPOIしか訪問しないデータや，写真未満しか含まないものを捨てる）各セグメントのうち旅行者じゃないものを消し，時間パスとして保存処理 POIの訪問情報 : で最初と最後に撮った写真から取得セグメントの中の訪問情報の列を時間パスと呼ぶ (ただし ) 差分はtransit timeと呼ばれる (当たり前) 出力としてPOI間の移動時間情報 (過去に実績のある) が得られた

Slide 11

Slide 11 text

目次概要手法時間パス (Timed path) の生成 §3 旅程の生成 §4 実験 §5 結論 §6

Slide 12

Slide 12 text

旅程の作成 (1/3) | データのグラフ化過去の個別の旅行者が残した時間パスの集合から旅程を作成したい定義: 完全グラフ．頂点と辺に次のような重みと，頂点に別の重みを持っている． : POIの訪問時間 (ユーザごとの最大訪問時間を取り，全データの75th percentileを利用した) : POI間の移動時間 (データ中のmedianを使った) ただしデータから取得すると三角不等式を満たさなくなるので，metric completionという手法を使って直した : POIの価値 (訪問した人数を使った)

Slide 13

Slide 13 text

旅程の作成 (2/3) | 最適化問題の定義次のような最適化問題 (NP-hard) を定式化した IMP (Itinerary Mining Problem) 入力: グラフ ( と一緒に)，出発地と目的地，コスト (最大移動時間) 出力: 移動時間が以下で訪問地点の価値の和が最大になる順オリエンテーリング問題と呼ばれるやつの仲間．似た問題設定の近似比は ( は営業時間窓の最大と最小)．典型的なアルゴリズムの動作は以上．他にもたくさんある．ただし旅程計画問題は頂点にもコスト (滞在時間) が乗っているので，オリエンテーリング問題のアルゴリズムをそのまま使えない．

Slide 14

Slide 14 text

旅程の作成 (3/3) | 近似手法RG-QP 頂点のコストを辺のコストに変換する前処理を行う RG-QP: 旅程で訪問できる個数を半分ずつにしながら探索するようなイメージの再帰的貪欲法オリエンテーリング問題の手法を拡張複数日 (multi-day itineraries) RG-QPを複数回使えばOK．ただし貪欲法的につなげただけなので良いかどうかは別… その他細かい処理は一部省略とのこと

Slide 15

Slide 15 text

目次概要手法時間パス (Timed path) の生成 §3 旅程の生成 §4 実験 §5 結論 §6

Slide 16

Slide 16 text

実験 (1/α) | データ POIの個数がオリエンテーリング問題の頂点数 (最大163POI)．辺と頂点の重みは約4000～19000の時間パスから計算された． 4つの旅程の作り方: POIの有名なもの4つ ( ) を取ってきて，をとして作成 ( h)．

Slide 17

Slide 17 text

実験 (2/α) | NYCの旅程例よく分からんけど…

Slide 18

Slide 18 text

実験 (3/α) | 図 (google map 途中まで)

Slide 19

Slide 19 text

実験 (4/α) | 実験設定 AMT 概念とタスク・使い方の説明 (2010年の論文なので) やりたいこと: reliable workers を探す (= 旅程タスクに知見が必要); finding users who are deeply familiar with foreign cities． approval rateの説明初期問題の説明; 3枚の写真 (都市でマイナーなPOIの) と名前の候補が表示され，それにすべて答えられるexpert workersを探す評価 §5.3 side-by-side comparison = 横並べの対照比較? workerに作成した旅程とground-truth旅程を提示して比較 §5.4 旅程単体の評価

Slide 20

Slide 20 text

実験 (5/α) | 比較評価の方法 5都市について，それぞれ4つの旅程を作成し，1つの旅程を10 identical HITsにして，各都市のground-truth旅程と比較 (4×10×5=200回) 2つ (A, B) 提示し「どちらが良いか？」を聞く; Q1: AがBと比較して…: significantly better, somewhat better, similar, somewhat worse, significantly worse Q2: 表示されているPOIのappropriateness (たぶん↑の5段階) 評価指標 : においてワーカが問にを投票した回数 : 問にを投票した総数

Slide 21

Slide 21 text

実験 (6/α) | 比較評価の結果 (旅程 Q1) 66%が生成された旅程が良いと答えた (14%はNo) (POIs Q2) 52%が生成された旅程のPOIが良いと答えた (16%はNo)

Slide 22

Slide 22 text

実験 (7/α) | 個別評価冒頭に述べた～を用いて単体の評価を行った評価指標 : 問に番目の返答をしたワーカの数アンケートの平均数値 : 旅程に回答したワーカの集合 : ワーカによって「bad」と報告されたPOIの個数 bad w.r.t. POIs, Visit Times, Transit Times (3つ) 旅程の中身の質評価

Slide 23

Slide 23 text

実験 (8/α) | 個別評価の結果 (再掲) Q1-Q4の比較 (ロンドン) MWR = ほぼ同じ (冒頭) Q1-Q4の5都市比較 (冒頭，省略) MEFによる質評価両方大きな差はないが，10%-15%ぐらいは微妙なやつが入る

Slide 24

Slide 24 text

目次概要手法時間パス (Timed path) の生成 §3 旅程の生成 §4 実験 §5 結論 §6

Slide 25

Slide 25 text

結論旅程推薦の分野で2022年から見てかなり初期の論文 (約300引用) ユーザごとの時間パスを作成し，オリエンテーリング問題の亜種を用いて旅程を生成するような枠組みを提案し，Flickrデータで実証した実験よりproの作成したGTと比較してcomparable(?) いくつかのポイント固定のハイパーパラメータがあるので弄ると良いかも平均的な旅程を出す (general itineraries, not personalized) 共通して訪問するパターン (Co-visitation patterns) の扱いにもう少し工夫がいりそうデータが少ない都市や12時間未満の扱いなどスパースデータの対応