Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文読み会 HT2010 | Automatic Construction of Travel Itineraries Using Social Breadcrumbs

cocomoff
March 14, 2022

論文読み会 HT2010 | Automatic Construction of Travel Itineraries Using Social Breadcrumbs

論文読み会・紹介のための資料.

(A slide for the paper-reading group at my company.)

cocomoff

March 14, 2022
Tweet

More Decks by cocomoff

Other Decks in Research

Transcript

  1. Automatic Construction of Travel Itineraries Using Social Breadcrumbs 著者: Choudhury,

    M. et al. (Yahoo! Research多め=Flickrデータ) 学会: HT2010 (and WWW2010) (HT: ACM conference on Hypertext and hypermedia) 読む人: @cocomoff
  2. 時間パスの生成 (2/5) | 記号 記号 写真の集合 ,所有者の集合 ,都市の集合 , のPOIの集合

    写真 の属性: 所有者 ,撮った人/アップロードした人 ,撮った位置 ,タグ メモ: Flickrにはphoto-setという概念がある (アルバム?).photo- setについたタグは写真についたタグと思ってpropagateしている. POIのソースはYahoo! Travel/Lonely Planet POIの情報は名前 ,都市 ,位置
  3. 時間パスの生成 (3/5) | ユーザのPhoto Stream作成 タスク1: 対象の都市で取られた写真のみを探す 写真 が都市 に関連づいている

    写真 のタグに,都市 の名前 のvariantを1つでも含む (例: New York City, NYC, Manhattan) タスク2: 旅行者らしいユーザを探す (= 住民じゃないユーザ) ユーザ が都市 の旅行者である 都市 における最初の写真撮影 時間と最後の時間が 日以下 (実験では ). タスク3: 旅程に使いたいので時刻情報が怪しい写真を取り除く 写真 の は正確である 「分」と「秒」の情報について, .または一致していても と で24時間以上離れている. タスク1~3を終えると,ユーザごとのストリーム が得られる
  4. 時間パスの生成 (4/5) | 写真とPOIの対応付け 都市 におけるユーザごとの写真ストリーム から抽出する 都市 に関連づいたPOIは情報源から取得する (集合

    ) 定義: 写真と都市の関連付け 2種類 (geo-based, tag-based) の方法で判定する geo-based: 位置情報 (lat/long) を使って100m以内ならYes (ただし写真 の最近傍のPOI にのみ判定する) tag-based: geo情報が欠けているときに使う.タグとPOIの名前 を単純にマッチングする (手法: tri-gram, しきい値0.3). (おなじく最も類似度が高いPOI にのみ判定する) 作成したストリーム が得られる
  5. 時間パスの生成 (5/5) | 時間パスの生成 ユーザのストリームが最大で 日つながっている可能性があるの で,撮影感覚が 時間超えているところで切る (その後1つのPOIし か訪問しないデータや,

    写真未満しか含まないものを捨てる) 各セグメントのうち旅行者じゃないものを消し,時間パスとして保存 処理 POIの訪問情報 : で最初と最後に撮った写真から取得 セグメントの中の訪問情報の列を時間パスと呼ぶ (ただし ) 差分 はtransit timeと呼ばれる (当たり前) 出力としてPOI間の移動時間情報 (過去に実績のある) が得られた
  6. 旅程の作成 (1/3) | データのグラフ化 過去の個別の旅行者が残した時間パスの集合から旅程を作成したい 定義: 完全グラフ .頂点と辺に次のよう な重み と,頂点に別の重み

    を持っている. : POIの訪問時間 (ユーザごとの最大訪問時間を取り,全デー タの75th percentileを利用した) : POI間の移動時間 (データ中のmedianを使った) ただしデータから取得すると三角不等式を満たさなくなるの で,metric completionという手法を使って直した : POIの価値 (訪問した人数を使った)
  7. 旅程の作成 (2/3) | 最適化問題の定義 次のような最適化問題 (NP-hard) を定式化した IMP (Itinerary Mining

    Problem) 入力: グラフ ( と一緒に),出発地と目的地 ,コスト (最大移動時間) 出力: 移動時間が 以下で訪問地点の価値の和が最大になる順 オリエンテーリング問題と呼ばれるやつの仲間.似た問題設定の近似比は ( は営業時間窓の最大と最小).典型的 なアルゴリズムの動作は 以上.他にもたくさんある. ただし旅程計画問題は頂点にもコスト (滞在時間) が乗っているので,オ リエンテーリング問題のアルゴリズムをそのまま使えない.
  8. 旅程の作成 (3/3) | 近似手法RG-QP 頂点のコストを辺のコストに変換 する前処理を行う RG-QP: 旅程で訪問できる個数を半 分ずつにしながら探索するような イメージの再帰的貪欲法

    オリエンテーリング問題の手 法を拡張 複数日 (multi-day itineraries) RG-QPを複数回使えばOK.た だし貪欲法的につなげただけなので良いかどうかは別… その他細かい処理は一部省略とのこと
  9. 実験 (4/α) | 実験設定 AMT 概念とタスク・使い方の説明 (2010年の論文なので) やりたいこと: reliable workers

    を探す (= 旅程タスクに知見が必要); finding users who are deeply familiar with foreign cities. approval rateの説明 初期問題の説明; 3枚の写真 (都市でマイナーなPOIの) と名前の候補 が表示され,それにすべて答えられるexpert workersを探す 評価 §5.3 side-by-side comparison = 横並べの対照比較? workerに作成した旅程とground-truth旅程を提示して比較 §5.4 旅程単体の評価
  10. 実験 (5/α) | 比較評価の方法 5都市について,それぞれ4つの旅程を作成し,1つの旅程を10 identical HITsにして,各都市のground-truth旅程と比較 (4×10×5=200回) 2つ (A,

    B) 提示し「どちらが良いか?」を聞く; Q1: AがBと比較して…: significantly better, somewhat better, similar, somewhat worse, significantly worse Q2: 表示されているPOIのappropriateness (たぶん↑の5段階) 評価指標 : においてワーカが問 に を投票した回数 : 問 に を投票した総数
  11. 実験 (7/α) | 個別評価 冒頭に述べた ~ を用いて単体の評価を行った 評価指標 : 問

    に 番目の返答をしたワーカの数 アンケートの平均数値 : 旅程 に回答したワーカの集合 : ワーカによって「bad」と報告されたPOIの個数 bad w.r.t. POIs, Visit Times, Transit Times (3つ) 旅程の中身の質評価
  12. 実験 (8/α) | 個別評価の結果 (再掲) Q1-Q4の比較 (ロンドン) MWR = ほぼ同じ

    (冒頭) Q1-Q4の5都市比較 (冒頭,省略) MEFによる質評価 両方大きな差はないが,10%-15%ぐらいは微妙なやつが入る