論文読み会・紹介のための資料.
(A slide for the paper-reading group at my company.)
Automatic Construction of Travel ItinerariesUsing Social Breadcrumbs著者: Choudhury, M. et al. (Yahoo! Research多め=Flickrデータ)学会: HT2010 (and WWW2010)(HT: ACM conference on Hypertext and hypermedia)読む人: @cocomoff
View Slide
概要Flickrデータ (日時・場所・POIとの関連性・メタタグ) を収集した上で,時間パスを作成し,時間パスから旅程を作成する手法を提案した.各都市 で,作成した4つの旅程と1つのground-truth旅程を用意し,AMTアンケート調査を行った結果,ground-truth旅程に対する反応(like/dislike) と似た結果が得られた = 高品質旅程を自動生成できた: バルセロナ,ロンドン,ニューヨーク,パリ,サンフランシスコ (ground-truthはツアリスト向けサイトから取得)
単体アンケート評価
結果Q1-Q4の比較 (ロンドン) MWR (Mean Weighted Response 定義は後ほど)Q1-Q4の5都市比較
目次概要手法時間パス (Timed path) の生成 §3旅程の生成 §4実験 §5結論 §6
時間パスの生成 (1/5) | 目的と課題目的 (書いてないけど推測)旅程を作るためにオリエンテーリング問題 (後で) を解くので,それに必要な情報を集合から取り出してくるために時間パスを作成する課題1. 旅行者に関係のない写真・POIに関係のない写真を取り除く2. 写真とPOIを対応付ける3. 時間パスを作る
時間パスの生成 (2/5) | 記号記号写真の集合 ,所有者の集合 ,都市の集合 , のPOIの集合写真 の属性: 所有者 ,撮った人/アップロードした人,撮った位置 ,タグメモ: Flickrにはphoto-setという概念がある (アルバム?).photo-setについたタグは写真についたタグと思ってpropagateしている.POIのソースはYahoo! Travel/Lonely PlanetPOIの情報は名前 ,都市 ,位置
時間パスの生成 (3/5) | ユーザのPhoto Stream作成タスク1: 対象の都市で取られた写真のみを探す写真 が都市 に関連づいている 写真 のタグに,都市 の名前のvariantを1つでも含む (例: New York City, NYC, Manhattan)タスク2: 旅行者らしいユーザを探す (= 住民じゃないユーザ)ユーザ が都市 の旅行者である 都市 における最初の写真撮影時間と最後の時間が 日以下 (実験では ).タスク3: 旅程に使いたいので時刻情報が怪しい写真を取り除く写真 の は正確である 「分」と「秒」の情報について,.または一致していても と で24時間以上離れている.タスク1~3を終えると,ユーザごとのストリーム が得られる
時間パスの生成 (4/5) | 写真とPOIの対応付け都市 におけるユーザごとの写真ストリーム から抽出する都市 に関連づいたPOIは情報源から取得する (集合 )定義: 写真と都市の関連付け2種類 (geo-based, tag-based) の方法で判定するgeo-based: 位置情報 (lat/long) を使って100m以内ならYes(ただし写真 の最近傍のPOI にのみ判定する)tag-based: geo情報が欠けているときに使う.タグとPOIの名前を単純にマッチングする (手法: tri-gram, しきい値0.3).(おなじく最も類似度が高いPOI にのみ判定する)作成したストリーム が得られる
時間パスの生成 (5/5) | 時間パスの生成ユーザのストリームが最大で 日つながっている可能性があるので,撮影感覚が 時間超えているところで切る (その後1つのPOIしか訪問しないデータや, 写真未満しか含まないものを捨てる)各セグメントのうち旅行者じゃないものを消し,時間パスとして保存処理POIの訪問情報 : で最初と最後に撮った写真から取得セグメントの中の訪問情報の列を時間パスと呼ぶ(ただし )差分 はtransit timeと呼ばれる (当たり前)出力としてPOI間の移動時間情報 (過去に実績のある) が得られた
旅程の作成 (1/3) | データのグラフ化過去の個別の旅行者が残した時間パスの集合から旅程を作成したい定義: 完全グラフ .頂点と辺に次のような重み と,頂点に別の重み を持っている.: POIの訪問時間 (ユーザごとの最大訪問時間を取り,全データの75th percentileを利用した): POI間の移動時間 (データ中のmedianを使った)ただしデータから取得すると三角不等式を満たさなくなるので,metric completionという手法を使って直した: POIの価値 (訪問した人数を使った)
旅程の作成 (2/3) | 最適化問題の定義次のような最適化問題 (NP-hard) を定式化したIMP (Itinerary Mining Problem)入力: グラフ ( と一緒に),出発地と目的地 ,コスト(最大移動時間)出力: 移動時間が 以下で訪問地点の価値の和が最大になる順オリエンテーリング問題と呼ばれるやつの仲間.似た問題設定の近似比は( は営業時間窓の最大と最小).典型的なアルゴリズムの動作は 以上.他にもたくさんある.ただし旅程計画問題は頂点にもコスト (滞在時間) が乗っているので,オリエンテーリング問題のアルゴリズムをそのまま使えない.
旅程の作成 (3/3) | 近似手法RG-QP頂点のコストを辺のコストに変換する前処理を行うRG-QP: 旅程で訪問できる個数を半分ずつにしながら探索するようなイメージの再帰的貪欲法オリエンテーリング問題の手法を拡張複数日 (multi-day itineraries)RG-QPを複数回使えばOK.ただし貪欲法的につなげただけなので良いかどうかは別…その他細かい処理は一部省略とのこと
実験 (1/α) | データPOIの個数がオリエンテーリング問題の頂点数 (最大163POI).辺と頂点の重みは約4000~19000の時間パスから計算された.4つの旅程の作り方: POIの有名なもの4つ ( ) を取ってきて,を として作成 ( h).
実験 (2/α) | NYCの旅程例よく分からんけど…
実験 (3/α) | 図 (google map 途中まで)
実験 (4/α) | 実験設定AMT概念とタスク・使い方の説明 (2010年の論文なので)やりたいこと: reliable workers を探す (= 旅程タスクに知見が必要);finding users who are deeply familiar with foreign cities.approval rateの説明初期問題の説明; 3枚の写真 (都市でマイナーなPOIの) と名前の候補が表示され,それにすべて答えられるexpert workersを探す評価§5.3 side-by-side comparison = 横並べの対照比較?workerに作成した旅程とground-truth旅程を提示して比較§5.4 旅程単体の評価
実験 (5/α) | 比較評価の方法5都市について,それぞれ4つの旅程を作成し,1つの旅程を10 identicalHITsにして,各都市のground-truth旅程と比較 (4×10×5=200回)2つ (A, B) 提示し「どちらが良いか?」を聞く;Q1: AがBと比較して…: significantly better, somewhat better,similar, somewhat worse, significantly worseQ2: 表示されているPOIのappropriateness (たぶん↑の5段階)評価指標: においてワーカが問 に を投票した回数: 問 に を投票した総数
実験 (6/α) | 比較評価の結果(旅程 Q1) 66%が生成された旅程が良いと答えた (14%はNo)(POIs Q2) 52%が生成された旅程のPOIが良いと答えた (16%はNo)
実験 (7/α) | 個別評価冒頭に述べた ~ を用いて単体の評価を行った評価指標: 問 に 番目の返答をしたワーカの数アンケートの平均数値: 旅程 に回答したワーカの集合: ワーカによって「bad」と報告されたPOIの個数bad w.r.t. POIs, Visit Times, Transit Times (3つ)旅程の中身の質評価
実験 (8/α) | 個別評価の結果 (再掲)Q1-Q4の比較 (ロンドン) MWR = ほぼ同じ (冒頭)Q1-Q4の5都市比較 (冒頭,省略)MEFによる質評価両方大きな差はないが,10%-15%ぐらいは微妙なやつが入る
結論旅程推薦の分野で2022年から見てかなり初期の論文 (約300引用)ユーザごとの時間パスを作成し,オリエンテーリング問題の亜種を用いて旅程を生成するような枠組みを提案し,Flickrデータで実証した実験よりproの作成したGTと比較してcomparable(?)いくつかのポイント固定のハイパーパラメータがあるので弄ると良いかも平均的な旅程を出す (general itineraries, not personalized)共通して訪問するパターン (Co-visitation patterns) の扱いにもう少し工夫がいりそうデータが少ない都市や12時間未満の扱いなどスパースデータの対応