Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
【輪講資料】Are Web Users Really Markovian?【WWW2012】
Search
Yuichiro SEKIGUCHI
May 15, 2013
Research
1
190
【輪講資料】Are Web Users Really Markovian?【WWW2012】
2013-05-15に職場で実施した輪講資料を代理アップロードしました.
Yuichiro SEKIGUCHI
May 15, 2013
Tweet
Share
More Decks by Yuichiro SEKIGUCHI
See All by Yuichiro SEKIGUCHI
【輪講資料】Destination Prediction by Sub-Trajectory Synthesis and Privacy Protection Against Such Prediction【ICDE2013】
dreamedge
0
550
【輪講資料】Time-aware Point-of-Interest Recommendation【SIGIR2013】
dreamedge
1
700
【輪講資料】Exploring and Exploiting User Search Behavior on Mobile and Tablet Devices to Improve Search Relevance【WWW2013】
dreamedge
1
210
【輪講資料】Fast Candidate Generation for Two-Phase Document【CIKM2012】
dreamedge
1
160
【輪講資料】Inferring the Demographics of Search Users【WWW2013】
dreamedge
1
220
【輪講資料】Optimal Hashing Schemes for Entity Matching【WWW2013】
dreamedge
2
990
【輪講資料】From Query to Question in One Click: Suggesting Synthetic Questions to Searchers【WWW2013】
dreamedge
1
170
【輪講資料】Learning to Rank for Spatiotemporal Search【WSDM2013】
dreamedge
1
960
【輪講資料】Mining the Web for Points of Interest【SIGIR2012】
dreamedge
1
1.1k
Other Decks in Research
See All in Research
LiDARセキュリティ最前線(2025年)
kentaroy47
0
140
学習型データ構造:機械学習を内包する新しいデータ構造の設計と解析
matsui_528
6
3.2k
Multi-Agent Large Language Models for Code Intelligence: Opportunities, Challenges, and Research Directions
fatemeh_fard
0
120
一般道の交通量減少と速度低下についての全国分析と熊本市におけるケーススタディ(20251122 土木計画学研究発表会)
trafficbrain
0
160
Akamaiのキャッシュ効率を支えるAdaptSizeについての論文を読んでみた
bootjp
1
450
SREのためのテレメトリー技術の探究 / Telemetry for SRE
yuukit
13
3k
LLMアプリケーションの透明性について
fufufukakaka
0
140
AIスパコン「さくらONE」の オブザーバビリティ / Observability for AI Supercomputer SAKURAONE
yuukit
2
1.2k
存立危機事態の再検討
jimboken
0
240
第二言語習得研究における 明示的・暗示的知識の再検討:この分類は何に役に立つか,何に役に立たないか
tam07pb915
0
1.2k
[チュートリアル] 電波マップ構築入門 :研究動向と課題設定の勘所
k_sato
0
260
ペットのかわいい瞬間を撮影する オートシャッターAIアプリへの スマートラベリングの適用
mssmkmr
0
270
Featured
See All Featured
エンジニアに許された特別な時間の終わり
watany
106
230k
Side Projects
sachag
455
43k
Believing is Seeing
oripsolob
1
58
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
How STYLIGHT went responsive
nonsquared
100
6k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.8k
Efficient Content Optimization with Google Search Console & Apps Script
katarinadahlin
PRO
1
330
Agile Actions for Facilitating Distributed Teams - ADO2019
mkilby
0
120
SERP Conf. Vienna - Web Accessibility: Optimizing for Inclusivity and SEO
sarafernandez
1
1.3k
End of SEO as We Know It (SMX Advanced Version)
ipullrank
3
3.9k
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
3.1k
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
120
Transcript
1 2013-05-15 輪講資料 Are Web Users Really Markovian? Flavio Chierichetti
@ Cornell University Ravi Kumar @ Yahoo! Research Prabhakar Raghavan @ Yahoo! Labs Tamás Sarlós @ Yahoo! Research
2 概要 ・Webのユーザモデル(PageRank等)の多くにはマルコフ性の 仮定の上に成り立っている - ユーザがあるページPから移動するときの推移先は, Pにのみ依存し どのようにPへと推移したかという過去の履歴には依存しない ・この仮定の妥当性を検証したい -
過去の履歴にも依存させるためにモデルを拡張 ① k-orderマルコフ連鎖 ② variable-orderマルコフ連鎖 -ユーザの各種ブラウジング履歴のデータセット ⇒ 通常のマルコフモデルに関する対数尤度比で評価
3 マルコフ連鎖 の条件付き独立性(=マルコフ性)を満たす確率変数の集合を(1-orderの) マルコフ連鎖という。 過去の状態 現在状態 次の時刻の状態 現在状態 次の時刻の状態 推移確率(状態iから状
態j推移する確率) 推移確率行列 Pがいくつかの条件(有限状態ならば既約性・非周期 性)を満たせば の固有値1に対応する、固有ベクトルを”定常分布”と呼 び。 どのような初期状態から始まっても定常分布へ収束する。 ⇒ この不変性が便利なのでリンク解析などで応用される
4 マルコフ連鎖の最尤推定 ユーザiの履歴 与えられた履歴を元 に推移カウンタをイ ンクリメント 下記で定義される状態aから状態bの推移の比率は推移確率の最尤推定量となる 状態aからの総推移数 状態aから状態bへの推移数 0
xi,1 xi,|Ti| … 0 xi,2 最初と最後は 0(リセット)状態 … ユーザが(1-orderの)マルコフ連鎖に従うと仮定して、 ブラウジング履歴からパラメータを推定する
5 モデルの拡張① 1-orderのマルコフ性 k-orderのマルコフ性(k個前の履歴のもとの条件付き独立性) 【課題】 ・計算量的な困難さ ⇒ 状態空間が最悪でnkで増加していく。。 過去の状態 現在状態
次の時刻の状態 現在状態 次の時刻の状態 過去の状態 現在状態 次の時刻の状態 k個前までの状態 次の時刻の状態 通常のマルコフ性より過去の履歴への依存性を表現できるように拡 張したい ⇒ k-orderのマルコフ性
6 モデルの拡張② variable orderマルコフ連鎖 - 状態によって異なるorderのマルコフ性 - 上限Kだけを固定し、各状態は1...Kのorderのどれかを持つ ⇒ 動的計画法によって各状態の尤度最大となるorderを求める
(1-orderマルコフ連鎖モデルで推定した推移確率により再計算) 各状態のorderを逐次計算し て尤度最大となるorder j* を探索
7 評価データ 粒度・履歴の規模を変えたデータセットで評価 Yahoo : yahoo.comのMail, News, Sports, Financeなど主要59サ イト間のcookie履歴
11 億件 (平均 : 46steps) NYTimes : nytimes.com内の40トピックYahoo! browser toolbar 履歴 25,000件 (平均 : 9steps) MouseTrack : yahoo.com検索結果ページのDOM要素270個の マウストラック履歴 234万件 (平均 : 7steps) EyeTrack : 被験者の視線トラッキング履歴(2×4グリッド上に ニュース記事を表示) 521件 (平均 : 68steps)
8 評価① : k-orderのマルコフ連鎖モデル
9 評価①-1 複数ページ間の推移の評価(Yahoo/NYTimes) ・Yahoo - 3steps程度の履歴で収束 - 11%の対数尤度比改善 - (Mail,
Mail)/(yahoo.com, Registration, Mail)/(Mail, News)が よく出る状態 ・NYTimes - 5steps程度の履歴で収束 - 13%の対数尤度比改善 - (Business, Search)/(NYregion, US, World)/(Opinion, Blog, Opinion)がよく出る状態 ⇒ 複数ページ間の推移はマルコフ性を持たない、ただし依存する履歴 は大きくはない。
10 評価①-2 同一ページ内の推移の評価(MouseTrack/EyeTrack) ・MouseTrack - 7steps程度の履歴で収束 ・EyeTrack - なかなか収束しない -
左右の視線移動をしばらく続けた後に、別の視点移動をしたりとい うパターンなので、多くの履歴に依存することになった ⇒ 同一ページのユーザ挙動はマルコフ性は成り立たない。それどころ かlow-orderのマルコフ性も成り立たない。
11 評価② : k-orderとvariable-orderモデルの比較
12 評価② : k-order-とvariable-orderモデルの比較 ・Eyetracking以外では大きく改善 比較のためx軸はfractional order=各状態のorderの総和/状態数 ⇒ k-orderの場合はそのままkとなる
13 評価③ : k-orderモデルのロバストネス
14 評価③-1 : Train-test split 大きなデータセットYahoo/MouseTrackの履歴データを2分割し 評価量を計算して比較 ⇒ Yahooの結果はほとんど変わらず MouseTrackのhigh-orderで大きく剥離
15 評価③-2 : Removing self-loop/short trails ・Removing self-loop : 履歴データからself-loopを取り除いて評価
・Removing short trails : 5以下の長さの履歴を取り除いて評価
16 まとめ・所感 ・ Webのユーザモデルの多くが用いているマルコフ 性の仮定の妥当性を検証した - 過去の履歴にも依存させるためにモデルを拡張 ① k-orderマルコフ連鎖 ②
variable-orderマルコフ連鎖 -ユーザの各種ブラウジング履歴のデータセット ⇒ 通常のマルコフモデルに関する対数尤度比で評価 ・結果 - いずれのモデル/データセットも(厳密な意味では)マルコ フ性を満たしていない