【輪講資料】Exploring and Exploiting User Search Behavior on Mobile and Tablet Devices to Improve Search Relevance【WWW2013】

Exploring and Exploiting User Search Behavior on Mobile and Tablet
Devices to Improve Search Relevance 1Yang Song, 1Hao Ma, 2Hongning Wang, 1Kuansan Wang 1Microsoft,2 Department of Computer Science 2013-06-26 輪講資料

目次 • 概要 • 導入 • 調査結果 • 手法 •
評価 • まとめ

概要 • 検索ログを利用して、desktop, mobile and tablet のユーザ検索行動の違いを示し、mobile とtabletユーザの検索行動の差ついて理解することが本研究の目的。
? どんなユーザが検索しているの？どんなクエリ？デスクトップと違いはあるの？調査指標として・クエリカテゴリ,クエリ長,検索時間分布,検索場所分布 ⇒ 調査の結果、既存のランキングアルゴリズムでは mobile, tabletで不十分。施策として ⇒ デバイス毎に最適化されたランキング方法を提案し精度を向上させた。

導入 • モバイル端末での検索が端末の急激な普及に伴って急増している。 ▪ モバイル・タブレットからのの検索数は132 [%] 増 ▪ 全体の検索数は11
[%] 増 • モバイルとデスクトップで検索に違いがあるのか？ ex) 2008年のGoogleのレポートによると、iPhoneユーザはデスクトップユーザと似ている一方で、他のモバイル端末ユーザは検索のパタンが異なる。 ex) 2009年のYahoo! のレポートによると、米国のモバイルクエリは、他国のモバイルユーザのクエリよりも複雑である傾向がある。 ⇒ 検索行動において、モバイルとデスクトップで差がある。例えば、personal entertainment の場合はモバイルが多かったりする。英国小売連合(British Retail Consortium BRC) の調査

• 検索特徴と背景のおさらい導入 2007年 2008年 2007年6月初代iPhone登場 query length 3.05(mobile
Yahoo! report) 2.93(iPhone) 2009年 2.44 (mobile Google report) 2010年 2010年4月初代iPad登場 2011年 2012年北米でのタブレットの所有率は30％を超えている。 2006年 2005年 2.6(Google report) 2.3(Google report) ハードウェアの高性能化

• 本研究の成果(目的) – ログを解析し、terms of time distribution, search locality, query
categories, click patterns, browse patterns などを解析し、既存の研究と比較することにより、モバイル検索の特徴を明らかにする。 – device-specific featuresを用いることにより、デバイス毎にsearch relevanceを改善する。導入

調査結果デバイス・データセット • デバイス MSRだけど、iPhone, iPadを使うわ (・`ω´・ ◦)ｷﾘｯ ※メジャーだし、screen size
が一定だし。 • データセット – Mobile(iPhone) • http://m.bing.com/ – Tablet (iPad) • http://www.bing.com/ – 期間(2012年8月~2012年10月)

調査結果モバイルとタブレット Query Distributions:: Average Query Length • Mobileの検索キーワード長だけが長い ⇒
Mobileの入力キーワード数が多いのは auto-suggestion の利用が多いため。(reformulation rateは３種ほぼ同じ) ⇒ informational queryが多い ※理由は次のページ。 • TabletとDesktopがほぼ同じ ⇒ 検索IFが双方が同等なものを利用しているため。

Query Distributions:: Query Categorization Distribution > • Mobileはアダルトコンテン、 Image
利用が多い • Mobileで navigational の利用が極端に少ないのは専用アプリ (Amazon etc) が存在するから ⇒ informational が相対的に多くなる。

Query Distributions:: Similarity between Desktop and Tablet • カルバック・ライブラー情報量でクエリの類似性を評価 Desktop
– Mobile : 0.31 Tablet – Mobile : 0.21 Tablet – Desktop: 0.07

Usage Time Distribution ・Desktopユーザ ⇒ 日中のビジネスシーンでの利用 ⇒ クエリはNavigational ・Tablet ユーザ
⇒ 食事のあとの時間で利用シーン。 (夜にcouches に座りながら使っている) ⇒ クエリはNavigational ・Mobile ユーザ ⇒ 夜に個人の趣味的利用 ⇒ クエリはアダルトや音楽など個人的趣向が反映。パーソナル利用

• シアトルエリアの 2000ユーザをサンプリング調査 • ３ヶ月分のログを収集 • Mobileは移動する、Tabletを長距離
持ちある程いるやつねーわ。（そりゃそうだ）（｀・ω・´）ｷﾘ • 自宅の定義は？ ↓ 一番多く検索している都市を自宅とする Location of Usage (mobile and tablet only)

• Sessionの定義 – 一般的にみなさんが想像する普通の検索行動、検索行動には検索クエリの入力、検索クエリの変更(reformation),クリックが含まれている。1セッションは30分以内とする。※本定義ではsession duragtionが30minを超えることはないね！ Sessions and Clicks::Session
Duration and Engagement • mobile検索は比較的早い検索を実施している ⇒ 外で歩きながら検索としているからだろうな～（論文にはそこまでは書いてないけど） • Table利用者は夜にゆっくりと時間をかけている検索している ⇒ Usage Time Distribution のデータとの関連を見ても、矛盾がない。

Sessions and Clicks::Click Distributions • Tabletでは長時間（よく）見ている傾向がある。 • Click Entropy では、mobile
のほうが大きい。( informational case ) • Algo CRTはあまりよくない。（既存のランキングがよくない。）

Sessions and Clicks::Click Intents • Mobile,Tabletではnavigational queryの割合は低い。 • Tablet ではショッピング（amazon,
ebay and craigslist）がよくクリックされている。 • knowledge baseのクリックがmobile ,Tabletに多い。

Mobile, Tablet and Desktop users Mobile ◦ 端末はいつも持ち歩く。 ◦ 検索内容はinformationな事柄や個人的趣向性の強いもの
をよく検索する。 ◦ Navigational なものは専用アプリからアクセスする ( amazon とか、日本なら、ニコ動,Youtube, etc) ◦ 検索するのは仕事が終わってから就寝時まで ◦ knowledge base コンテンツ閲覧が多い ⇒ navigational queryが少ないから？ Tablet ◦ 端末は自宅利用がほとんど（遠くまで携帯する人が少ない） ◦ みんなデスクトップ機の小さい版だと思っている！ ↓ Web Pageでタブレット版のページを表示されるのに違和感あるはず！ ◦利用時間はご飯たべたあとソファーにすわって使っている (イメージ通り） ◦ コマース系のコンテンツへの遷移が多い ◦ knowledge base コンテンツ閲覧が多い ⇒ navigational queryが少ないから？ Desktop ◦ ビジネス利用が主 ◦ 検索内容な navigationalが主 (パーソナル性) Mobile > Tablet > Desktop screen sizeに逆比例もするのかなぁ～(個人的主観)

さて、ここまでは余興ここからが本題です。

本研究のポイント手法 •Mobile,Tabletのランキングの改善(最適化） •新しい素性の追加 (time/location/intent)依存。 •デスクトップ検索で利用しているランキング学習データをMobile,Tablet用のランキング学習データに流用（転移学習）

New Features for Mobile and Tablet 手法 • Query Attributes
Features ・q-prob(Query|d) : d = {desktop,tablet,moible} ※発行されたクエリがそのデバイスの中でどの程度重要かを表す・q-prob-cross(Query|d) : d = {desktop,tablet,moible} ※発行されたクエリがその他のデバイスと比較してどの程度重要かを表す・q-prob(Query|t) : t = {morning, afternoon, evening, night} ※発行されたクエリがその時間帯の中でどの程度重要かを表す・q-prob-cross(Query|t) : t = {morning, afternoon, evening, night} ※発行されたクエリがその他のデバイスと比較してどの程度重要かを表す

New Features for Mobile and Tablet 手法 • URL Relevance
Features ・KL(カルバック・ライブラー情報量) ※クエリとURLのトピック（class)の近さ(確率分布の差異）,classは80カテゴリほど（Query,URLは推定済み）・click-prob: loc = {city,state} ex) loc = {Washington,U.S.} ⇒ コード上では都市と国名はIDで管理・wiki-prob: knowledge base サイトのクリックを考慮。 knowledge base のリストはWikipedia, Freebase, Yahoo! answers, eHow など３０。

ランキング学習-転移学習・Mobile,Tabletの学習データの生成が困難 ⇒ Desktopの学習データ(モデル）を用いてMobile,Tabletの学習(転移学習） Dを解して転移学習を行う

• Desktopの正解データ – ３人の人手で以下の５段階評価でQuery-URLのペアにラベルを付与 ※意見の相違の場合は多数決 (5) Perfect, (4) Excellent, (3)
Good, (2) Fair,(1) Bad - 3500 Query-URL pairs • Mobile,Tablet の正解データ – クリック数を擬似正解データ（クリック数の多い順番に 5,4,3,2,1とする） – 5000 x 2 (tablet and mobile) Query-URL pairs • 素性セット – Desktop •コンテンツベースの400個の素性（BM25, document length etc.） – Mobile and Tablet •domain-specific features 20個ランキング評価実験

• 比較方法 – Baseline 1: デフォルトのランキング（Desktopと同じ） – Baseline 2: content-base
feature + new domain specific features( each Raking SVM using 5000 training instanced) – Baseline 3: 転移学習( without new features) • 計量値 – MAP@K ※ランクKまでにどれだけ適合する文書が出現しているかを見る指標 – NDCG@K ※ランクＫまでに理想のランキング順序にどれだけ近いかを見る指標 K = 1～３ • 評価方法 – 2-fold cross validation ( 10000件のデータを1(学習):1(推定)に分割） – ２０回繰り返して平均を取る。 ↑ やっている人いんじゃん！ – γ = 0.15 (5-fold c.v.) ランキング評価実験

• Baseline 2,3 は１を改善している。 • Baseline 3 は2よりもわずかに優れている。(転移学習の効果あり） • Our
MethodはBaselineよりもよくて、 – MAP,NDCG : Mobile - 5[%]程度改善 Tablet – 3[%]程度改善ランキング評価実験

ランキング評価実験 • 転移学習時のtarget domainの精度向上におけるsource domain のデータ依存性

ランキング評価実験 • カテゴリ毎の精度向上の比較 – navagational, local,mapがよく向上している。

ランキング評価実験 • 各時刻における精度向上値 – Mobile ⇒ afternoon, Eveningで向上 – Tablet
⇒ Eveningで向上 ※traffic量の多さから考慮してもour method はよい。

まとめ • クリックログを分析することにより、デバイス毎の検索行動や特徴を明らかにすることができた。 • 検索行動を分析することにより、デバイス毎に最適化されたランキング学習を実施することにより、検索精度を向上させた。

Dwell Time The term Dwell Time was referred by Bing’s
Duane Forrester in his last year’s blog post “How to Build Quality Content?” The term stands for a combination of bounce rate and time-on-site metrics that measures how long the visitor is taking to go back to SERP after clicking on a result. Please note that this can be measured directly from the own data of the search engine. http://www.bing.com/blogs/site_blogs/b/web master/archive/2011/08/02/how-to-build- quality-content.aspx

【輪講資料】Exploring and Exploiting User Search Beha...

【輪講資料】Exploring and Exploiting User Search Behavior on Mobile and Tablet Devices to Improve Search Relevance【WWW2013】

Yuichiro SEKIGUCHI

More Decks by Yuichiro SEKIGUCHI

Other Decks in Research

Featured

Transcript

Exploring and Exploiting User Search Behavior on Mobile and Tablet

目次 • 概要 • 導入 • 調査結果 • 手法 •

概要 • 検索ログを利用して、desktop, mobile and tablet のユーザ検索行動の違いを示し、mobile とtabletユーザの検索行動の差ついて理解することが本研究の目的。

目次 • 概要 • 導入 • 調査結果 • 手法 •

導入 • モバイル端末での検索が端末の急激な普及に伴って急増している。 ▪ モバイル・タブレットからのの検索数は132 [%] 増 ▪ 全体の検索数は11

• 検索特徴と背景のおさらい導入 2007年 2008年 2007年6月初代iPhone登場 query length 3.05(mobile

• 本研究の成果(目的) – ログを解析し、terms of time distribution, search locality, query

目次 • 概要 • 導入 • 調査結果 • 手法 •

調査結果デバイス・データセット • デバイス MSRだけど、iPhone, iPadを使うわ (・`ω´・ ◦)ｷﾘｯ ※メジャーだし、screen size

調査結果モバイルとタブレット Query Distributions:: Average Query Length • Mobileの検索キーワード長だけが長い ⇒

Query Distributions:: Query Categorization Distribution > • Mobileはアダルトコンテン、 Image

Query Distributions:: Similarity between Desktop and Tablet • カルバック・ライブラー情報量でクエリの類似性を評価 Desktop

Usage Time Distribution ・Desktopユーザ ⇒ 日中のビジネスシーンでの利用 ⇒ クエリはNavigational ・Tablet ユーザ

• シアトルエリアの 2000ユーザをサンプリング調査 • ３ヶ月分のログを収集 • Mobileは移動する、Tabletを長距離

Sessions and Clicks::Click Distributions • Tabletでは長時間（よく）見ている傾向がある。 • Click Entropy では、mobile

Sessions and Clicks::Click Intents • Mobile,Tabletではnavigational queryの割合は低い。 • Tablet ではショッピング（amazon,

Mobile, Tablet and Desktop users Mobile ◦ 端末はいつも持ち歩く。 ◦ 検索内容はinformationな事柄や個人的趣向性の強いもの

さて、ここまでは余興ここからが本題です。

目次 • 概要 • 導入 • 調査結果 • 手法 •

New Features for Mobile and Tablet 手法 • Query Attributes

New Features for Mobile and Tablet 手法 • URL Relevance

ランキング学習-転移学習・Mobile,Tabletの学習データの生成が困難 ⇒ Desktopの学習データ(モデル）を用いてMobile,Tabletの学習(転移学習） Dを解して転移学習を行う

目次 • 概要 • 導入 • 調査結果 • 手法 •

• Desktopの正解データ – ３人の人手で以下の５段階評価でQuery-URLのペアにラベルを付与 ※意見の相違の場合は多数決 (5) Perfect, (4) Excellent, (3)

• 比較方法 – Baseline 1: デフォルトのランキング（Desktopと同じ） – Baseline 2: content-base

• Baseline 2,3 は１を改善している。 • Baseline 3 は2よりもわずかに優れている。(転移学習の効果あり） • Our

ランキング評価実験 • 転移学習時のtarget domainの精度向上におけるsource domain のデータ依存性

ランキング評価実験 • カテゴリ毎の精度向上の比較 – navagational, local,mapがよく向上している。

ランキング評価実験 • 各時刻における精度向上値 – Mobile ⇒ afternoon, Eveningで向上 – Tablet

Dwell Time The term Dwell Time was referred by Bing’s