Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【輪講資料】Exploring and Exploiting User Search Beha...

【輪講資料】Exploring and Exploiting User Search Behavior on Mobile and Tablet Devices to Improve Search Relevance【WWW2013】

2013-06-26に職場で実施した輪講資料を代理アップロードしました.

Yuichiro SEKIGUCHI

June 26, 2013
Tweet

More Decks by Yuichiro SEKIGUCHI

Other Decks in Research

Transcript

  1. Exploring and Exploiting User Search Behavior on Mobile and Tablet

    Devices to Improve Search Relevance 1Yang Song, 1Hao Ma, 2Hongning Wang, 1Kuansan Wang 1Microsoft,2 Department of Computer Science 2013-06-26 輪講資料
  2. 概要 • 検索ログを利用して、desktop, mobile and tablet のユー ザ検索行動の違いを示し、mobile とtabletユーザの検索行 動の差ついて理解することが本研究の目的。

    ? どんなユーザが検索しているの?どんなクエリ?デスクトップと違いはあるの? 調査指標として ・ クエリカテゴリ,クエリ長,検索時間分布,検索場所分布 ⇒ 調査の結果、既存のランキングアルゴリズムでは mobile, tabletで不十分。 施策として ⇒ デバイス毎に最適化された ランキング方法を提案し 精度を向上させた。
  3. 導入 • モバイル端末での検索が端末の急激な普及に伴って急増している。 ▪ モバイル・タブレットからの の検索数は132 [%] 増 ▪ 全体の検索数は11

    [%] 増 • モバイルとデスクトップで検索に違いがあるのか? ex) 2008年のGoogleのレポートによると、iPhoneユーザはデスクトップユーザ と似て いる一方で、他のモバイル端末ユーザは検索のパタンが異なる。 ex) 2009年のYahoo! のレポートによると、米国のモバイルクエリは、 他国のモバイルユーザのクエリよりも複雑である傾向がある。 ⇒ 検索行動において、モバイルとデスクトップで差がある。 例えば、personal entertainment の場合はモバイルが 多かったりする。 英国小売連合(British Retail Consortium BRC) の調査
  4. • 検索特徴と背景のおさらい 導入 2007年 2008年 2007年6月 初代iPhone登場 query length 3.05(mobile

    Yahoo! report) 2.93(iPhone) 2009年 2.44 (mobile Google report) 2010年 2010年4月 初代iPad登場 2011年 2012年 北米でのタブレットの所有 率は30%を超えている。 2006年 2005年 2.6(Google report) 2.3(Google report) ハードウェアの 高性能化
  5. • 本研究の成果(目的) – ログを解析し、terms of time distribution, search locality, query

    categories, click patterns, browse patterns などを解析し、既存の研究と比較 することにより、モバイル検索の特徴を明らかにする 。 – device-specific featuresを用いることにより、 デバイス毎にsearch relevanceを改善する。 導入
  6. 調査結果 デバイス・データセット • デバイス MSRだけど、iPhone, iPadを使うわ (・`ω´・ ◦)キリッ ※メジャーだし、screen size

    が一定だし。 • データセット – Mobile(iPhone) • http://m.bing.com/ – Tablet (iPad) • http://www.bing.com/ – 期間(2012年8月~2012年10月)
  7. 調査結果 モバイルとタブレット Query Distributions:: Average Query Length • Mobileの検索キーワード長だけが長い ⇒

    Mobileの入力キーワード数が多いのは auto-suggestion の利用が多いため。(reformulation rateは3種ほぼ同じ) ⇒ informational queryが多い ※理由は次のページ。 • TabletとDesktopがほぼ同じ ⇒ 検索IFが双方が同等なものを利用しているため。
  8. Query Distributions:: Query Categorization Distribution > • Mobileはアダ ルトコンテン、 Image

    利用が 多い • Mobileで navigational の利用が極端 に少ないのは 専用アプリ (Amazon etc) が存在するか ら ⇒ informational が相対的に多 くなる。
  9. Usage Time Distribution ・Desktopユーザ ⇒ 日中のビジネスシーンでの利用 ⇒ クエリはNavigational ・Tablet ユーザ

    ⇒ 食事のあとの時間で利用シーン。 (夜にcouches に座りながら使っている) ⇒ クエリはNavigational ・Mobile ユーザ ⇒ 夜に個人の趣味的利用 ⇒ クエリはアダルトや音楽など 個人的趣向が反映。 パーソナル利用
  10. • シアトルエリアの 2000ユーザをサン プリング調査 • 3ヶ月分のログを収 集 • Mobileは移動する 、Tabletを長距離

    持ちある程いるやつ ねーわ。(そりゃそ うだ)(`・ω・´)キリ • 自宅の定義は? ↓ 一番多く検索してい る都市を自宅とする Location of Usage (mobile and tablet only)
  11. • Sessionの定義 – 一般的にみなさんが想像する普通の検索行動、検索行動には検索クエリの入力、 検索クエリの変更(reformation),クリックが含まれている。1セッションは30分以内 とする。※本定義ではsession duragtionが30minを超えることはないね! Sessions and Clicks::Session

    Duration and Engagement • mobile検索は比較的早い検索を実施している ⇒ 外で歩きながら検索としているからだろうな~(論文にはそこまでは書いてないけど) • Table利用者は夜にゆっくりと時間をかけている検索している ⇒ Usage Time Distribution のデータとの関連を見ても、矛盾がない。
  12. Sessions and Clicks::Click Distributions • Tabletでは長時間(よく)見ている傾向がある。 • Click Entropy では、mobile

    のほうが大きい。( informational case ) • Algo CRTはあまりよくない。(既存のランキングがよくない。)
  13. Sessions and Clicks::Click Intents • Mobile,Tabletではnavigational queryの割合は低い。 • Tablet ではショッピング(amazon,

    ebay and craigslist)がよくクリックされてい る。 • knowledge baseのクリックがmobile ,Tabletに多い。
  14. Mobile, Tablet and Desktop users Mobile ◦ 端末はいつも持ち歩く。 ◦ 検索内容はinformationな事柄や個人的趣向性の強いもの

    をよく検索する。 ◦ Navigational なものは専用アプリからアクセスする ( amazon とか、日本なら、ニコ動,Youtube, etc) ◦ 検索するのは仕事が終わってから就寝時まで ◦ knowledge base コンテンツ閲覧が多い ⇒ navigational queryが少ないから? Tablet ◦ 端末は自宅利用がほとんど(遠くまで携帯する人が少ない) ◦ みんなデスクトップ機の小さい版だと思っている! ↓ Web Pageでタブレット版のページを表示されるのに 違和感あるはず! ◦利用時間はご飯たべたあと ソファーにすわって使っている (イメージ通り) ◦ コマース系のコンテンツへ の遷移が多い ◦ knowledge base コンテンツ閲覧が多い ⇒ navigational queryが少ないから? Desktop ◦ ビジネス利用が主 ◦ 検索内容な navigationalが主 (パーソナル性) Mobile > Tablet > Desktop screen sizeに逆比例もするのかなぁ~(個人的主観)
  15. New Features for Mobile and Tablet 手法 • Query Attributes

    Features ・q-prob(Query|d) : d = {desktop,tablet,moible} ※発行されたクエリがそのデバイスの中でどの程度重要かを表す ・q-prob-cross(Query|d) : d = {desktop,tablet,moible} ※発行されたクエリがその他のデバイスと比較してどの程度重要かを表す ・q-prob(Query|t) : t = {morning, afternoon, evening, night} ※発行されたクエリがその時間帯の中でどの程度重要かを表す ・q-prob-cross(Query|t) : t = {morning, afternoon, evening, night} ※発行されたクエリがその他のデバイスと比較してどの程度重要かを表す
  16. New Features for Mobile and Tablet 手法 • URL Relevance

    Features ・KL(カルバック・ライブラー情報量) ※クエリとURLのトピック(class)の近さ(確率分布の差異),classは80カテゴリほど(Query,URLは推定済み) ・click-prob: loc = {city,state} ex) loc = {Washington,U.S.} ⇒ コード上では都市と国名はIDで管理 ・wiki-prob: knowledge base サイトのクリックを考慮。 knowledge base のリストはWikipedia, Freebase, Yahoo! answers, eHow など30。
  17. • Desktopの正解データ – 3人の人手で以下の5段階評価でQuery-URLのペアにラベルを付与 ※意見の相違の場合は多数決 (5) Perfect, (4) Excellent, (3)

    Good, (2) Fair,(1) Bad - 3500 Query-URL pairs • Mobile,Tablet の正解データ – クリック数を擬似正解データ (クリック数の多い順番に 5,4,3,2,1とする) – 5000 x 2 (tablet and mobile) Query-URL pairs • 素性セット – Desktop •コンテンツベースの400個の素性 (BM25, document length etc.) – Mobile and Tablet •domain-specific features 20個 ランキング評価実験
  18. • 比較方法 – Baseline 1: デフォルトのランキング(Desktopと同じ) – Baseline 2: content-base

    feature + new domain specific features( each Raking SVM using 5000 training instanced) – Baseline 3: 転移学習( without new features) • 計量値 – MAP@K ※ランクKまでにどれだけ適合する文書が出現しているかを見る指標 – NDCG@K ※ランクKまでに理想のランキング順序にどれだけ近いかを見る指標 K = 1~3 • 評価方法 – 2-fold cross validation ( 10000件のデータを1(学習):1(推定)に分割) – 20回繰り返して平均を取る。 ↑ やっている人いんじゃん! – γ = 0.15 (5-fold c.v.) ランキング評価実験
  19. • Baseline 2,3 は1を改善している。 • Baseline 3 は2よりもわずかに優れている。(転移学習の効果あり) • Our

    MethodはBaselineよりもよくて、 – MAP,NDCG : Mobile - 5[%]程度改善 Tablet – 3[%]程度改善 ランキング評価実験
  20. ランキング評価実験 • 各時刻における精度向上値 – Mobile ⇒ afternoon, Eveningで向上 – Tablet

    ⇒ Eveningで向上 ※traffic量の多さから考慮してもour method はよい。
  21. Dwell Time The term Dwell Time was referred by Bing’s

    Duane Forrester in his last year’s blog post “How to Build Quality Content?” The term stands for a combination of bounce rate and time-on-site metrics that measures how long the visitor is taking to go back to SERP after clicking on a result. Please note that this can be measured directly from the own data of the search engine. http://www.bing.com/blogs/site_blogs/b/web master/archive/2011/08/02/how-to-build- quality-content.aspx