【輪講資料】Inferring the Demographics of Search Users【WWW2013】

1 輪講資料 2013-06-12 Inferring the Demographics of Search Users Bin
Bi*, Milad Shokouhi, Michal Kosinski, Thore Graepel *Bin’s internship at Microsoft Research Cambridge WWW’13, May 13-17, 2013, Rio de Janeiro, Brazil.

2 まとめ •目的: クエリログから、ユーザの属性を推定 •特徴: ユーザ属性の正解ラベルを持つFacebookのデータを学習に利用。 – myPersonalityというPublicデータ（心理テストアプリ）を利用 –
Likeが付いたエントリの見出し語をクエリログとみなし学習 – 各ユーザをOpen Directory Project（ODP）カテゴリに基づくベクトル（219次元)で表現する •評価: 性別、年齢、信仰、政治の各ユーザ属性で実験 – 転移学習に成功（Likeで学習  クエリログでテストで高精度） – 実際の統計データと、推定値の間の強い相関を確認 Likeログ見出し語検索上位文書 ODP ベクトルクエリログユーザ属性入力出力 OR 確率モデル分類検索

3 はじめに •検索クエリの履歴から、ユーザ属性を知ることが出来れば、検索結果の改善などに役立てることが出来る •ユーザ属性には大きく分けて2種類ある –デモグラフィック属性とは、人口統計学的な属性データ。具体的には、性別、年齢、居住地域、所得、職業、学歴、家族構成など。 –サイコグラフィック属性とは、心理学的属性。具体的には、ライフスタイル、好み、価値観、信念（宗教）、購
買意向・動機など。 •タイトルはデモグラフィック属性の推定だが，実験ではサイコグラフィック属性の推定もしている

4 はじめに •Bingのユーザが、Facebookにログインしながら検索するのは、全体の22% •Microsoftのユーザアカウントでは、政治観や信仰などの属性は取得できない。また、正解属性が分かるユーザ数も少ない。  クエリログから学習するのは困難 •属性が明らかなFacebookのLike（いいね！）を
、クエリログからの推定のために利用する: –「ドメイン適応」や「転移学習」と呼ばれる –2つの情報源（Facebookとクエリログ）を、Open Directory Project（ODP）カテゴリでブリッジする

5 目次 •はじめに •ユーザ属性モデリング •データセット •実験 •まとめ

6 ユーザ属性のモデリング • 2つのチャレンジに取り組む 1. 検索クエリとFacebookのLikeの間に、有効な共通表現はあるか？ 2. 2つのデータセット（検索、Facebook）におけるユーザ属性の分布の違いをどう扱って転移学習するか？

7 チャレンジ1: LikeとQueryの共通表現 (1) •Open Directory Project（ODP）を利用する –ボランティア運営による世界最大のウェブディレクトリ –全世界で約500万サイトが登録。英語が320万、日本語が18万弱（Wikipediaより、2012年12月）
http://www.dmoz.org/

8 •FacebookのLikeと、検索エンジンのクエリを ODPカテゴリという共通表現に変換するチャレンジ1: LikeとQueryの共通表現 (2)

9 チャレンジ1: LikeとQueryの共通表現 (2) •FacebookのLikeを「Likeされたエンティティのタイトル」をクエリとした検索と解釈 –Lady gagaへのLike = “lady
gaga”という検索 •検索結果（Bing）の上位10件の各Webページを、ODPカテゴリ（219種）に分類する – ODPにリンクされたページを学習データとして、ロジスティック回帰による分類器を構築 –例) Arts/Movies、Business/Jobs  1つのLikeが219次元のベクトルに変換される –各カテゴリについて検索結果に含まれる文書数が要素

10 チャレンジ1: LikeとQueryの共通表現 (2) •クエリログも同様に219次元ベクトルに変換可能 –ユーザの各クエリについて、検索結果を取得し、上位1 件の文書をODPに分類する –分類結果を集約して、ODPベクトルを作成  Likeとクエリを共通表現に変換可能
= Likeからでも、クエリからでもユーザ属性を推定可能 = Likeデータで学習した結果を、クエリでのテストに転移できる

11 ユーザ属性のモデリング • 2つのチャレンジに取り組む 1. 検索クエリとFacebookのLikeの間に、有効な共通表現はあるか？ 2. 2つのデータセット（検索、Facebook）におけるユーザ属性の分布の違いをどう扱って転移学習するか？

12 チャレンジ2: どう転移学習するか？ (1) •最終的に推定したい確率 –Y: ユーザ属性クラス –Q: クエリ –Dq:
クエリログ全体 •ODPカテゴリCで周辺化されていると考えると、推定したいユーザのクエリQを、ODP共通表現に変換して推定可能ここをどのように推定するか？がこの論文のポイント

13 チャレンジ2: どう転移学習するか？ (2) •ベイズルールより、 •P(Y|Dq)は、検索エンジンにおけるユーザ属性分布と考えて良い（既知とする） •P(C|Dq)は、ODPカテゴリのエントリ数の分布と考えて良い（既知とする） 
P(C|Y,Dq)が推定出来ればOK！しかし、クエリログDq には、ユーザ属性の正解ラベルが付いていない

14 •P(C|Y,Dq)は、ユーザ属性Yが、カテゴリCに興味のある確率である 検索エンジンの利用にも、Facebookの利用にも依存しないので、以下の様に考えて良い Facebookには正解のユーザ属性データがあるので、これを学習に利用するチャレンジ2: どう転移学習するか？ (3)
queryログ facebookログ

15 •P(C|Y)=θYをMAP（最大事後確率）推定する •MAP推定値は以下の通り得られるチャレンジ2: どう転移学習するか？ (4) 尤度（多項分布）事前分布（ディリクレ分布） • K:
ODPカテゴリ数（＝219） • k: カテゴリインデクス • Nk Y: クラスYのユーザのLikeによる検索結果に含まれる、ODPカテゴリkのWebページ数 • NY:クラスYのユーザのLikeによる検索結果のWebページ数

16 チャレンジ2: どう転移学習するか？ (5) •最初に戻ると、 •P(C)は、ODPカテゴリ分布。 •P(C|Q,Dq)は、各ユーザのクエリQから得られる正規化されたODPベクトルと考えて良い – 共通表現なので、Likeからでも推定可能
Facebookデータから学習できた！残り: ユーザのクエリQに依存する部分 Likeログ見出し語検索上位文書 ODP ベクトルクエリログユーザ属性入力出力 OR モデル分類検索をLikeで学習!

18 myPersonalityデータセット（Facebook） •Facebookの心理テストアプリ –オプトインで研究目的にプロフィール記録 –http://mypersonality.org/wiki からデータをDL可能 •600万ユニークユーザのうち、本研究では、年齢、性別、政治観、信仰、FacebookのいいねリストがあるUSユーザのみ利用 –10ユーザ未満のLikeエンティティは削除
–457,000ユーザ、122,000ユニークLike、1100万以上の(ユーザ, Like)の組 –信仰と政治観は自由記述  正規表現でマッチング

19 Bingデータセット（Search） •2012年10月14日～10月28日のBingのデータ •検索時にMicrosoft Live アカウントにログイン中のデータ1.33億クエリ、3.3百万ユーザ –Microsoft Liveプロフィールに性別と年齢のデータあり ※
本研究では、クエリログに関するユーザ属性の正解データは得られない想定で、ユーザ属性推定を行う。Liveアカウントのプロフィールデータはテスト時のみ用いる

20 2つのデータセットのずれ（Data shift） •Socialは若年のユーザが支配的で、女性の方が多く含まれる。 –「心理テストアプリ」のデータのため

22 評価実験 •学習： – Facebookデータの66%で学習 •テスト： – Facebookデータの残り34%（性別、年齢、政治観、信仰） – Searchデータ100%（性別、年齢）
•指標： – AUC（Area Under the ROC Curve）の平均値 •False Positive vs. True Positiveの曲線の面積 – 1.0のとき最も良い。0.0のとき最も悪い •ユーザ属性の正解ラベルを使った評価 – Pearson相関係数 •オフィシャルの統計と、推定値の相関 •ユーザ属性の正解ラベルを用いていない

23 転移学習の結果 •Facebookで学習，Searchでテスト（クエリログからユーザ属性推定）しても高い推定精度を維持している  転移学習成功 Facebookで学習、 Facebookでテスト Facebookで学習、
Searchでテスト性別（2クラス）年齢（5クラス）信仰（4クラス）政治観（2クラス）

24 信仰の推定結果統計データ推定値（入力: クエリ）クリスチャン仏教 ρ=0.39 ρ=0.53

25 政治観の推定結果 •推定値の見方 – 青: リベラル、赤: 保守 – 一般に、リベラルは民主党（オバマ）、保守は共
和党（ロムニー）に投票 •推定値と統計調査の間は、Pearson相関係数 ρ=0.72 2012大統領選選挙結果統計調査（Gallup社）推定値

26 ユーザ属性と関連が強いODPカテゴリの発見(1) •どのODPカテゴリがユーザ属性に寄与しているかを Information Gainにより計算 •「Sports/Basketballは、性別の判定に役立つ」など

27 ユーザ属性と関連が強いODPカテゴリの発見(2) •特定の属性に影響するODPカテゴリをInfluence（β）スコアにより計算 •例えば、Shopping/JewelleryやBusiness/Hospitalityは Mid-age（35-49歳）に影響、などが分かる

29 まとめ •目的: クエリログから、ユーザの属性を推定 •特徴: ユーザ属性の正解ラベルを持つFacebookのデータを学習に利用。 – myPersonalityというPublicデータ（心理テストアプリ）を利用 –
Likeが付いたエントリの見出し語をクエリログとして学習 – 各ユーザをOpen Directory Project（ODP）カテゴリに基づくベクトル（219次元)で表現する •評価: 性別、年齢、信仰、政治の各ユーザ属性で実験 – 転移学習に成功（Likeで学習  クエリログでテストで高精度） – 実際の統計データと、推定値の間の強い相関を確認 Likeログ見出し語検索上位文書 ODP ベクトルクエリログユーザ属性入力出力 OR 確率モデル分類検索

【輪講資料】Inferring the Demographics of Search User...

【輪講資料】Inferring the Demographics of Search Users【WWW2013】

Yuichiro SEKIGUCHI

More Decks by Yuichiro SEKIGUCHI

Other Decks in Research

Featured

Transcript

1 輪講資料 2013-06-12 Inferring the Demographics of Search Users Bin

2 まとめ •目的: クエリログから、ユーザの属性を推定 •特徴: ユーザ属性の正解ラベルを持つFacebookのデータを学習に利用。 – myPersonalityというPublicデータ（心理テストアプリ）を利用 –

5 目次 •はじめに •ユーザ属性モデリング •データセット •実験 •まとめ

7 チャレンジ1: LikeとQueryの共通表現 (1) •Open Directory Project（ODP）を利用する –ボランティア運営による世界最大のウェブディレクトリ –全世界で約500万サイトが登録。英語が320万、日本語が18万弱（Wikipediaより、2012年12月）

8 •FacebookのLikeと、検索エンジンのクエリを ODPカテゴリという共通表現に変換するチャレンジ1: LikeとQueryの共通表現 (2)

9 チャレンジ1: LikeとQueryの共通表現 (2) •FacebookのLikeを「Likeされたエンティティのタイトル」をクエリとした検索と解釈 –Lady gagaへのLike = “lady

12 チャレンジ2: どう転移学習するか？ (1) •最終的に推定したい確率 –Y: ユーザ属性クラス –Q: クエリ –Dq:

13 チャレンジ2: どう転移学習するか？ (2) •ベイズルールより、 •P(Y|Dq)は、検索エンジンにおけるユーザ属性分布と考えて良い（既知とする） •P(C|Dq)は、ODPカテゴリのエントリ数の分布と考えて良い（既知とする） 

15 •P(C|Y)=θYをMAP（最大事後確率）推定する •MAP推定値は以下の通り得られるチャレンジ2: どう転移学習するか？ (4) 尤度（多項分布）事前分布（ディリクレ分布） • K:

16 チャレンジ2: どう転移学習するか？ (5) •最初に戻ると、 •P(C)は、ODPカテゴリ分布。 •P(C|Q,Dq)は、各ユーザのクエリQから得られる正規化されたODPベクトルと考えて良い – 共通表現なので、Likeからでも推定可能

17 目次 •はじめに •ユーザ属性モデリング •データセット •実験 •まとめ

19 Bingデータセット（Search） •2012年10月14日～10月28日のBingのデータ •検索時にMicrosoft Live アカウントにログイン中のデータ1.33億クエリ、3.3百万ユーザ –Microsoft Liveプロフィールに性別と年齢のデータあり ※

20 2つのデータセットのずれ（Data shift） •Socialは若年のユーザが支配的で、女性の方が多く含まれる。 –「心理テストアプリ」のデータのため

21 目次 •はじめに •ユーザ属性モデリング •データセット •実験 •まとめ

22 評価実験 •学習： – Facebookデータの66%で学習 •テスト： – Facebookデータの残り34%（性別、年齢、政治観、信仰） – Searchデータ100%（性別、年齢）

23 転移学習の結果 •Facebookで学習，Searchでテスト（クエリログからユーザ属性推定）しても高い推定精度を維持している  転移学習成功 Facebookで学習、 Facebookでテスト Facebookで学習、

24 信仰の推定結果統計データ推定値（入力: クエリ）クリスチャン仏教 ρ=0.39 ρ=0.53

25 政治観の推定結果 •推定値の見方 – 青: リベラル、赤: 保守 – 一般に、リベラルは民主党（オバマ）、保守は共

26 ユーザ属性と関連が強いODPカテゴリの発見(1) •どのODPカテゴリがユーザ属性に寄与しているかを Information Gainにより計算 •「Sports/Basketballは、性別の判定に役立つ」など

27 ユーザ属性と関連が強いODPカテゴリの発見(2) •特定の属性に影響するODPカテゴリをInfluence（β）スコアにより計算 •例えば、Shopping/JewelleryやBusiness/Hospitalityは Mid-age（35-49歳）に影響、などが分かる

28 目次 •はじめに •ユーザ属性モデリング •データセット •実験 •まとめ

29 まとめ •目的: クエリログから、ユーザの属性を推定 •特徴: ユーザ属性の正解ラベルを持つFacebookのデータを学習に利用。 – myPersonalityというPublicデータ（心理テストアプリ）を利用 –