Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【輪講資料】Inferring the Demographics of Search User...

【輪講資料】Inferring the Demographics of Search Users【WWW2013】

2013-06-12に職場で実施した輪講資料を代理アップロードしました.

Yuichiro SEKIGUCHI

June 12, 2013
Tweet

More Decks by Yuichiro SEKIGUCHI

Other Decks in Research

Transcript

  1. 1 輪講資料 2013-06-12 Inferring the Demographics of Search Users Bin

    Bi*, Milad Shokouhi, Michal Kosinski, Thore Graepel *Bin’s internship at Microsoft Research Cambridge WWW’13, May 13-17, 2013, Rio de Janeiro, Brazil.
  2. 2 まとめ •目的: クエリログから、ユーザの属性を推定 •特徴: ユーザ属性の正解ラベルを持つFacebookのデータ を学習に利用。 – myPersonalityというPublicデータ(心理テストアプリ)を利用 –

    Likeが付いたエントリの見出し語をクエリログとみなし学習 – 各ユーザをOpen Directory Project(ODP)カテゴリに基づくベ クトル(219次元)で表現する •評価: 性別、年齢、信仰、政治の各ユーザ属性で実験 – 転移学習に成功(Likeで学習  クエリログでテスト で高精度) – 実際の統計データと、推定値の間の強い相関を確認 Likeログ 見出し語 検索 上位文書 ODP ベクトル クエリ ログ ユーザ 属性 入力 出力 OR 確率モデル 分類 検索
  3. 9 チャレンジ1: LikeとQueryの共通表現 (2) •FacebookのLikeを「Likeされたエンティティの タイトル」をクエリとした検索と解釈 –Lady gagaへのLike = “lady

    gaga”という検索 •検索結果(Bing)の上位10件の各Webページを 、ODPカテゴリ(219種)に分類する – ODPにリンクされたページを学習データとして、ロジ スティック回帰による分類器を構築 –例) Arts/Movies、Business/Jobs  1つのLikeが219次元のベクトルに変換される –各カテゴリについて検索結果に含まれる文書数が要素
  4. 12 チャレンジ2: どう転移学習するか? (1) •最終的に推定したい確率 –Y: ユーザ属性クラス –Q: クエリ –Dq:

    クエリログ全体 •ODPカテゴリCで周辺化されていると考えると、 推定したいユーザの クエリQを、ODP共通表現 に変換して推定可能 ここをどのように 推定するか?が この論文のポイント
  5. 15 •P(C|Y)=θYをMAP(最大事後確率)推定する •MAP推定値は以下の通り得られる チャレンジ2: どう転移学習するか? (4) 尤度(多項分布)事前分布(ディ リクレ分布) • K:

    ODPカテゴリ数(=219) • k: カテゴリインデクス • Nk Y: クラスYのユーザのLikeによる検索結果 に含まれる、ODPカテゴリkのWebページ数 • NY:クラスYのユーザのLikeによる検索結果 のWebページ数
  6. 16 チャレンジ2: どう転移学習するか? (5) •最初に戻ると、 •P(C)は、ODPカテゴリ分布。 •P(C|Q,Dq)は、各ユーザのクエリQから得られる正規化さ れたODPベクトルと考えて良い – 共通表現なので、Likeからでも推定可能

    Facebookデータから学習できた! 残り: ユーザのクエリQに 依存する部分 Likeログ 見出し語 検索 上位文書 ODP ベクトル クエリ ログ ユーザ 属性 入力 出力 OR モデル 分類 検索 をLikeで学習!
  7. 19 Bingデータセット(Search) •2012年10月14日~10月28日のBingのデータ •検索時にMicrosoft Live アカウントにログイン 中のデータ1.33億クエリ、3.3百万ユーザ –Microsoft Liveプロフィールに性別と年齢のデータあり ※

    本研究では、クエリログに関するユーザ属性の正 解データは得られない想定で、ユーザ属性推定を 行う。Liveアカウントのプロフィールデータはテ スト時のみ用いる
  8. 22 評価実験 •学習: – Facebookデータの66%で学習 •テスト: – Facebookデータの残り34%(性別、年齢、政治観、信仰) – Searchデータ100%(性別、年齢)

    •指標: – AUC(Area Under the ROC Curve)の平均値 •False Positive vs. True Positiveの曲線の面積 – 1.0のとき最も良い。0.0のとき最も悪い •ユーザ属性の正解ラベルを使った評価 – Pearson相関係数 •オフィシャルの統計と、推定値の相関 •ユーザ属性の正解ラベルを用いていない
  9. 25 政治観の推定結果 •推定値の見方 – 青: リベラル、赤: 保守 – 一般に、リベラルは民主 党(オバマ)、保守は共

    和党(ロムニー)に投票 •推定値と統計調査の間 は、Pearson相関係数 ρ=0.72 2012大統領選 選挙結果 統計調査 (Gallup社) 推定値
  10. 29 まとめ •目的: クエリログから、ユーザの属性を推定 •特徴: ユーザ属性の正解ラベルを持つFacebookのデータ を学習に利用。 – myPersonalityというPublicデータ(心理テストアプリ)を利用 –

    Likeが付いたエントリの見出し語をクエリログとして学習 – 各ユーザをOpen Directory Project(ODP)カテゴリに基づくベ クトル(219次元)で表現する •評価: 性別、年齢、信仰、政治の各ユーザ属性で実験 – 転移学習に成功(Likeで学習  クエリログでテスト で高精度) – 実際の統計データと、推定値の間の強い相関を確認 Likeログ 見出し語 検索 上位文書 ODP ベクトル クエリ ログ ユーザ 属性 入力 出力 OR 確率モデル 分類 検索