Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[論文紹介][KDD2015] Focusing on the Long-term: It's Good for Users and Business #gunosydm / paper reading kdd2015

ysekky
March 29, 2017

[論文紹介][KDD2015] Focusing on the Long-term: It's Good for Users and Business #gunosydm / paper reading kdd2015

ysekky

March 29, 2017
Tweet

More Decks by ysekky

Other Decks in Research

Transcript

  1. Focusing on the Long-term: It’s Good for Users and Business

    Henning Hohnhold@Google, Inc. Deirdre O’Brien@Google, Inc. Diane Tang@Google, Inc. KDD’15 Yoshifumi Seki@Gunosy Inc. Gunosyデータマイニング研究会 #117 2017.03.28
  2. 自己紹介 • 関 喜史 ◦ Gunosy 共同創業者 ◦ データ分析部研究開発チーム (仮)

    ◦ 東大松尾研, 工学博士(2017年3月卒) • 研究テーマ: ニュース推薦システムのサービス応用について • 関心領域 ◦ 推薦システム, ユーザ行動分析 • 趣味 ◦ アイドル、日本酒、将棋
  3. オンライン上での実験についての アウトプットが増えている Microsoft R.Kohavi et al. KDD’07 Practical Guide to

    Controlled Experiment on the Web: Listen to Your Customers not to the HiPPO Microsoft R.Kohavi et al. KDD’13 Online Controlled Experiments at Large Scale Amazon R.Kohavi et al. Emetric Summit 2004 Front Line Internet Analytics at Amazon.com eBay G.Sadler Why Not Treat Marketing Like Sales? Google D.Tang et al. KDD’10 Overlapping Experiment Infrastructure: More,Better, Faster Experimentation. • Microsoftは2013年のある時点で200以上の実験を行っている • Googleは2015年のある時点で1000以上の実験を行っている
  4. Overall Evaluation Criterion(OECs) • OECでは単に数日や数週間程度での改善より、年単位での改善が組み込まれる べきである ◦ Kohaviらは短期の改善が長期の改善に繋がることを指摘している [Kohavi et

    al. 12] • 著者らはGoogleの広告システムの改善において、短期の改善が長期的にはネガ ティブな影響を引き起こすケースに遭遇した ◦ 当時短期的なユーザ満足度の指標を長期のユーザ満足度の指標として考えていた ◦ 利益と満足度の関係を正しく理解できていなかった ◦ そのためにユーザ体験に強い影響を与えるような施策をリリースすることに対して保守的だった ◦ 定性的性質が不十分だったので、保守的すぎたのか、保守的な度合いが足りないのか判断するす べが無かった • (発表者の感想)めっちゃ分かる。。。
  5. この論文でやること • ads blindness and ads sightednessを定量化する手法の提案と有効性の検証 ◦ 広告の品質とユーザー体験に基づいて、広告をクリックするユーザーの固有 の傾向がどのように変化するか

    • 短期のユーザ満足度指標から長期のユーザ満足度を予測するモデルの提案 これによってユーザの満足度と利益を組み合わせたOECを作ることができる 2つの事例 • 広告の入札アルゴリズムを変更した事例 • モバイルにおける広告の数を減らした事例
  6. この論文で扱わないこと 基本的なオンライン実験のこと A/Bテストとか、このような実験を実行するためのシステム構成 これまで多くの研究がある - R. Konhavi et al. In

    KDD’07 - R. Konhavi et al. In The Third Workshop on Data Mining Case Study 09 - D. Tang et al. In KDD’10 本論文と関係するいくつかの概念を紹介
  7. Experimental Unit • Experimental Unit: 実験や検証のためのランダムに得られたユーザのまとまり ◦ Experimental UnitのためにCookieを使う ◦

    Cookieはユーザ特定のためには不完全なので、長期的に分析するための方法も提案する • 一定期間におけるランダムに抽出されたクッキーの集まりをcohortと呼ぶ ◦ 実験対象のcohortをE, 比較対象のcohortをCと表す ◦ Eが受ける処理をe, Cが受ける処理をcと表す • あるメトリクスMにおける変化の差分(relative changes)を見る
  8. User Learning • User Learning: ソーンダイクの効果の法則として提案された。positiveな結果はそ れを引き起こす行動を強化し、negativeな結果はそれを引き起こす行動がなくな る。(negativeな方は否定されてるらしいが、本論文では言及なし) • オンラインの行動に関連のある研究は新規性または優位性の効果、または嫌悪感

    に焦点を当てている(引用なし?) ◦ ユーザが新しいものに触れて、調整する時間を探したくなるか、必要とする ◦ ユーザが単純に変更を好まない • 大規模な研究は[R. Kohavi KDD’12]を除いて行われていない ◦ [R. Kohavi KDD’12]ではオンライン実験の楽観主義に対して警告している ◦ しかし、新規性, 優位性の結果が結果の方向性を変えることはないと述べている ▪ これは本論文の結果とことなる ◦ またcarryover効果があるとも述べている ▪ あるコホートに対して行われた実験が、そのあとの実験にも影響する ▪ 本研究でも観測できた。そしてそれを扱うための方法を提案している
  9. Ads blindness and sightedness • Ads blindness and sightedness: specific

    user learning effect ◦ ユーザの以前の経験によって広告のクリックしやすさや操作しやすさが変わった時に起こる ◦ 1990年代後半のバナー広告がでたときから議論されている ◦ ユーザはバナーの中のテキストや、場所を無視するようになることが示されている ▪ J.P Benway et al. Banner Blindness: Web Searchers Often Miss “Obvious Links” ◦ その後、ユーザの興味を引くためにアニメーションの使用が増えるに従って、ユーザの広告認識率 もあがっていった ▪ M. Bayles. Just how “Blind” Are We to Advertising Banners on the Web? In Usability News, 2000. ◦ 最近の研究ではテキスト広告も無視されるようになり、ユーザは明らかにその箇所をスキップする ▪ J.W. Owens et al. Text Advertising Blindness: The New Banner Blindness? In Journal of Usability Studies. 2011. • これらの研究は小さな規模で行われたものであり、本研究は100万以上のユーザ に対して、数ヶ月間に渡って行われた初めての研究である
  10. Short-term impact • Short-term impact: 数日から数週間における施策の実験の効果 • Long-term impact: ユーザが永久にその施策を受けた場合の効果.

    t -> ∞ • 広告におけるshortとlongの違いは、主にuser learningとadvertiser responseに現 れる ◦ 本研究ではuser learningからのimpactの計測と見積もりに注力する ◦ Learned impactと呼ぶ • Long-term impactはLearned impactとShort-term impactの組み合わせで近似で きると仮定する
  11. Long-term revenue Long-term revenue: 長期のビジネスの健全性としての指標.OECと考えることができ る • ユーザが増えれば収益は増えるよね • ユーザのやるタスク(検索とか)が増えれば収益は増えるよね

    • タスクに対するクエリの数が増えれば増えるよね • クエリに対して出る広告の数が増えれば増えるよね • でも広告を増やしたら(the ad loads) CTR長期的には下がるよね • 質の悪い広告をクリックさせたら、Cost/Click長期的には下がるよね?
  12. Learned CTR Learned CTR: 施策によるuser learningによるCTRの変化。U_{CTR}と記述する • U_{CTR}の計算式は提供しない ◦ U_{CTR}はCookieの問題で直接算出できない

    • U_{CTR}の近似を行う実験的な方法を開発した ◦ 季節要因などの影響を考えると絶対値としての変化ではなく、比としての変化が望ましい • U_{CTR}が定まるには数ヶ月かかると考えられる ◦ この期間を見積もる方法について論じる • U_{CTR}によってユーザが広告をクリックする固有の特性が、treatmentによってど のように変化するのかを知ることができる ◦ positiveなU_{CTR}はsightedness ◦ negativeなU_{CTR}はblindedness
  13. Experiment Design & Methodology • Naive Setup ◦ シンプルにあるクッキーのユーザを実験対象、あるクッキーのユーザを比較対象として実験する ◦

    他に行われているいろんな実験の効果や、季節変動などの効果を取り除くのは非常に難しい • Post-Period Learning Measurements(PP) ◦ Carry over effect対策をしたいのでA/Aテストをサンドイッチする • The Cookie-Cookie Day Method(CCD) ◦ 日別の結果をちゃんと見たい ◦ どのクッキーをどの実験に割り当てるかを日別にローテする
  14. Predicting Ads Blindness • Adsの無視され具合を予測したい ◦ U_CTRを予測したい • Adsの数の変化で予測できるのか? ◦

    広告の数は広告のクオリティに相関する ◦ 予測は難しい • 広告のクオリティで予測したい ◦ 広告の関連度とランディングページのクオリティ
  15. Ranking Function Change • Long-Termの収益性 • これをOECとして定めた • その上でアルゴリズムの変更をした ◦

    https://adwords.googleblog.com/2011/10/ads-quality-improvements-rollin g-out.html ◦ LPクオリティと関連性の評価を高めるというアナウンス ◦
  16. まとめ • 広告によるユーザの性質の変化を担保するのに、実験を切り戻すのは面白い視点 だと思った。 • しかしそれで長期的な影響を図れているのかは少し疑問ではある。 ◦ 変わったこと(戻ったこと)による影響とかあるのではないか? • どのように長期的な影響を見積るのかはGoogleも悩んでいる課題

    ◦ そしてそれを定量的に解こうとしている ◦ さすがという感じがする • 手法自体は複雑ではないが、Google特有の問題という気もしていて、すぐ適用で きるというわけではなさそう ◦ だから公開された感もある