[論文紹介][KDD2015] Focusing on the Long-term: It's Good for Users and Business #gunosydm / paper reading kdd2015

Focusing on the Long-term: It’s Good for Users and Business
Henning Hohnhold@Google, Inc. Deirdre O’Brien@Google, Inc. Diane Tang@Google, Inc. KDD’15 Yoshifumi Seki@Gunosy Inc. Gunosyデータマイニング研究会 #117 2017.03.28

自己紹介 • 関喜史 ◦ Gunosy 共同創業者 ◦ データ分析部研究開発チーム (仮)
◦ 東大松尾研, 工学博士(2017年3月卒) • 研究テーマ: ニュース推薦システムのサービス応用について • 関心領域 ◦ 推薦システム, ユーザ行動分析 • 趣味 ◦ アイドル、日本酒、将棋

概要 • 広告最適化における中長期の影響を分析・予測しようとした論文 • 特にユーザが実験によってどのように変わるかを考えている ◦ 広告の場合、広告を無視するようになるとか、 • 実験設定に工夫があって、実験を差し戻すことでユーザの性質の変化を評価している

オンライン上での実験についてのアウトプットが増えている Microsoft R.Kohavi et al. KDD’07 Practical Guide to
Controlled Experiment on the Web: Listen to Your Customers not to the HiPPO Microsoft R.Kohavi et al. KDD’13 Online Controlled Experiments at Large Scale Amazon R.Kohavi et al. Emetric Summit 2004 Front Line Internet Analytics at Amazon.com eBay G.Sadler Why Not Treat Marketing Like Sales? Google D.Tang et al. KDD’10 Overlapping Experiment Infrastructure: More,Better, Faster Experimentation. • Microsoftは2013年のある時点で200以上の実験を行っている • Googleは2015年のある時点で1000以上の実験を行っている

Overall Evaluation Criterion(OECs) • OECでは単に数日や数週間程度での改善より、年単位での改善が組み込まれるべきである ◦ Kohaviらは短期の改善が長期の改善に繋がることを指摘している [Kohavi et
al. 12] • 著者らはGoogleの広告システムの改善において、短期の改善が長期的にはネガティブな影響を引き起こすケースに遭遇した ◦ 当時短期的なユーザ満足度の指標を長期のユーザ満足度の指標として考えていた ◦ 利益と満足度の関係を正しく理解できていなかった ◦ そのためにユーザ体験に強い影響を与えるような施策をリリースすることに対して保守的だった ◦ 定性的性質が不十分だったので、保守的すぎたのか、保守的な度合いが足りないのか判断するすべが無かった • （発表者の感想）めっちゃ分かる。。。

長期の影響を測るのは難しい • ユーザの検索頻度の変化など、メトリクスの多くは測るのに時間がかかりすぎる • 短期間に多くのリリースがある場合には、長期のメトリクスの変化を特定の実験やリリースに紐付けるのは難しい • 十分な検定力を得るのは難しい。短期でも長期でも、0.1%といったような小さな変化にも気をくばっている。このような困難のため長期の継続率に関する研究はこれまで行われていない

この論文でやること • ads blindness and ads sightednessを定量化する手法の提案と有効性の検証 ◦ 広告の品質とユーザー体験に基づいて、広告をクリックするユーザーの固有の傾向がどのように変化するか
• 短期のユーザ満足度指標から長期のユーザ満足度を予測するモデルの提案これによってユーザの満足度と利益を組み合わせたOECを作ることができる 2つの事例 • 広告の入札アルゴリズムを変更した事例 • モバイルにおける広告の数を減らした事例

広告を表示する際のトレードオフ • 短期的な利益と広告の品質というトレードオフ • 2つのシチュエーションがある ◦ あるクエリに対してすべての広告を表示するか、一部の広告だけを表示するか？ ▪ Broderらの研究において、分類モデルとして解く方法が提案されている [Brother
et al. 08 CIKM] ◦ 広告を照合する方法からアルゴリズム的に決定された品質信号の変更から UIの変更までのマクロ・レベルの決定後者の意思決定に本論文ではフォーカス

この論文で扱わないこと基本的なオンライン実験のこと A/Bテストとか、このような実験を実行するためのシステム構成これまで多くの研究がある - R. Konhavi et al. In
KDD’07 - R. Konhavi et al. In The Third Workshop on Data Mining Case Study 09 - D. Tang et al. In KDD’10 本論文と関係するいくつかの概念を紹介

Experimental Unit • Experimental Unit: 実験や検証のためのランダムに得られたユーザのまとまり ◦ Experimental UnitのためにCookieを使う ◦
Cookieはユーザ特定のためには不完全なので、長期的に分析するための方法も提案する • 一定期間におけるランダムに抽出されたクッキーの集まりをcohortと呼ぶ ◦ 実験対象のcohortをE, 比較対象のcohortをCと表す ◦ Eが受ける処理をe, Cが受ける処理をcと表す • あるメトリクスMにおける変化の差分(relative changes)を見る

A/A test A/A test: uniformity test(均質性試験)ともよばれる experimentalとcontrolを分けるのではなく、両方に同じtreatmentを実行することで、ユーザ行動の違いを比較する。

User Learning • User Learning: ソーンダイクの効果の法則として提案された。positiveな結果はそれを引き起こす行動を強化し、negativeな結果はそれを引き起こす行動がなくなる。(negativeな方は否定されてるらしいが、本論文では言及なし) • オンラインの行動に関連のある研究は新規性または優位性の効果、または嫌悪感
に焦点を当てている(引用なし?) ◦ ユーザが新しいものに触れて、調整する時間を探したくなるか、必要とする ◦ ユーザが単純に変更を好まない • 大規模な研究は[R. Kohavi KDD’12]を除いて行われていない ◦ [R. Kohavi KDD’12]ではオンライン実験の楽観主義に対して警告している ◦ しかし、新規性, 優位性の結果が結果の方向性を変えることはないと述べている ▪ これは本論文の結果とことなる ◦ またcarryover効果があるとも述べている ▪ あるコホートに対して行われた実験が、そのあとの実験にも影響する ▪ 本研究でも観測できた。そしてそれを扱うための方法を提案している

Ads blindness and sightedness • Ads blindness and sightedness: specific
user learning effect ◦ ユーザの以前の経験によって広告のクリックしやすさや操作しやすさが変わった時に起こる ◦ 1990年代後半のバナー広告がでたときから議論されている ◦ ユーザはバナーの中のテキストや、場所を無視するようになることが示されている ▪ J.P Benway et al. Banner Blindness: Web Searchers Often Miss “Obvious Links” ◦ その後、ユーザの興味を引くためにアニメーションの使用が増えるに従って、ユーザの広告認識率もあがっていった ▪ M. Bayles. Just how “Blind” Are We to Advertising Banners on the Web? In Usability News, 2000. ◦ 最近の研究ではテキスト広告も無視されるようになり、ユーザは明らかにその箇所をスキップする ▪ J.W. Owens et al. Text Advertising Blindness: The New Banner Blindness? In Journal of Usability Studies. 2011. • これらの研究は小さな規模で行われたものであり、本研究は100万以上のユーザに対して、数ヶ月間に渡って行われた初めての研究である

Short-term impact • Short-term impact: 数日から数週間における施策の実験の効果 • Long-term impact: ユーザが永久にその施策を受けた場合の効果.
t -> ∞ • 広告におけるshortとlongの違いは、主にuser learningとadvertiser responseに現れる ◦ 本研究ではuser learningからのimpactの計測と見積もりに注力する ◦ Learned impactと呼ぶ • Long-term impactはLearned impactとShort-term impactの組み合わせで近似できると仮定する

Long-term revenue Long-term revenue: 長期のビジネスの健全性としての指標．OECと考えることができる • ユーザが増えれば収益は増えるよね • ユーザのやるタスク（検索とか）が増えれば収益は増えるよね
• タスクに対するクエリの数が増えれば増えるよね • クエリに対して出る広告の数が増えれば増えるよね • でも広告を増やしたら(the ad loads) CTR長期的には下がるよね • 質の悪い広告をクリックさせたら、Cost/Click長期的には下がるよね？

Learned CTR Learned CTR: 施策によるuser learningによるCTRの変化。U_{CTR}と記述する • U_{CTR}の計算式は提供しない ◦ U_{CTR}はCookieの問題で直接算出できない
• U_{CTR}の近似を行う実験的な方法を開発した ◦ 季節要因などの影響を考えると絶対値としての変化ではなく、比としての変化が望ましい • U_{CTR}が定まるには数ヶ月かかると考えられる ◦ この期間を見積もる方法について論じる • U_{CTR}によってユーザが広告をクリックする固有の特性が、treatmentによってどのように変化するのかを知ることができる ◦ positiveなU_{CTR}はsightedness ◦ negativeなU_{CTR}はblindedness

Measuring user learning • 最初の目標はBlindnessとSightednessを直接計測すること ◦ そのためには新しい実験デザインと、数ヶ月その実験を実行する事が必要 • まず実験デザインについて述べ、基本的な広告Blindnessの結果を示す •
そしてなぜ我々の手法が、実際のリリースにおけるuser learning effectsを過小評価するのかを議論する

Experiment Design & Methodology • Naive Setup ◦ シンプルにあるクッキーのユーザを実験対象、あるクッキーのユーザを比較対象として実験する ◦
他に行われているいろんな実験の効果や、季節変動などの効果を取り除くのは非常に難しい • Post-Period Learning Measurements(PP) ◦ Carry over effect対策をしたいのでA/Aテストをサンドイッチする • The Cookie-Cookie Day Method(CCD) ◦ 日別の結果をちゃんと見たい ◦ どのクッキーをどの実験に割り当てるかを日別にローテする

Experiment Design & Methodology

The efficacy of the CCD method

Ad Blindness Studies

Predicting Ads Blindness • Adsの無視され具合を予測したい ◦ U_CTRを予測したい • Adsの数の変化で予測できるのか？ ◦
広告の数は広告のクオリティに相関する ◦ 予測は難しい • 広告のクオリティで予測したい ◦ 広告の関連度とランディングページのクオリティ

Ranking Function Change • Long-Termの収益性 • これをOECとして定めた • その上でアルゴリズムの変更をした ◦
https://adwords.googleblog.com/2011/10/ads-quality-improvements-rollin g-out.html ◦ LPクオリティと関連性の評価を高めるというアナウンス ◦

広告の増減がもたらす影響 • 広告を増やすと短期的には収益が改善したが、長期的には収益は変わらなかった • 広告を減らすと長期的にはCTRが改善していった

まとめ • 広告によるユーザの性質の変化を担保するのに、実験を切り戻すのは面白い視点だと思った。 • しかしそれで長期的な影響を図れているのかは少し疑問ではある。 ◦ 変わったこと（戻ったこと）による影響とかあるのではないか？ • どのように長期的な影響を見積るのかはGoogleも悩んでいる課題
◦ そしてそれを定量的に解こうとしている ◦ さすがという感じがする • 手法自体は複雑ではないが、Google特有の問題という気もしていて、すぐ適用できるというわけではなさそう ◦ だから公開された感もある

[論文紹介][KDD2015] Focusing on the Long-term: It's...

[論文紹介][KDD2015] Focusing on the Long-term: It's Good for Users and Business #gunosydm / paper reading kdd2015

ysekky

More Decks by ysekky

Other Decks in Research

Featured

Transcript

Focusing on the Long-term: It’s Good for Users and Business

自己紹介 • 関喜史 ◦ Gunosy 共同創業者 ◦ データ分析部研究開発チーム (仮)

オンライン上での実験についてのアウトプットが増えている Microsoft R.Kohavi et al. KDD’07 Practical Guide to

Overall Evaluation Criterion(OECs) • OECでは単に数日や数週間程度での改善より、年単位での改善が組み込まれるべきである ◦ Kohaviらは短期の改善が長期の改善に繋がることを指摘している [Kohavi et

この論文でやること • ads blindness and ads sightednessを定量化する手法の提案と有効性の検証 ◦ 広告の品質とユーザー体験に基づいて、広告をクリックするユーザーの固有の傾向がどのように変化するか

この論文で扱わないこと基本的なオンライン実験のこと A/Bテストとか、このような実験を実行するためのシステム構成これまで多くの研究がある - R. Konhavi et al. In

Experimental Unit • Experimental Unit: 実験や検証のためのランダムに得られたユーザのまとまり ◦ Experimental UnitのためにCookieを使う ◦

A/A test A/A test: uniformity test(均質性試験)ともよばれる experimentalとcontrolを分けるのではなく、両方に同じtreatmentを実行することで、ユーザ行動の違いを比較する。

Ads blindness and sightedness • Ads blindness and sightedness: specific

Short-term impact • Short-term impact: 数日から数週間における施策の実験の効果 • Long-term impact: ユーザが永久にその施策を受けた場合の効果.

Long-term revenue Long-term revenue: 長期のビジネスの健全性としての指標．OECと考えることができる • ユーザが増えれば収益は増えるよね • ユーザのやるタスク（検索とか）が増えれば収益は増えるよね

Learned CTR Learned CTR: 施策によるuser learningによるCTRの変化。U_{CTR}と記述する • U_{CTR}の計算式は提供しない ◦ U_{CTR}はCookieの問題で直接算出できない

Measuring user learning • 最初の目標はBlindnessとSightednessを直接計測すること ◦ そのためには新しい実験デザインと、数ヶ月その実験を実行する事が必要 • まず実験デザインについて述べ、基本的な広告Blindnessの結果を示す •

Experiment Design & Methodology • Naive Setup ◦ シンプルにあるクッキーのユーザを実験対象、あるクッキーのユーザを比較対象として実験する ◦

Experiment Design & Methodology

Experiment Design & Methodology

The efficacy of the CCD method

Ad Blindness Studies

Predicting Ads Blindness • Adsの無視され具合を予測したい ◦ U_CTRを予測したい • Adsの数の変化で予測できるのか？ ◦

Ranking Function Change • Long-Termの収益性 • これをOECとして定めた • その上でアルゴリズムの変更をした ◦

広告の増減がもたらす影響 • 広告を増やすと短期的には収益が改善したが、長期的には収益は変わらなかった • 広告を減らすと長期的にはCTRが改善していった