Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文読み会 / What is the value of experimentation & measurement ?
Search
u-value
February 17, 2020
Research
0
260
論文読み会 / What is the value of experimentation & measurement ?
IEEE ICDM 2019 論文読み会
u-value
February 17, 2020
Tweet
Share
More Decks by u-value
See All by u-value
3分で読むMLops検討事項整理
uvalue
0
110
Other Decks in Research
See All in Research
CASCON 2023 Most Influential Paper Award Talk
tsantalis
0
110
Prompt Tuning から Fine Tuning への移行時期推定
icoxfog417
17
6k
近似最近傍探索とVector DBの理論的背景
matsui_528
2
810
MegaParticles: GPUを利用したStein Particle Filterによる点群6自由度姿勢推定
koide3
1
460
説明可能AI:代表的手法と最近の動向
yuyay
1
510
Breaking Tradeoffs: Extremely Scalable Multi-Agent Pathfinding Algorithms
kei18
0
120
20240127_熊本から今いちど真面目に都市交通~めざせ「車1割削減、渋滞半減、公共交通2倍」~ 全国路面電車サミット2024宇都宮
trafficbrain
1
600
Gmail の「メール送信者のガイドライン」強化から 1 ヵ月、今後予想されるメールセキュリティの変化とは
hirachan
1
200
CSC590 Lecture 01
javiergs
PRO
0
130
[研究室用] 2038年問題研究の現状報告
ran350
0
250
言語間転移学習で大規模言語モデルを賢くする
ikuyamada
5
1.6k
Image generation with Shortest Path Diffusion
dasayan05
0
180
Featured
See All Featured
Navigating Team Friction
lara
177
13k
Happy Clients
brianwarren
91
6.3k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
185
15k
10 Git Anti Patterns You Should be Aware of
lemiorhan
644
57k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
355
22k
Imperfection Machines: The Place of Print at Facebook
scottboms
257
12k
For a Future-Friendly Web
brad_frost
170
8.9k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
124
32k
Building Your Own Lightsaber
phodgson
97
5.6k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
240
1.2M
The Invisible Side of Design
smashingmag
293
49k
Side Projects
sachag
451
41k
Transcript
IEEE ICDM 2019 論文読み会 What is the value of experimentation
& measurement ? 2020/02/17 松本 雄地
目次 ©Miotsukushi Analytics Inc. 2019, All rights reserved. 2 1.
自己紹介など 2. 論文紹介(要旨、序論、本論、結論) 3. 所感
自己紹介 3 ▪現職 : データ分析コンサルティング企業 リーダー ・分析ディレクション/品質管理 ・分析手法のリサーチ ・チーム運営 ・社内教育企画運営
など ▪その他経歴 ・事業会社ではビジネス分析、企画等を経験 ・MBA(経営情報学修士) ▪今後目指すこと ・事業会社におけるデータサイエンスチーム運営支援 ・分析のその先にある「企画」に関与 (・曖昧な世界に踏み込む) ・個人の分析力も引き続き高めていきたい
ご注意 4 ・理解しやすさを優先するため、所々意訳をしております。 (例:value of propositions →施策効果) ・詳しい数式や展開は省かれています。 気になる方は原著論文をご参照ください。
要旨 5 ・Experimentation and Measurement Capabilities (E&M Capabilities: ものさしの精度向上)についての研究 ・本論文は『ものさしの精度向上』による価値を
定量的に扱うことで、その投資判断を支援するもの
ビジネス背景 6 ・近年、データドリブンやデータインフォームドな 意思決定の価値が明らかになってきてる ・実際、メジャーなテック企業の多くが OCE(Online Controlled Experiments)の 成熟したインフラを報告したり、最新技術に投資してたりする。 スタートアップではビジネス用途のOCE管理方法を確立していたりする。
・成熟したE&Mは施策の価値を計測できる一方、 E&M自体の価値を計測することはチャレンジである ⇒「ビジネス上、ものさしの精度を良くして何のメリットがあるの?」 という問い
E&M Capabilityの価値 7 ・『ものさしの精度向上』の価値は、3つに分かれる 1,(施策等の)価値の認識 2,(施策等の)優先順位づけ 3, テストの最適化(e.g. テストの並列実施) 1と3は比較的単純に計量できるが、2はより興味深い。
⇒なので、2について深堀りしてみた
ビジネス背景 8 ・A/Bテストとか、マーケティング施策テストとかの ATE(Average Treatment Effect) って、真の効果と誤差が混在している ・N個の施策テスト結果の中から、M個の施策を選択する場合、 『ものさしの精度』が高ければ、真の効果が高い順から より価値の高い施策を選択することができる
・正確な優先順位付けができることもE&M Capabilityの 価値のうちの一つであり、この価値を計測することが E&M Capabilityへの投資判断につながる
優先順位づけの例 9 ・4つ(N個)の果物の中から、価値の高いものを2つ(M個)選ぶ 誤差により効果の低い施策を選択してしまう場合 真の効果X 観測された効果Y
優先順位づけの例 10 ・4つ(N個)の果物の中から、価値の高いものを2つ(M個)選ぶ 誤差の低下により効果の高い施策を選択できた場合 選択されないものの中では 順位の取り違えが発生していても 問題にならない 真の効果X 観測された効果Y
本論文の想定 11 ・シンプルに考え、施策効果と推定効果それぞれのノイズは 正規分布すると想定する。 正規分布 正規分布 真の効果 観測された 効果 但し、今回のプロセス下では、
規則的なバイアスは施策選択に影響を及ぼさない (例えば、全ての施策効果に+3%のバイアスが生じても 施策選択には影響しない)
『ものさしの精度向上』=改善効果D 12 ・ノイズを低下させることによる価値Vの向上をE&M Capability の改善効果Dとする V ≜ 選択した施策効果の平均 (→1/M(Σ施策効果)) D
≜ V(lower noise) – V(higher noise) 「定義する」という記号
改善効果Dの投資リスク 13 ・一方、Dとして見積もれるのはE(D)であって、真の効果ではない。 リスク(=バラツキ)もあるよね。 ・シャープレシオ(Sharpe ratio)を用いる 改善効果Dの期待値 無リスク下の期待効果 (リスクをとらなくても自然と効果が得られる比較対象) ※ファイナンスにおいては無リスク資産の収益率を用いる
(預金とか国債とか) 改善効果Dの標準偏差 (リスク) 元々は、異なる投資対象を比較する際に、同じリスクならどちらのリターンが高いか (または、同じリターンならどちらのリスクが低いか) の参考になる指標。 本論文ではE&M Capabilityの投資判断に使う。
実験 14 ・2つの事例を用いてシミュレーションをしてみた (試行回数:5,000回) ①A/Bテスト(6,700サンプル) ②マーケティングテスト(184サンプル) それぞれ、サンプル数だけでなく、μやσの条件が異なる。 それによって、『ものさしの精度向上』に対しての投資価値の 有無を判断してみる。
①A/Bテスト 15 ・結果 N 6,700 0% 0% (0.7%)2 ・条件 higher
noise lower noise X軸:E&M Capabilitiesによる価値(%) Y軸:選択数M(logスケール) ・ノイズの減少量に応じてE(D)は増える ・Mが増えればE(D)は減少する→より価値の高い代替施策がなくなっていくから (極端な話、N=MだったらE&M Capabilityは無価値) ・Mが増えればVar(D)は減少する →受容可能なシャープレシオがE&M Capabilityの投資を正当化する 横線:5%-95%の分布
②マーケティングテスト 16 ・結果 N 184 19.9% 0% (10%)2 ・条件 higher
noise lower noise X軸:E&M Capabilitiesによる価値(%) Y軸:選択数M(logスケール) ・①のテストと比較して、施策間の変動( )が大きく、Mが小さい →統計的に重要な価値が得られているというには十分ではない →投資には大きなノイズ削減又はE&M Capabilityの 効果的なリスク管理が必要となる →さもなければ、E&M Capabilityではなく、 限られた既存の施策に投資したほうが良いかもしれない 横線:5%-95%の分布
結論 17 ・E&M Capability( 『ものさしの精度向上』 ) の価値に関する問題について取り組んだ ・ E&M Capabilityの中でも、
施策の優先順位付け能力向上による価値を計測するメソッドを確立した ・E&M Capabilityの価値を計測するためのシンプルな数式、 シャープレシオによる投資意思決定、及び 投資が不適である条件のガイドラインを提供した
論文終わり 18 ここからは 論文に書かれていない
「スマホゲームの施策企画」で試した 19 ▪スマホゲームの施策企画:ゲーム内コンテンツの新規実装、改修等 ・「全てのユーザーは同一のゲームを遊ぶ」という前提を置く以上、 A/Bテストを実施することが困難。 ・類似例から施策企画の効果を見積もるが(鉛筆なめなめ)、 その精度はA/Bテストと比較して著しく低い。 →分散が大きい ・人間がアイデアを発想し、実装のために開発する以上、 施策の数には限界がある。
「スマホゲームの施策企画」で試した 20 [実験条件] ・施策のアイデアは250施策。(N=250個) ・1年間に打てる施策は50施策。 (M=50個) ・施策の寿命は1年間 ・真の施策効果は期待値(μ)=5%、標準偏差(σ)=5% ・企画時:期待値(μ)=0%、標準偏差(σ)=10%の誤差が生じる ※平均及び分散の加法性により、
期待値(μ)=5%標準偏差(σ)=15%のアイデアを吟味している世界を仮定している。
企画時の期待効果が5%以上であったにも関わらず 真の効果が-15%である割合は0.5%位。 →期待値で考えると、200施策のうち1施策は大きな負の影響がある状況を想定。 (炎上施策) 「スマホゲームの施策企画」で試した 21 ・真の施策効果は期待値(μ)=5%、標準偏差(σ)=5% ・企画時:期待値(μ)=0%、標準偏差(σ)=10% ▪(参考) 期待値(μ)=5%、標準偏差(σ)=15%の乱数1000万個
「スマホゲームの施策企画」で試した 22 ▪結果(グラフ)
「スマホゲームの施策企画」で試した 23 ▪結果(数値) 施策企画の標準偏差 が10%→5%になると、 1.8%の改善効果がある。
タイトルごとの2019年売上予測 改善効果/年 18.3億円 2.6億円 0.5億円 「スマホゲームの施策企画」で試した 24 ・N=250, M=50,施策の寿命は1年間 ・真の施策効果は期待値(μ)=5%、標準偏差(σ)=5%
・企画時:期待値(μ)=0%、標準偏差(σ)=10% ・施策企画の標準偏差が10%→5%になる場合 ・E&M Capabilityの改善効果は1.8% ※国内モバイルゲーム課金売上ランキング【最速どんぶり勘定】 集計期間: 2018-01-01~2018-12-31
所感 仕事 25 ・現行業務では事業会社向けの分析サービス提供を行っている。 ・今回、データサイエンス能力向上の投資意思決定を支援する、 定量的なアプローチを学ぶことができた。 ・今後、当手法や新手法の開発によって、 投資意思決定という観点から事業会社における データサイエンス能力向上のお役に立ちたい。
Reference. 26 ・https://arxiv.org/pdf/1909.03457.pdf ・https://medium.com/asos-techblog/measuring-the-measurer-7c633c8cc189 ・http://game- i.daa.jp/?2019%E5%B9%B4%E3%82%A2%E3%83%97%E3%83%AA%E5%8F%8E%E7% 9B%8A%E4%BA%88%E6%B8%AC
YOU can count on US. ©Miotsukushi Analytics Inc. 2019, All
rights reserved. 27