統計モデルでサポートする、A/Bテストと営業活動/nikkei_tech_talk6 #nikkei_tech_talk
by
日本経済新聞社 エンジニア採用事務局
×
Copy
Open
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Slide 1
Slide 1 text
2023/4/20 日本経済新聞社 西川 凌 統計モデルでサポートする、 A/Bテストと営業活動 NIKKEI TECH TALK #6
Slide 2
Slide 2 text
ハッシュタグ #nikkei_tech_talk 自己紹介 2 氏名: 西川凌 所属: 情報サービスユニット 入社: 2022年4月 関心: 統計、金融、Atcoder、(最近)数理最適化、 趣味: 美味しい店探し、コーヒー、街歩き
Slide 3
Slide 3 text
話すこと 1 なぜベイズを使うのか 2 実際の活用例 3 注意している点 3
Slide 4
Slide 4 text
話すこと 1 なぜベイズを使うのか 2 実際の活用例 3 注意している点 4
Slide 5
Slide 5 text
ハッシュタグ #nikkei_tech_talk データサイエンティストの(自分の思う)役割 ● 蓄積されたデータをもとに ● 数理的、統計的知見とドメイン知識を組み合わせ ● 会社の利益を上げる活動(営業活動など)について ● どのような意思決定をするかのサポートをする いやむずそう、「数理的統計的知見、ドメイン知識、意思決定のサポート」なんて、どうやっ たらできる? →ベイズ統計モデリング! 他にも自然言語処理関係の仕事をすることもあります 5
Slide 6
Slide 6 text
ハッシュタグ #nikkei_tech_talk ● ベイズの定理 P(θ|X) ∝ P(X|θ)P(θ) 「データ(X)を見た時の推測したいもの(θ)の確率P(θ|X)が、 事前の仮説、ドメイン知識P(θ)と、仮説に基づいて実際に起 こったことP(X|θ)から更新できる →まさしく日々のデータ分析!使いやすい! なぜ、ベイズなのか?簡潔に! 6
Slide 7
Slide 7 text
ハッシュタグ #nikkei_tech_talk なぜ、ベイズなのか?簡潔に! ● 我々が日々行っているのは、 仮説を立てる→データから現時点でこれだけ分かります →じゃあ(営業などの)行動をこう変えよう の繰り返し まさにベイズの枠組み! ● 頻度論はずっと同じデータであることが仮定されているので、この枠 組みに沿っていない 7
Slide 8
Slide 8 text
ハッシュタグ #nikkei_tech_talk なぜ、ベイズなのか?簡潔に! 他にも理由はありますが… 実例を通して見ていきましょう 8
Slide 9
Slide 9 text
話すこと 1 なぜベイズを使うのか 2 実際の活用例 3 注意している点 9
Slide 10
Slide 10 text
ハッシュタグ #nikkei_tech_talk 実際の活用場面 ● どっちの群がどれくらいの量優れているのか、その確信度はどれくら いなのかがわかる ● 視覚化できる →P値などより、 統計があまりわからない方にも 説明しやすい ベイジアンA/Bテスト 10
Slide 11
Slide 11 text
ハッシュタグ #nikkei_tech_talk 実際の活用場面 ● 色々あるKPIがどれだけ商品の解約に効いているか、その確信度と 共にわかる→解釈性が高い ● 「現時点でのデータ」をもとに推測 →将来データが増えたら、更新することが可能 解約データ分析 11
Slide 12
Slide 12 text
ハッシュタグ #nikkei_tech_talk 実際の活用場面 分析目的 ● 興味を持ったきっかけの経路や、お客様のさまざまな属性別に、商品を契約 する傾向がどれくらいあるか ベイズの良かったところ ● ある属性のお客様についてはデータがそもそも少なく、予測値が出しづら かった →機械学習などでやるより、そのような属性のお客様についてもある程度妥 当な予測値が出せる 商品成約営業のアプローチ 12
Slide 13
Slide 13 text
話すこと 1 なぜベイズを使うのか 2 実際の活用例 3 注意している点 13
Slide 14
Slide 14 text
ハッシュタグ #nikkei_tech_talk データ分析の際に気をつけていること(一部) 仮説→検証→仮説→検証のプロセスをしっかり守る ● データの情報を「仮説」の段階でなるべく組み込まない ● 「検証」をしっかり行う 14
Slide 15
Slide 15 text
ハッシュタグ #nikkei_tech_talk どのように守っている?(仮説パート) ● 事前分布(=事前の仮説)にこれから分析するデータの情報をなるべく入 れない ● モデルはなるべく事前に決める (「カンニングをしない」ことが重要) 15
Slide 16
Slide 16 text
ハッシュタグ #nikkei_tech_talk どのように守っている?(検証パート) ● モデルをデータで検証する→LOOCV-PIT ● LOOCV(一個抜き交差検証)の 予測分布関数を調べる (正確に予測できているなら、一様分布に近くなる) ● 大まかにグレーの範囲が許容できるライン ● 情報量基準でもいいが、絶対指標である(データが 違ってもモデルの良さを比較可能)という利点がある 16
Slide 17
Slide 17 text
ハッシュタグ #nikkei_tech_talk どのように守っている?(検証パート) なるべく実際に営業の方とともにある程度運用することによって、モデルがうまく 動くかを検証 →現時点でうまくいっているモデルでも、長期間立つと傾向が変わっているとい うのはよくある(機械学習の場合は、むしろこれが顕著) 17
Slide 18
Slide 18 text
ハッシュタグ #nikkei_tech_talk ベイズ統計を使うことで、 ● 仮説→検証→仮説→検証 のサイクルを回しながら意思 決定ができる ● 結果の解釈が容易で、ビジネスサイドにもわかりやすい ○ まとめ 18
Slide 19
Slide 19 text
19 ありがとうございました