統計モデルでサポートする、A/Bテストと営業活動/nikkei_tech_talk6 #nikkei_tech_talk

by 日本経済新聞社エンジニア採用事務局

Embed

Start on current slide

Slide 1

Slide 1 text

2023/4/20 日本経済新聞社　西川凌統計モデルでサポートする、 A/Bテストと営業活動 NIKKEI TECH TALK #6

Slide 2

Slide 2 text

ハッシュタグ #nikkei_tech_talk 自己紹介 2 氏名: 西川凌所属: 情報サービスユニット入社: 2022年4月関心: 統計、金融、Atcoder、(最近)数理最適化、趣味: 美味しい店探し、コーヒー、街歩き

Slide 3

Slide 3 text

話すこと 1 なぜベイズを使うのか 2 実際の活用例 3 注意している点 3

Slide 4

Slide 4 text

話すこと 1 なぜベイズを使うのか 2 実際の活用例 3 注意している点 4

Slide 5

Slide 5 text

ハッシュタグ #nikkei_tech_talk データサイエンティストの（自分の思う）役割 ● 蓄積されたデータをもとに ● 数理的、統計的知見とドメイン知識を組み合わせ　　 ● 会社の利益を上げる活動（営業活動など)について ● どのような意思決定をするかのサポートをするいやむずそう、「数理的統計的知見、ドメイン知識、意思決定のサポート」なんて、どうやったらできる？ →ベイズ統計モデリング！他にも自然言語処理関係の仕事をすることもあります 5

Slide 6

Slide 6 text

ハッシュタグ #nikkei_tech_talk ● ベイズの定理 P(θ|X) ∝ P(X|θ)P(θ) 「データ(X)を見た時の推測したいもの(θ)の確率P(θ|X)が、事前の仮説、ドメイン知識P(θ)と、仮説に基づいて実際に起こったことP(X|θ)から更新できる →まさしく日々のデータ分析！使いやすい！なぜ、ベイズなのか？簡潔に！ 6

Slide 7

Slide 7 text

ハッシュタグ #nikkei_tech_talk なぜ、ベイズなのか？簡潔に！ ● 我々が日々行っているのは、仮説を立てる→データから現時点でこれだけ分かります →じゃあ（営業などの）行動をこう変えよう　の繰り返しまさにベイズの枠組み！ ● 頻度論はずっと同じデータであることが仮定されているので、この枠組みに沿っていない 7

Slide 8

Slide 8 text

ハッシュタグ #nikkei_tech_talk なぜ、ベイズなのか？簡潔に！他にも理由はありますが… 実例を通して見ていきましょう 8

Slide 9

Slide 9 text

話すこと 1 なぜベイズを使うのか 2 実際の活用例 3 注意している点 9

Slide 10

Slide 10 text

ハッシュタグ #nikkei_tech_talk 実際の活用場面 ● どっちの群がどれくらいの量優れているのか、その確信度はどれくらいなのかがわかる ● 視覚化できる →P値などより、統計があまりわからない方にも説明しやすいベイジアンA/Bテスト 10

Slide 11

Slide 11 text

ハッシュタグ #nikkei_tech_talk 実際の活用場面 ● 色々あるKPIがどれだけ商品の解約に効いているか、その確信度と共にわかる→解釈性が高い ● 「現時点でのデータ」をもとに推測 →将来データが増えたら、更新することが可能解約データ分析 11

Slide 12

Slide 12 text

ハッシュタグ #nikkei_tech_talk 実際の活用場面分析目的 ● 興味を持ったきっかけの経路や、お客様のさまざまな属性別に、商品を契約する傾向がどれくらいあるかベイズの良かったところ ● ある属性のお客様についてはデータがそもそも少なく、予測値が出しづらかった →機械学習などでやるより、そのような属性のお客様についてもある程度妥当な予測値が出せる商品成約営業のアプローチ 12

Slide 13

Slide 13 text

話すこと 1 なぜベイズを使うのか 2 実際の活用例 3 注意している点 13

Slide 14

Slide 14 text

ハッシュタグ #nikkei_tech_talk データ分析の際に気をつけていること（一部）仮説→検証→仮説→検証のプロセスをしっかり守る ● データの情報を「仮説」の段階でなるべく組み込まない ● 「検証」をしっかり行う 14

Slide 15

Slide 15 text

ハッシュタグ #nikkei_tech_talk どのように守っている？（仮説パート） ● 事前分布（=事前の仮説)にこれから分析するデータの情報をなるべく入れない ● モデルはなるべく事前に決める（「カンニングをしない」ことが重要） 15

Slide 16

Slide 16 text

ハッシュタグ #nikkei_tech_talk どのように守っている？（検証パート） ● モデルをデータで検証する→LOOCV-PIT ● LOOCV（一個抜き交差検証）の予測分布関数を調べる（正確に予測できているなら、一様分布に近くなる） ● 大まかにグレーの範囲が許容できるライン ● 情報量基準でもいいが、絶対指標である(データが違ってもモデルの良さを比較可能）という利点がある 16

Slide 17

Slide 17 text

ハッシュタグ #nikkei_tech_talk どのように守っている？（検証パート）なるべく実際に営業の方とともにある程度運用することによって、モデルがうまく動くかを検証 →現時点でうまくいっているモデルでも、長期間立つと傾向が変わっているというのはよくある（機械学習の場合は、むしろこれが顕著） 17

Slide 18

Slide 18 text

ハッシュタグ #nikkei_tech_talk ベイズ統計を使うことで、 ● 仮説→検証→仮説→検証　のサイクルを回しながら意思決定ができる ● 結果の解釈が容易で、ビジネスサイドにもわかりやすい ○ まとめ 18

Slide 19

Slide 19 text

19 ありがとうございました