Slide 1

Slide 1 text

2023/4/20 日本経済新聞社 西川 凌 統計モデルでサポートする、 A/Bテストと営業活動 NIKKEI TECH TALK #6

Slide 2

Slide 2 text

ハッシュタグ #nikkei_tech_talk 自己紹介 2 氏名: 西川凌 所属: 情報サービスユニット 入社: 2022年4月 関心: 統計、金融、Atcoder、(最近)数理最適化、 趣味: 美味しい店探し、コーヒー、街歩き

Slide 3

Slide 3 text

話すこと 1 なぜベイズを使うのか 2 実際の活用例 3 注意している点 3

Slide 4

Slide 4 text

話すこと 1 なぜベイズを使うのか 2 実際の活用例 3 注意している点 4

Slide 5

Slide 5 text

ハッシュタグ #nikkei_tech_talk データサイエンティストの(自分の思う)役割 ● 蓄積されたデータをもとに ● 数理的、統計的知見とドメイン知識を組み合わせ    ● 会社の利益を上げる活動(営業活動など)について ● どのような意思決定をするかのサポートをする いやむずそう、「数理的統計的知見、ドメイン知識、意思決定のサポート」なんて、どうやっ たらできる? →ベイズ統計モデリング! 他にも自然言語処理関係の仕事をすることもあります 5

Slide 6

Slide 6 text

ハッシュタグ #nikkei_tech_talk ● ベイズの定理 P(θ|X) ∝ P(X|θ)P(θ) 「データ(X)を見た時の推測したいもの(θ)の確率P(θ|X)が、 事前の仮説、ドメイン知識P(θ)と、仮説に基づいて実際に起 こったことP(X|θ)から更新できる →まさしく日々のデータ分析!使いやすい! なぜ、ベイズなのか?簡潔に! 6

Slide 7

Slide 7 text

ハッシュタグ #nikkei_tech_talk なぜ、ベイズなのか?簡潔に! ● 我々が日々行っているのは、 仮説を立てる→データから現時点でこれだけ分かります →じゃあ(営業などの)行動をこう変えよう  の繰り返し まさにベイズの枠組み! ● 頻度論はずっと同じデータであることが仮定されているので、この枠 組みに沿っていない 7

Slide 8

Slide 8 text

ハッシュタグ #nikkei_tech_talk なぜ、ベイズなのか?簡潔に! 他にも理由はありますが… 実例を通して見ていきましょう 8

Slide 9

Slide 9 text

話すこと 1 なぜベイズを使うのか 2 実際の活用例 3 注意している点 9

Slide 10

Slide 10 text

ハッシュタグ #nikkei_tech_talk 実際の活用場面 ● どっちの群がどれくらいの量優れているのか、その確信度はどれくら いなのかがわかる ● 視覚化できる →P値などより、 統計があまりわからない方にも 説明しやすい ベイジアンA/Bテスト 10

Slide 11

Slide 11 text

ハッシュタグ #nikkei_tech_talk 実際の活用場面 ● 色々あるKPIがどれだけ商品の解約に効いているか、その確信度と 共にわかる→解釈性が高い ● 「現時点でのデータ」をもとに推測 →将来データが増えたら、更新することが可能 解約データ分析 11

Slide 12

Slide 12 text

ハッシュタグ #nikkei_tech_talk 実際の活用場面 分析目的 ● 興味を持ったきっかけの経路や、お客様のさまざまな属性別に、商品を契約 する傾向がどれくらいあるか ベイズの良かったところ ● ある属性のお客様についてはデータがそもそも少なく、予測値が出しづら かった →機械学習などでやるより、そのような属性のお客様についてもある程度妥 当な予測値が出せる 商品成約営業のアプローチ 12

Slide 13

Slide 13 text

話すこと 1 なぜベイズを使うのか 2 実際の活用例 3 注意している点 13

Slide 14

Slide 14 text

ハッシュタグ #nikkei_tech_talk データ分析の際に気をつけていること(一部) 仮説→検証→仮説→検証のプロセスをしっかり守る ● データの情報を「仮説」の段階でなるべく組み込まない ● 「検証」をしっかり行う 14

Slide 15

Slide 15 text

ハッシュタグ #nikkei_tech_talk どのように守っている?(仮説パート) ● 事前分布(=事前の仮説)にこれから分析するデータの情報をなるべく入 れない ● モデルはなるべく事前に決める (「カンニングをしない」ことが重要) 15

Slide 16

Slide 16 text

ハッシュタグ #nikkei_tech_talk どのように守っている?(検証パート) ● モデルをデータで検証する→LOOCV-PIT ● LOOCV(一個抜き交差検証)の 予測分布関数を調べる (正確に予測できているなら、一様分布に近くなる) ● 大まかにグレーの範囲が許容できるライン ● 情報量基準でもいいが、絶対指標である(データが 違ってもモデルの良さを比較可能)という利点がある 16

Slide 17

Slide 17 text

ハッシュタグ #nikkei_tech_talk どのように守っている?(検証パート) なるべく実際に営業の方とともにある程度運用することによって、モデルがうまく 動くかを検証 →現時点でうまくいっているモデルでも、長期間立つと傾向が変わっているとい うのはよくある(機械学習の場合は、むしろこれが顕著) 17

Slide 18

Slide 18 text

ハッシュタグ #nikkei_tech_talk ベイズ統計を使うことで、 ● 仮説→検証→仮説→検証 のサイクルを回しながら意思 決定ができる ● 結果の解釈が容易で、ビジネスサイドにもわかりやすい ○ まとめ 18

Slide 19

Slide 19 text

19 ありがとうございました