Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
2023/4/20 日本経済新聞社 西川 凌 統計モデルでサポートする、 A/Bテストと営業活動 NIKKEI TECH TALK #6
Slide 2
Slide 2 text
ハッシュタグ #nikkei_tech_talk 自己紹介 2 氏名: 西川凌 所属: 情報サービスユニット 入社: 2022年4月 関心: 統計、金融、Atcoder、(最近)数理最適化、 趣味: 美味しい店探し、コーヒー、街歩き
Slide 3
Slide 3 text
話すこと 1 なぜベイズを使うのか 2 実際の活用例 3 注意している点 3
Slide 4
Slide 4 text
話すこと 1 なぜベイズを使うのか 2 実際の活用例 3 注意している点 4
Slide 5
Slide 5 text
ハッシュタグ #nikkei_tech_talk データサイエンティストの(自分の思う)役割 ● 蓄積されたデータをもとに ● 数理的、統計的知見とドメイン知識を組み合わせ ● 会社の利益を上げる活動(営業活動など)について ● どのような意思決定をするかのサポートをする いやむずそう、「数理的統計的知見、ドメイン知識、意思決定のサポート」なんて、どうやっ たらできる? →ベイズ統計モデリング! 他にも自然言語処理関係の仕事をすることもあります 5
Slide 6
Slide 6 text
ハッシュタグ #nikkei_tech_talk ● ベイズの定理 P(θ|X) ∝ P(X|θ)P(θ) 「データ(X)を見た時の推測したいもの(θ)の確率P(θ|X)が、 事前の仮説、ドメイン知識P(θ)と、仮説に基づいて実際に起 こったことP(X|θ)から更新できる →まさしく日々のデータ分析!使いやすい! なぜ、ベイズなのか?簡潔に! 6
Slide 7
Slide 7 text
ハッシュタグ #nikkei_tech_talk なぜ、ベイズなのか?簡潔に! ● 我々が日々行っているのは、 仮説を立てる→データから現時点でこれだけ分かります →じゃあ(営業などの)行動をこう変えよう の繰り返し まさにベイズの枠組み! ● 頻度論はずっと同じデータであることが仮定されているので、この枠 組みに沿っていない 7
Slide 8
Slide 8 text
ハッシュタグ #nikkei_tech_talk なぜ、ベイズなのか?簡潔に! 他にも理由はありますが… 実例を通して見ていきましょう 8
Slide 9
Slide 9 text
話すこと 1 なぜベイズを使うのか 2 実際の活用例 3 注意している点 9
Slide 10
Slide 10 text
ハッシュタグ #nikkei_tech_talk 実際の活用場面 ● どっちの群がどれくらいの量優れているのか、その確信度はどれくら いなのかがわかる ● 視覚化できる →P値などより、 統計があまりわからない方にも 説明しやすい ベイジアンA/Bテスト 10
Slide 11
Slide 11 text
ハッシュタグ #nikkei_tech_talk 実際の活用場面 ● 色々あるKPIがどれだけ商品の解約に効いているか、その確信度と 共にわかる→解釈性が高い ● 「現時点でのデータ」をもとに推測 →将来データが増えたら、更新することが可能 解約データ分析 11
Slide 12
Slide 12 text
ハッシュタグ #nikkei_tech_talk 実際の活用場面 分析目的 ● 興味を持ったきっかけの経路や、お客様のさまざまな属性別に、商品を契約 する傾向がどれくらいあるか ベイズの良かったところ ● ある属性のお客様についてはデータがそもそも少なく、予測値が出しづら かった →機械学習などでやるより、そのような属性のお客様についてもある程度妥 当な予測値が出せる 商品成約営業のアプローチ 12
Slide 13
Slide 13 text
話すこと 1 なぜベイズを使うのか 2 実際の活用例 3 注意している点 13
Slide 14
Slide 14 text
ハッシュタグ #nikkei_tech_talk データ分析の際に気をつけていること(一部) 仮説→検証→仮説→検証のプロセスをしっかり守る ● データの情報を「仮説」の段階でなるべく組み込まない ● 「検証」をしっかり行う 14
Slide 15
Slide 15 text
ハッシュタグ #nikkei_tech_talk どのように守っている?(仮説パート) ● 事前分布(=事前の仮説)にこれから分析するデータの情報をなるべく入 れない ● モデルはなるべく事前に決める (「カンニングをしない」ことが重要) 15
Slide 16
Slide 16 text
ハッシュタグ #nikkei_tech_talk どのように守っている?(検証パート) ● モデルをデータで検証する→LOOCV-PIT ● LOOCV(一個抜き交差検証)の 予測分布関数を調べる (正確に予測できているなら、一様分布に近くなる) ● 大まかにグレーの範囲が許容できるライン ● 情報量基準でもいいが、絶対指標である(データが 違ってもモデルの良さを比較可能)という利点がある 16
Slide 17
Slide 17 text
ハッシュタグ #nikkei_tech_talk どのように守っている?(検証パート) なるべく実際に営業の方とともにある程度運用することによって、モデルがうまく 動くかを検証 →現時点でうまくいっているモデルでも、長期間立つと傾向が変わっているとい うのはよくある(機械学習の場合は、むしろこれが顕著) 17
Slide 18
Slide 18 text
ハッシュタグ #nikkei_tech_talk ベイズ統計を使うことで、 ● 仮説→検証→仮説→検証 のサイクルを回しながら意思 決定ができる ● 結果の解釈が容易で、ビジネスサイドにもわかりやすい ○ まとめ 18
Slide 19
Slide 19 text
19 ありがとうございました