Slide 1

Slide 1 text

意思決定に回帰分析を利用した話と3つの学 び
 二見 大揮
 2020/01/16 
 Data Gateway Talk Vol5

Slide 2

Slide 2 text

言いたいことは次の3点です
 Data Gateway Talk Vol5

Slide 3

Slide 3 text

3行サマリ
 Data Gateway Talk Vol5 Point Point Point 交互作用なども考慮しながらMECEな分析設計に落とし込もう 意思決定者のアクションに繋がる成果物を把握しよう 信頼区間とp値から効きそうな説明変数を見つけよう

Slide 4

Slide 4 text

本日の話は大体これで全部です
 Data Gateway Talk Vol5

Slide 5

Slide 5 text

自己紹介


Slide 6

Slide 6 text

自己紹介 6 二見 大揮 Retty株式会社 ふたみ だいき ● Retty データ分析チーム所属(データアナリスト) ● 2017年12月よりインターンを経て、2019年4月新卒入 社 ● WEBやアプリなどプロダクト内の分析を担当 ○ ネット予約 ○ 投稿 ○ Asia/Global ● アップルパイ好き ○ 好きなお店:グラニースミス @futamyan

Slide 7

Slide 7 text

サービス紹介


Slide 8

Slide 8 text

No content

Slide 9

Slide 9 text

1.はじめに

Slide 10

Slide 10 text

No content

Slide 11

Slide 11 text

Data Gateway Talk Vol5

Slide 12

Slide 12 text

No content

Slide 13

Slide 13 text

プロダクトを支える分析チーム - チーム編
 詳細は以下の記事: Rettyの意思決定を最大化!データ分析チームの取り組みをご紹介 
 Data Gateway Talk Vol5 https://engineer.retty.me/entry/2018/12/18/115020

Slide 14

Slide 14 text

目次
 0. 話さないこと・ターゲット
 1. 回帰分析を意思決定に利用
 2. 回帰分析を利用する3つの手順
 2.1. 課題設計
 2.2. 分析設計
 2.3. 分析の評価
 3. 高度な分析手法を導入する際の3つの学び(まとめ)
 Data Gateway Talk Vol5

Slide 15

Slide 15 text

話さないこと・ターゲット
 Data Gateway Talk Vol5

Slide 16

Slide 16 text

話さないこと・ターゲット
 Data Gateway Talk Vol5 回帰分析だけでなく、意思決定に高度な分析を活用したい方向け 回帰分析の細かな手法や技術については話しません (scikit-learnやstatsmodelsを利用しました)

Slide 17

Slide 17 text

1. 回帰分析を意思決定に利用
 Data Gateway Talk Vol5

Slide 18

Slide 18 text

1. 回帰分析を意思決定に利用
 Data Gateway Talk Vol5 ● データ出し ● ピボットテーブル ● クロス集計 ● 回帰分析 ● クラスター分析 ● 統計的仮説検定 ● 決定木分析 ● 機械学習 ● 予測モデル ● 自然言語処理 分析者が行う分析手法は様々である シンプル 複雑

Slide 19

Slide 19 text

1. 回帰分析を意思決定に利用
 Data Gateway Talk Vol5 ● SQLによるデータ 出し ● ピボットテーブル ● クロス集計 ● 回帰分析 ● クラスター分析 ● 統計的仮説検定 ● 決定木分析 ● 機械学習 ● 予測モデル ● 自然言語処理 データアナリストが行っていた分析は主に オレンジの部分 シンプル 複雑

Slide 20

Slide 20 text

1. 回帰分析を意思決定に利用
 Data Gateway Talk Vol5 ● SQLによるデータ 出し ● ピボットテーブル ● クロス集計 ● 回帰分析 ● クラスター分析 ● 統計的仮説検定 ● 決定木分析 ● 機械学習 ● 予測モデル ● 自然言語処理 一定以上の分析や大きな意思決定時にはより複雑な分析が必要になってくる シンプル 複雑

Slide 21

Slide 21 text

一方で
 Data Gateway Talk Vol5 意思決定者への説明コスト大 分析設計の複雑化 分析評価手法への理解 1. 回帰分析を意思決定に利用


Slide 22

Slide 22 text

一方で
 Data Gateway Talk Vol5 意思決定者への説明コスト大 分析設計の複雑化 分析評価手法への理解 1. 回帰分析を意思決定に利用
 Rettyはどうやって回帰分析を意思決定に利用したか?

Slide 23

Slide 23 text

2. 回帰分析を利用する3つの手順
 Data Gateway Talk Vol5

Slide 24

Slide 24 text

2-1. 課題設計
 Data Gateway Talk Vol5 A 意思決定者を把握しよう 何の意思決定をするかを把握しよう どういう分析結果が出ると良いかのすり合わせをしておこう どの立場から意思決定を行うかがわからないため。 意思決定する人がPMなのか、他部門の人なのか、抑えておくべきステークホル ダーを把握しておく 組織の方針を決めていく大きな意思決定なのか、施策に関する意思決定なのかで 最終的なアウトプットイメージが変わってくるため 上記の2つを踏まえて、自分が出そうとしている分析イメージで意思決定できそう かを確認しておく B C

Slide 25

Slide 25 text

上記を行わないと
 Data Gateway Talk Vol5 こういう分析であれば意 思決定できるだろう 2-1. 課題設計
 分析結果 差し戻し これだと意思決定
 できない... 分析者 意思決定者 分析結果 差し戻し A B C

Slide 26

Slide 26 text

上記を行わないと
 Data Gateway Talk Vol5 こういう分析であれば意 思決定できるだろう 2-1. 課題設計
 分析結果 差し戻し これだと意思決定
 できない... 分析者 意思決定者 分析結果 差し戻し A B C データ分析で大切なことと共通

Slide 27

Slide 27 text

2-2. 分析設計
 Data Gateway Talk Vol5 B 説明変数をMECEにしておこう 交互作用の掛け合わせはあとから行おう 施策の打ちやすさや季節要因を加味しよう 意思決定者に納得感を持ってもらうためにMECEな分析から順序を追って説明し ていく必要があるため。 回帰分析を利用する際には複数の変数が作用して効果を発揮することがある。説 明のコストが高いので順番を追って分析を確実に進める。 また多重共線性などには気を付けるようにする。 施策の打ちにくい偏回帰係数や季節要因によって大きく影響を受ける説明変数が ある場合があるので、加味しながら分析を行う。 A C

Slide 28

Slide 28 text

2-2. 実際にあった事例
 Data Gateway Talk Vol5 説明変数をMECEにしておこう A MECEに説明変数を入れて重回帰分析して行こ う 重要そうな変数10個くらいが残った この回帰式本当に全て網羅した結果? (納得感があまりない ) 分析結果

Slide 29

Slide 29 text

Data Gateway Talk Vol5 交互作用 2つの因子が組み合わさって初めて現れる相乗効果のこと ※データはダミーです B 交互作用の掛け合わせはあとから行おう

Slide 30

Slide 30 text

2-2. 実際にあった事例
 Data Gateway Talk Vol5 B 交互作用の掛け合わせはあとから行おう データはダミーです

Slide 31

Slide 31 text

2-2. 実際にあった事例
 Data Gateway Talk Vol5 プッシュ通知と新規/既存の組み合わせで 重回帰分析 この組み合わせ本当にこんなにインパクトする の? 分析結果 B 交互作用の掛け合わせはあとから行おう

Slide 32

Slide 32 text

Data Gateway Talk Vol5 2-2. 分析設計
 新規かどうか プッシュ通知回数 新規かどうか × プッシュ通知回数 施策打ちづらい 季節性強い B 交互作用の掛け合わせはあとから行おう C 施策の打ちやすさや季節性を加味しよう

Slide 33

Slide 33 text

2-3. 分析の評価
 Data Gateway Talk Vol5 予測誤差の精度は参考程度にしておこう p値や信頼区間から影響度の評価をしよう 影響の大きな変数や意思決定に最適な変数を見つけることを目的にする。予測精 度の良いモデルを作ることが目的ではないため 影響の大きい説明変数を特定したいため。 偶然の確率の確認と、どれくらいの範囲で目的変数に影響しそうかを評価する。 A B 意外な説明変数があった場合は考察が必要 意外な説明変数を見たときに納得感を持って意思決定する必要があるため。 C

Slide 34

Slide 34 text

Data Gateway Talk Vol5 平均絶対誤差 予測値と実際の値の差を絶対値で表したもの scikit-learnにモジュールとして用意されている 予測誤差の精度は参考程度にしておこう A

Slide 35

Slide 35 text

2-3. 実際にあった事例
 Data Gateway Talk Vol5 予測精度の良い重回帰モデルを作成しよう 重要な説明変数が分かればいいのになあ 時間がかかる 予測誤差の精度は参考程度にしておこう A

Slide 36

Slide 36 text

Data Gateway Talk Vol5 2-3. p値と信頼区間を見る理由
 効果のある変数が見つかっても偶然であれば 意思決定に使いづらい バラつきの大きな説明係数を中心に改善していくのは 確度が低い p値や信頼区間から影響度の評価をしよう B

Slide 37

Slide 37 text

まとめると
 Data Gateway Talk Vol5 Point Point Point 交互作用なども考慮しながらMECEな分析設計に落とし込もう 意思決定者が何をどの形式で知れると意思決定できるかを把 握しておこう 信頼区間とp値から効きそうな説明変数を見つけよう 複雑な分析になると手戻りのコストが大きくなるので、先に押さえておく 一気に最適なモデルを提示しても説明コストが大きいので、順を追って分析してい くことを心がける 意思決定に大きく貢献しそうな変数の特定にフォーカスする

Slide 38

Slide 38 text

おわり
 Data Gateway Talk Vol5