Save 37% off PRO during our Black Friday Sale! »

意思決定に回帰分析を利用した話と3つの学び / Make a Decision With Multiple regression analysis

A67db13239e3b406cc2478a2597e701a?s=47 Daiki Futami
January 16, 2020

意思決定に回帰分析を利用した話と3つの学び / Make a Decision With Multiple regression analysis

Data Gateway Talk Vol5の登壇資料です #dgtalk

A67db13239e3b406cc2478a2597e701a?s=128

Daiki Futami

January 16, 2020
Tweet

Transcript

  1. 意思決定に回帰分析を利用した話と3つの学 び
 二見 大揮
 2020/01/16 
 Data Gateway Talk Vol5

  2. 言いたいことは次の3点です
 Data Gateway Talk Vol5

  3. 3行サマリ
 Data Gateway Talk Vol5 Point Point Point 交互作用なども考慮しながらMECEな分析設計に落とし込もう 意思決定者のアクションに繋がる成果物を把握しよう

    信頼区間とp値から効きそうな説明変数を見つけよう
  4. 本日の話は大体これで全部です
 Data Gateway Talk Vol5

  5. 自己紹介


  6. 自己紹介 6 二見 大揮 Retty株式会社 ふたみ だいき • Retty データ分析チーム所属(データアナリスト)

    • 2017年12月よりインターンを経て、2019年4月新卒入 社 • WEBやアプリなどプロダクト内の分析を担当 ◦ ネット予約 ◦ 投稿 ◦ Asia/Global • アップルパイ好き ◦ 好きなお店:グラニースミス @futamyan
  7. サービス紹介


  8. None
  9. 1.はじめに

  10. None
  11. Data Gateway Talk Vol5

  12. None
  13. プロダクトを支える分析チーム - チーム編
 詳細は以下の記事: Rettyの意思決定を最大化!データ分析チームの取り組みをご紹介 
 Data Gateway Talk Vol5

    https://engineer.retty.me/entry/2018/12/18/115020
  14. 目次
 0. 話さないこと・ターゲット
 1. 回帰分析を意思決定に利用
 2. 回帰分析を利用する3つの手順
 2.1. 課題設計
 2.2.

    分析設計
 2.3. 分析の評価
 3. 高度な分析手法を導入する際の3つの学び(まとめ)
 Data Gateway Talk Vol5
  15. 話さないこと・ターゲット
 Data Gateway Talk Vol5

  16. 話さないこと・ターゲット
 Data Gateway Talk Vol5 回帰分析だけでなく、意思決定に高度な分析を活用したい方向け 回帰分析の細かな手法や技術については話しません (scikit-learnやstatsmodelsを利用しました)

  17. 1. 回帰分析を意思決定に利用
 Data Gateway Talk Vol5

  18. 1. 回帰分析を意思決定に利用
 Data Gateway Talk Vol5 • データ出し • ピボットテーブル

    • クロス集計 • 回帰分析 • クラスター分析 • 統計的仮説検定 • 決定木分析 • 機械学習 • 予測モデル • 自然言語処理 分析者が行う分析手法は様々である シンプル 複雑
  19. 1. 回帰分析を意思決定に利用
 Data Gateway Talk Vol5 • SQLによるデータ 出し •

    ピボットテーブル • クロス集計 • 回帰分析 • クラスター分析 • 統計的仮説検定 • 決定木分析 • 機械学習 • 予測モデル • 自然言語処理 データアナリストが行っていた分析は主に オレンジの部分 シンプル 複雑
  20. 1. 回帰分析を意思決定に利用
 Data Gateway Talk Vol5 • SQLによるデータ 出し •

    ピボットテーブル • クロス集計 • 回帰分析 • クラスター分析 • 統計的仮説検定 • 決定木分析 • 機械学習 • 予測モデル • 自然言語処理 一定以上の分析や大きな意思決定時にはより複雑な分析が必要になってくる シンプル 複雑
  21. 一方で
 Data Gateway Talk Vol5 意思決定者への説明コスト大 分析設計の複雑化 分析評価手法への理解 1. 回帰分析を意思決定に利用


  22. 一方で
 Data Gateway Talk Vol5 意思決定者への説明コスト大 分析設計の複雑化 分析評価手法への理解 1. 回帰分析を意思決定に利用


    Rettyはどうやって回帰分析を意思決定に利用したか?
  23. 2. 回帰分析を利用する3つの手順
 Data Gateway Talk Vol5

  24. 2-1. 課題設計
 Data Gateway Talk Vol5 A 意思決定者を把握しよう 何の意思決定をするかを把握しよう どういう分析結果が出ると良いかのすり合わせをしておこう

    どの立場から意思決定を行うかがわからないため。 意思決定する人がPMなのか、他部門の人なのか、抑えておくべきステークホル ダーを把握しておく 組織の方針を決めていく大きな意思決定なのか、施策に関する意思決定なのかで 最終的なアウトプットイメージが変わってくるため 上記の2つを踏まえて、自分が出そうとしている分析イメージで意思決定できそう かを確認しておく B C
  25. 上記を行わないと
 Data Gateway Talk Vol5 こういう分析であれば意 思決定できるだろう 2-1. 課題設計
 分析結果

    差し戻し これだと意思決定
 できない... 分析者 意思決定者 分析結果 差し戻し A B C
  26. 上記を行わないと
 Data Gateway Talk Vol5 こういう分析であれば意 思決定できるだろう 2-1. 課題設計
 分析結果

    差し戻し これだと意思決定
 できない... 分析者 意思決定者 分析結果 差し戻し A B C データ分析で大切なことと共通
  27. 2-2. 分析設計
 Data Gateway Talk Vol5 B 説明変数をMECEにしておこう 交互作用の掛け合わせはあとから行おう 施策の打ちやすさや季節要因を加味しよう

    意思決定者に納得感を持ってもらうためにMECEな分析から順序を追って説明し ていく必要があるため。 回帰分析を利用する際には複数の変数が作用して効果を発揮することがある。説 明のコストが高いので順番を追って分析を確実に進める。 また多重共線性などには気を付けるようにする。 施策の打ちにくい偏回帰係数や季節要因によって大きく影響を受ける説明変数が ある場合があるので、加味しながら分析を行う。 A C
  28. 2-2. 実際にあった事例
 Data Gateway Talk Vol5 説明変数をMECEにしておこう A MECEに説明変数を入れて重回帰分析して行こ う

    重要そうな変数10個くらいが残った この回帰式本当に全て網羅した結果? (納得感があまりない ) 分析結果
  29. Data Gateway Talk Vol5 交互作用 2つの因子が組み合わさって初めて現れる相乗効果のこと ※データはダミーです B 交互作用の掛け合わせはあとから行おう

  30. 2-2. 実際にあった事例
 Data Gateway Talk Vol5 B 交互作用の掛け合わせはあとから行おう データはダミーです

  31. 2-2. 実際にあった事例
 Data Gateway Talk Vol5 プッシュ通知と新規/既存の組み合わせで 重回帰分析 この組み合わせ本当にこんなにインパクトする の?

    分析結果 B 交互作用の掛け合わせはあとから行おう
  32. Data Gateway Talk Vol5 2-2. 分析設計
 新規かどうか プッシュ通知回数 新規かどうか ×

    プッシュ通知回数 施策打ちづらい 季節性強い B 交互作用の掛け合わせはあとから行おう C 施策の打ちやすさや季節性を加味しよう
  33. 2-3. 分析の評価
 Data Gateway Talk Vol5 予測誤差の精度は参考程度にしておこう p値や信頼区間から影響度の評価をしよう 影響の大きな変数や意思決定に最適な変数を見つけることを目的にする。予測精 度の良いモデルを作ることが目的ではないため

    影響の大きい説明変数を特定したいため。 偶然の確率の確認と、どれくらいの範囲で目的変数に影響しそうかを評価する。 A B 意外な説明変数があった場合は考察が必要 意外な説明変数を見たときに納得感を持って意思決定する必要があるため。 C
  34. Data Gateway Talk Vol5 平均絶対誤差 予測値と実際の値の差を絶対値で表したもの scikit-learnにモジュールとして用意されている 予測誤差の精度は参考程度にしておこう A

  35. 2-3. 実際にあった事例
 Data Gateway Talk Vol5 予測精度の良い重回帰モデルを作成しよう 重要な説明変数が分かればいいのになあ 時間がかかる 予測誤差の精度は参考程度にしておこう

    A
  36. Data Gateway Talk Vol5 2-3. p値と信頼区間を見る理由
 効果のある変数が見つかっても偶然であれば 意思決定に使いづらい バラつきの大きな説明係数を中心に改善していくのは 確度が低い

    p値や信頼区間から影響度の評価をしよう B
  37. まとめると
 Data Gateway Talk Vol5 Point Point Point 交互作用なども考慮しながらMECEな分析設計に落とし込もう 意思決定者が何をどの形式で知れると意思決定できるかを把

    握しておこう 信頼区間とp値から効きそうな説明変数を見つけよう 複雑な分析になると手戻りのコストが大きくなるので、先に押さえておく 一気に最適なモデルを提示しても説明コストが大きいので、順を追って分析してい くことを心がける 意思決定に大きく貢献しそうな変数の特定にフォーカスする
  38. おわり
 Data Gateway Talk Vol5