Upgrade to Pro — share decks privately, control downloads, hide ads and more …

分析会社でのExploratoryの使い方のご紹介

Ikuya Murasato
November 15, 2019

 分析会社でのExploratoryの使い方のご紹介

2019/11/15(金) に開催したExploratory データサイエンス勉強会#11の株式会社GRI 様のご登壇資料です。

Ikuya Murasato

November 15, 2019
Tweet

More Decks by Ikuya Murasato

Other Decks in Business

Transcript

  1. 株式会社GRI
    データで新たな事業を開発していくカンパニー。
    Confidential
    分析会社でのExploratoryの使い方のご紹介
    ~自動機械学習(AutoML)の後に因果推論~
    2019/11/15
    古幡征史 & 斉藤浩樹

    View Slide

  2. ©GRI Inc.
    CONFIDENTIAL
    S, R, Exploratoryとの出会い
    • 初期分析
    • 回帰分析
    • 一般化線形モデル
    • Windows/Linux
    Dualの個人PCの
    限界
    • たまに利用
    • dplyr
    • GBM/XGBoost
    • iGraph
    • 2019年に契約
    1992年 S言語を利用 1998年 R言語を利用 2014年 R-Studioを利用 2017年 Exploratoryを利用

    View Slide

  3. ©GRI Inc.
    CONFIDENTIAL
    GRIの分析系のサービス領域
    BI
    データ
    分析基盤
    データ分析
    事業企画

    View Slide

  4. ©GRI Inc.
    CONFIDENTIAL
    本日の話のエッセンス
    ForecastFlow
    自動機械学習
    Exploratory
    統計解析/因果推論
    • 「データ利活用を自分たちでできるようになりたい」というプロジェクトの一例
    • 機械学習/AIを業務で使いたい
    • 機械学習/AIの結果は、どの程度、正しそうか?
    • 現在進行形の状況を共有

    View Slide

  5. ©GRI Inc.
    CONFIDENTIAL
    住宅購入のシナリオ
    めったに買わない
    情報の非対称性
    高額商品
    長い契約までの期間
    毎日売っている

    View Slide

  6. ©GRI Inc.
    CONFIDENTIAL
    ある会社の住宅購入までの流れ
    ユーザ
    エンゲージメント
    見学会
    DM
    アウトバウンド
    (コール)
    相談会
    成約
    マイホーム
    ホームページ
    情報収集
    時間

    View Slide

  7. ©GRI Inc.
    CONFIDENTIAL
    住宅購入プロセスをデータ利活用で最適化したい
    ユーザ
    エンゲージメント
    見学会
    DM
    アウトバウンド
    (コール)
    相談会
    成約
    マイホーム
    ホームページ
    情報収集
    時間
    データはあるけど
    使いこなせていない
    自分たちで分析を
    続けられる
    自動機械学習を!

    View Slide

  8. ©GRI Inc.
    CONFIDENTIAL
    自動機械学習(AutoML)の使いどころ
    ユーザ
    エンゲージメント
    見学会
    DM
    アウトバウンド
    (コール)
    相談会
    成約
    マイホーム
    【事前的予測】
    資料請求の時点のデータで、成
    約見込みを推論(事前に訓練)
    ①効率的に営業をかける
    ②パーソナライズ施策
    【事後的予測】
    マイホームに関心がある
    人で成約につながるまで
    の全ての施策で何が効く
    のか(事後的に訓練)
    ホームページ
    情報収集
    時間

    View Slide

  9. ©GRI Inc.
    CONFIDENTIAL
    データセットの作成
    • ID: primary keyのデータセット
    • 教師データ: 成約
    • 特徴量: ユーザ属性、資料請求時情報、広告、ア
    ウトバウンドコール、セミナー、説明会、興味関心
    • Exploratoryではdplyrをベースにし
    たマウス操作で特徴量作成
    • チートシートで何ができるか理解
    https://rstudio.com/wp-
    content/uploads/2015/09/data-wrangling-
    japanese.pdf

    View Slide

  10. ©GRI Inc.
    CONFIDENTIAL
    初期分析(単変数で説明できそうか?)

    View Slide

  11. ©GRI Inc.
    CONFIDENTIAL
    初期分析(単変数で説明できそうか?)

    View Slide

  12. ©GRI Inc.
    CONFIDENTIAL
    自動機械学習を試すとき
    ◼単変数で上手く問題を説明できない
    ◼大量に特徴量が考えられる

    View Slide

  13. ©GRI Inc.
    CONFIDENTIAL
    自動機械学習(大量の特徴量から予測の説明に効く特徴量)
    各見込み顧客が「成約するか?」を
    それ以外の情報(特徴量)で
    予測(説明)できるか?
    ※典型的に数百の特徴量

    View Slide

  14. ©GRI Inc.
    CONFIDENTIAL
    自動機械学習に任せたいところ
    • 大量のデータでも最適なパラメタを高速に自動
    的に決定しプロットをさせる
    • 予測スコアも簡単に出力

    View Slide

  15. ©GRI Inc.
    CONFIDENTIAL
    自動機械学習(AutoML)とは
    既存のデータセット
    • アルゴリズム
    • ハイパーパラメタ
    • 実行基盤
    • 予測モデル
    施策立案
    の解釈
    XAI(Explainable AI)
    とりあえずデータを投入すると自動的に機械学習が動き出力される
    訓練
    新しいデータセット
    推論
    自動機械学習(eg: ForecastFlow)
    • 予測スコア
    施策対象
    の選定
    効率化/自動化

    View Slide

  16. ©GRI Inc.
    CONFIDENTIAL
    自動機械学習の出力結果例
    数百の特徴量を作り、それをAuto MLに突っ込んで、とりあえず重要な特徴量を高速に見つける

    View Slide

  17. ©GRI Inc.
    自動機械学習(LightGBM系)のPros/Cons
    Pros
    ◼とりあえず大量のデータセッ
    トを作れば高速に大まかな傾向
    をとらえられる(施策選定に効
    果的)
    ◼推論により予測スコアを施策
    実施時に活用できる(What-if
    分析含む)
    Cons
    ◼各特徴量の実際の効果を数値
    的に説明しきれない部分が出て
    くる(大まかには言えるが詳細
    な数値に関しては交絡している
    ところの説明が苦しい)
    ◼予測スコアにキャリブレー
    ションできていないので閾値の
    調整が必要

    View Slide

  18. ©GRI Inc.
    CONFIDENTIAL
    Exploratoryで自動機械学習でつらい所を利用(現在進行形)
    ◼推論での閾値調整
    ◼細かな因果的な効果までの数値
    化への挑戦(特に交絡している
    特徴量の部分)

    View Slide

  19. ©GRI Inc.
    CONFIDENTIAL
    推論用の閾値調整
    【推論】
    成約する/しない
    1: 成約する
    0: 成約しない
    ID: C1123
    成約確率: 0.45
    自動機械学習が出力する推論
    結果が、0 or 1ならば判定の閾
    値は不要
    実際には0から1の実数、推論
    結果を解釈する上で閾値は
    0.5で良いか?

    View Slide

  20. ©GRI Inc.
    CONFIDENTIAL
    出力される分布の形状は様々なので良い閾値を探した方が良い
    1: 成約する
    0: 成約しない
    一般的に「成約する」人は少ないので、出力される分布は等しくならない

    View Slide

  21. ©GRI Inc.
    CONFIDENTIAL
    最適な閾値の推定
    最適な閾値 0.48 (F値:0.9178)
    デフォルト閾値 0.5 (F値:0.9156)

    View Slide

  22. ©GRI Inc.
    CONFIDENTIAL
    因果推論の必要性
    数百の特徴量
    自動機械学習
    重要特徴量
    ※この特徴量の
    本当の効果?
    教師データ

    View Slide

  23. ©GRI Inc.
    CONFIDENTIAL
    自動機械学習で解釈に困るとき
    高い影響で担当営業(初回)がいない(NULL)場合、成約しやすい
    (本当の効果はどのくらいだろうか?)

    View Slide

  24. ©GRI Inc.
    CONFIDENTIAL
    因果推論の手順
    ※この特徴量
    (担当営業初回が
    NULL)の本当の効果?
    参考
    https://qiita.com/A_KI/items/39f542730512fbab5066
    成約
    (教師データ)
    気になる特徴量を
    それ以外の特徴量で予測
    (ロジスティック回帰分析)
    重要特徴量
    傾向スコア
    逆確率
    重み付け
    (予測値の
    逆数重み付け)
    ロジスティック回帰
    の予測値
    逆確率重み
    (営業がNULLだったデータの出現
    のしやすさを調整するための重み)
    GLM一般化線形モデルを用いて
    「成約」を「担当営業初回」で説明
    その際、逆確率重みを使う
    担当営業初回がNULLの
    効果の推定

    View Slide

  25. ©GRI Inc.
    CONFIDENTIAL
    営業がNULLの結果の比較
    自動機械学習
    初回営業がNull 0.298
    因果推論で0.29

    View Slide

  26. ©GRI Inc.
    CONFIDENTIAL
    コマンドはpredicted_probability

    View Slide

  27. ©GRI Inc.
    CONFIDENTIAL
    本日のまとめ
    ◼データ利活用プロジェクトの中で、自動機械学習とExploratoryの使っ
    ているところをご紹介
    ◼因果推論で数値の厳密性を解き明かす際にExploratoryの機能を活用
    (現在進行形であるが)

    View Slide

  28. ©GRI Inc.
    CONFIDENTIAL
    Exploratory活用に関する弊社の今後の課題
    ◼因果推論の事例パターンを増やす
    ◼Generalized Random Forestの適用を試してみる
    ◼XGBoostなどでの最適ハイパーパラメタの自動選定法

    View Slide

  29. ©GRI Inc.
    CONFIDENTIAL
    因果推論のイメージ
    チョコレート
    ノーベル賞
    ノーベル賞
    研究予算
    国力
    チョコレート
    国ごとのチョコレート消費量とノーベル賞獲得数の関係
    https://www.statschat.org.nz/2017/03/09/causation-correlation-and-gaps/

    View Slide