分析会社でのExploratoryの使い方のご紹介
by
Ikuya Murasato
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
株式会社GRI データで新たな事業を開発していくカンパニー。 Confidential 分析会社でのExploratoryの使い方のご紹介 ~自動機械学習(AutoML)の後に因果推論~ 2019/11/15 古幡征史 & 斉藤浩樹
Slide 2
Slide 2 text
©GRI Inc. CONFIDENTIAL S, R, Exploratoryとの出会い • 初期分析 • 回帰分析 • 一般化線形モデル • Windows/Linux Dualの個人PCの 限界 • たまに利用 • dplyr • GBM/XGBoost • iGraph • 2019年に契約 1992年 S言語を利用 1998年 R言語を利用 2014年 R-Studioを利用 2017年 Exploratoryを利用
Slide 3
Slide 3 text
©GRI Inc. CONFIDENTIAL GRIの分析系のサービス領域 BI データ 分析基盤 データ分析 事業企画
Slide 4
Slide 4 text
©GRI Inc. CONFIDENTIAL 本日の話のエッセンス ForecastFlow 自動機械学習 Exploratory 統計解析/因果推論 • 「データ利活用を自分たちでできるようになりたい」というプロジェクトの一例 • 機械学習/AIを業務で使いたい • 機械学習/AIの結果は、どの程度、正しそうか? • 現在進行形の状況を共有
Slide 5
Slide 5 text
©GRI Inc. CONFIDENTIAL 住宅購入のシナリオ めったに買わない 情報の非対称性 高額商品 長い契約までの期間 毎日売っている
Slide 6
Slide 6 text
©GRI Inc. CONFIDENTIAL ある会社の住宅購入までの流れ ユーザ エンゲージメント 見学会 DM アウトバウンド (コール) 相談会 成約 マイホーム ホームページ 情報収集 時間
Slide 7
Slide 7 text
©GRI Inc. CONFIDENTIAL 住宅購入プロセスをデータ利活用で最適化したい ユーザ エンゲージメント 見学会 DM アウトバウンド (コール) 相談会 成約 マイホーム ホームページ 情報収集 時間 データはあるけど 使いこなせていない 自分たちで分析を 続けられる 自動機械学習を!
Slide 8
Slide 8 text
©GRI Inc. CONFIDENTIAL 自動機械学習(AutoML)の使いどころ ユーザ エンゲージメント 見学会 DM アウトバウンド (コール) 相談会 成約 マイホーム 【事前的予測】 資料請求の時点のデータで、成 約見込みを推論(事前に訓練) ①効率的に営業をかける ②パーソナライズ施策 【事後的予測】 マイホームに関心がある 人で成約につながるまで の全ての施策で何が効く のか(事後的に訓練) ホームページ 情報収集 時間
Slide 9
Slide 9 text
©GRI Inc. CONFIDENTIAL データセットの作成 • ID: primary keyのデータセット • 教師データ: 成約 • 特徴量: ユーザ属性、資料請求時情報、広告、ア ウトバウンドコール、セミナー、説明会、興味関心 • Exploratoryではdplyrをベースにし たマウス操作で特徴量作成 • チートシートで何ができるか理解 https://rstudio.com/wp- content/uploads/2015/09/data-wrangling- japanese.pdf
Slide 10
Slide 10 text
©GRI Inc. CONFIDENTIAL 初期分析(単変数で説明できそうか?)
Slide 11
Slide 11 text
©GRI Inc. CONFIDENTIAL 初期分析(単変数で説明できそうか?)
Slide 12
Slide 12 text
©GRI Inc. CONFIDENTIAL 自動機械学習を試すとき ◼単変数で上手く問題を説明できない ◼大量に特徴量が考えられる
Slide 13
Slide 13 text
©GRI Inc. CONFIDENTIAL 自動機械学習(大量の特徴量から予測の説明に効く特徴量) 各見込み顧客が「成約するか?」を それ以外の情報(特徴量)で 予測(説明)できるか? ※典型的に数百の特徴量
Slide 14
Slide 14 text
©GRI Inc. CONFIDENTIAL 自動機械学習に任せたいところ • 大量のデータでも最適なパラメタを高速に自動 的に決定しプロットをさせる • 予測スコアも簡単に出力
Slide 15
Slide 15 text
©GRI Inc. CONFIDENTIAL 自動機械学習(AutoML)とは 既存のデータセット • アルゴリズム • ハイパーパラメタ • 実行基盤 • 予測モデル 施策立案 の解釈 XAI(Explainable AI) とりあえずデータを投入すると自動的に機械学習が動き出力される 訓練 新しいデータセット 推論 自動機械学習(eg: ForecastFlow) • 予測スコア 施策対象 の選定 効率化/自動化
Slide 16
Slide 16 text
©GRI Inc. CONFIDENTIAL 自動機械学習の出力結果例 数百の特徴量を作り、それをAuto MLに突っ込んで、とりあえず重要な特徴量を高速に見つける
Slide 17
Slide 17 text
©GRI Inc. 自動機械学習(LightGBM系)のPros/Cons Pros ◼とりあえず大量のデータセッ トを作れば高速に大まかな傾向 をとらえられる(施策選定に効 果的) ◼推論により予測スコアを施策 実施時に活用できる(What-if 分析含む) Cons ◼各特徴量の実際の効果を数値 的に説明しきれない部分が出て くる(大まかには言えるが詳細 な数値に関しては交絡している ところの説明が苦しい) ◼予測スコアにキャリブレー ションできていないので閾値の 調整が必要
Slide 18
Slide 18 text
©GRI Inc. CONFIDENTIAL Exploratoryで自動機械学習でつらい所を利用(現在進行形) ◼推論での閾値調整 ◼細かな因果的な効果までの数値 化への挑戦(特に交絡している 特徴量の部分)
Slide 19
Slide 19 text
©GRI Inc. CONFIDENTIAL 推論用の閾値調整 【推論】 成約する/しない 1: 成約する 0: 成約しない ID: C1123 成約確率: 0.45 自動機械学習が出力する推論 結果が、0 or 1ならば判定の閾 値は不要 実際には0から1の実数、推論 結果を解釈する上で閾値は 0.5で良いか?
Slide 20
Slide 20 text
©GRI Inc. CONFIDENTIAL 出力される分布の形状は様々なので良い閾値を探した方が良い 1: 成約する 0: 成約しない 一般的に「成約する」人は少ないので、出力される分布は等しくならない
Slide 21
Slide 21 text
©GRI Inc. CONFIDENTIAL 最適な閾値の推定 最適な閾値 0.48 (F値:0.9178) デフォルト閾値 0.5 (F値:0.9156)
Slide 22
Slide 22 text
©GRI Inc. CONFIDENTIAL 因果推論の必要性 数百の特徴量 自動機械学習 重要特徴量 ※この特徴量の 本当の効果? 教師データ
Slide 23
Slide 23 text
©GRI Inc. CONFIDENTIAL 自動機械学習で解釈に困るとき 高い影響で担当営業(初回)がいない(NULL)場合、成約しやすい (本当の効果はどのくらいだろうか?)
Slide 24
Slide 24 text
©GRI Inc. CONFIDENTIAL 因果推論の手順 ※この特徴量 (担当営業初回が NULL)の本当の効果? 参考 https://qiita.com/A_KI/items/39f542730512fbab5066 成約 (教師データ) 気になる特徴量を それ以外の特徴量で予測 (ロジスティック回帰分析) 重要特徴量 傾向スコア 逆確率 重み付け (予測値の 逆数重み付け) ロジスティック回帰 の予測値 逆確率重み (営業がNULLだったデータの出現 のしやすさを調整するための重み) GLM一般化線形モデルを用いて 「成約」を「担当営業初回」で説明 その際、逆確率重みを使う 担当営業初回がNULLの 効果の推定
Slide 25
Slide 25 text
©GRI Inc. CONFIDENTIAL 営業がNULLの結果の比較 自動機械学習 初回営業がNull 0.298 因果推論で0.29
Slide 26
Slide 26 text
©GRI Inc. CONFIDENTIAL コマンドはpredicted_probability
Slide 27
Slide 27 text
©GRI Inc. CONFIDENTIAL 本日のまとめ ◼データ利活用プロジェクトの中で、自動機械学習とExploratoryの使っ ているところをご紹介 ◼因果推論で数値の厳密性を解き明かす際にExploratoryの機能を活用 (現在進行形であるが)
Slide 28
Slide 28 text
©GRI Inc. CONFIDENTIAL Exploratory活用に関する弊社の今後の課題 ◼因果推論の事例パターンを増やす ◼Generalized Random Forestの適用を試してみる ◼XGBoostなどでの最適ハイパーパラメタの自動選定法
Slide 29
Slide 29 text
©GRI Inc. CONFIDENTIAL 因果推論のイメージ チョコレート ノーベル賞 ノーベル賞 研究予算 国力 チョコレート 国ごとのチョコレート消費量とノーベル賞獲得数の関係 https://www.statschat.org.nz/2017/03/09/causation-correlation-and-gaps/