2019/11/15(金) に開催したExploratory データサイエンス勉強会#11の株式会社GRI 様のご登壇資料です。
株式会社GRIデータで新たな事業を開発していくカンパニー。Confidential分析会社でのExploratoryの使い方のご紹介~自動機械学習(AutoML)の後に因果推論~2019/11/15古幡征史 & 斉藤浩樹
View Slide
©GRI Inc.CONFIDENTIALS, R, Exploratoryとの出会い• 初期分析• 回帰分析• 一般化線形モデル• Windows/LinuxDualの個人PCの限界• たまに利用• dplyr• GBM/XGBoost• iGraph• 2019年に契約1992年 S言語を利用 1998年 R言語を利用 2014年 R-Studioを利用 2017年 Exploratoryを利用
©GRI Inc.CONFIDENTIALGRIの分析系のサービス領域BIデータ分析基盤データ分析事業企画
©GRI Inc.CONFIDENTIAL本日の話のエッセンスForecastFlow自動機械学習Exploratory統計解析/因果推論• 「データ利活用を自分たちでできるようになりたい」というプロジェクトの一例• 機械学習/AIを業務で使いたい• 機械学習/AIの結果は、どの程度、正しそうか?• 現在進行形の状況を共有
©GRI Inc.CONFIDENTIAL住宅購入のシナリオめったに買わない情報の非対称性高額商品長い契約までの期間毎日売っている
©GRI Inc.CONFIDENTIALある会社の住宅購入までの流れユーザエンゲージメント見学会DMアウトバウンド(コール)相談会成約マイホームホームページ情報収集時間
©GRI Inc.CONFIDENTIAL住宅購入プロセスをデータ利活用で最適化したいユーザエンゲージメント見学会DMアウトバウンド(コール)相談会成約マイホームホームページ情報収集時間データはあるけど使いこなせていない自分たちで分析を続けられる自動機械学習を!
©GRI Inc.CONFIDENTIAL自動機械学習(AutoML)の使いどころユーザエンゲージメント見学会DMアウトバウンド(コール)相談会成約マイホーム【事前的予測】資料請求の時点のデータで、成約見込みを推論(事前に訓練)①効率的に営業をかける②パーソナライズ施策【事後的予測】マイホームに関心がある人で成約につながるまでの全ての施策で何が効くのか(事後的に訓練)ホームページ情報収集時間
©GRI Inc.CONFIDENTIALデータセットの作成• ID: primary keyのデータセット• 教師データ: 成約• 特徴量: ユーザ属性、資料請求時情報、広告、アウトバウンドコール、セミナー、説明会、興味関心• Exploratoryではdplyrをベースにしたマウス操作で特徴量作成• チートシートで何ができるか理解https://rstudio.com/wp-content/uploads/2015/09/data-wrangling-japanese.pdf
©GRI Inc.CONFIDENTIAL初期分析(単変数で説明できそうか?)
©GRI Inc.CONFIDENTIAL自動機械学習を試すとき◼単変数で上手く問題を説明できない◼大量に特徴量が考えられる
©GRI Inc.CONFIDENTIAL自動機械学習(大量の特徴量から予測の説明に効く特徴量)各見込み顧客が「成約するか?」をそれ以外の情報(特徴量)で予測(説明)できるか?※典型的に数百の特徴量
©GRI Inc.CONFIDENTIAL自動機械学習に任せたいところ• 大量のデータでも最適なパラメタを高速に自動的に決定しプロットをさせる• 予測スコアも簡単に出力
©GRI Inc.CONFIDENTIAL自動機械学習(AutoML)とは既存のデータセット• アルゴリズム• ハイパーパラメタ• 実行基盤• 予測モデル施策立案の解釈XAI(Explainable AI)とりあえずデータを投入すると自動的に機械学習が動き出力される訓練新しいデータセット推論自動機械学習(eg: ForecastFlow)• 予測スコア施策対象の選定効率化/自動化
©GRI Inc.CONFIDENTIAL自動機械学習の出力結果例数百の特徴量を作り、それをAuto MLに突っ込んで、とりあえず重要な特徴量を高速に見つける
©GRI Inc.自動機械学習(LightGBM系)のPros/ConsPros◼とりあえず大量のデータセットを作れば高速に大まかな傾向をとらえられる(施策選定に効果的)◼推論により予測スコアを施策実施時に活用できる(What-if分析含む)Cons◼各特徴量の実際の効果を数値的に説明しきれない部分が出てくる(大まかには言えるが詳細な数値に関しては交絡しているところの説明が苦しい)◼予測スコアにキャリブレーションできていないので閾値の調整が必要
©GRI Inc.CONFIDENTIALExploratoryで自動機械学習でつらい所を利用(現在進行形)◼推論での閾値調整◼細かな因果的な効果までの数値化への挑戦(特に交絡している特徴量の部分)
©GRI Inc.CONFIDENTIAL推論用の閾値調整【推論】成約する/しない1: 成約する0: 成約しないID: C1123成約確率: 0.45自動機械学習が出力する推論結果が、0 or 1ならば判定の閾値は不要実際には0から1の実数、推論結果を解釈する上で閾値は0.5で良いか?
©GRI Inc.CONFIDENTIAL出力される分布の形状は様々なので良い閾値を探した方が良い1: 成約する0: 成約しない一般的に「成約する」人は少ないので、出力される分布は等しくならない
©GRI Inc.CONFIDENTIAL最適な閾値の推定最適な閾値 0.48 (F値:0.9178)デフォルト閾値 0.5 (F値:0.9156)
©GRI Inc.CONFIDENTIAL因果推論の必要性数百の特徴量自動機械学習重要特徴量※この特徴量の本当の効果?教師データ
©GRI Inc.CONFIDENTIAL自動機械学習で解釈に困るとき高い影響で担当営業(初回)がいない(NULL)場合、成約しやすい(本当の効果はどのくらいだろうか?)
©GRI Inc.CONFIDENTIAL因果推論の手順※この特徴量(担当営業初回がNULL)の本当の効果?参考https://qiita.com/A_KI/items/39f542730512fbab5066成約(教師データ)気になる特徴量をそれ以外の特徴量で予測(ロジスティック回帰分析)重要特徴量傾向スコア逆確率重み付け(予測値の逆数重み付け)ロジスティック回帰の予測値逆確率重み(営業がNULLだったデータの出現のしやすさを調整するための重み)GLM一般化線形モデルを用いて「成約」を「担当営業初回」で説明その際、逆確率重みを使う担当営業初回がNULLの効果の推定
©GRI Inc.CONFIDENTIAL営業がNULLの結果の比較自動機械学習初回営業がNull 0.298因果推論で0.29
©GRI Inc.CONFIDENTIALコマンドはpredicted_probability
©GRI Inc.CONFIDENTIAL本日のまとめ◼データ利活用プロジェクトの中で、自動機械学習とExploratoryの使っているところをご紹介◼因果推論で数値の厳密性を解き明かす際にExploratoryの機能を活用(現在進行形であるが)
©GRI Inc.CONFIDENTIALExploratory活用に関する弊社の今後の課題◼因果推論の事例パターンを増やす◼Generalized Random Forestの適用を試してみる◼XGBoostなどでの最適ハイパーパラメタの自動選定法
©GRI Inc.CONFIDENTIAL因果推論のイメージチョコレートノーベル賞ノーベル賞研究予算国力チョコレート国ごとのチョコレート消費量とノーベル賞獲得数の関係https://www.statschat.org.nz/2017/03/09/causation-correlation-and-gaps/