分析会社でのExploratoryの使い方のご紹介

株式会社GRI データで新たな事業を開発していくカンパニー。 Confidential 分析会社でのExploratoryの使い方のご紹介～自動機械学習(AutoML)の後に因果推論～ 2019/11/15 古幡征史＆斉藤浩樹

©GRI Inc. CONFIDENTIAL S, R, Exploratoryとの出会い • 初期分析 • 回帰分析
• 一般化線形モデル • Windows/Linux Dualの個人PCの限界 • たまに利用 • dplyr • GBM/XGBoost • iGraph • 2019年に契約 1992年 S言語を利用 1998年 R言語を利用 2014年 R-Studioを利用 2017年 Exploratoryを利用

©GRI Inc. CONFIDENTIAL GRIの分析系のサービス領域 BI データ分析基盤データ分析事業企画

©GRI Inc. CONFIDENTIAL 本日の話のエッセンス ForecastFlow 自動機械学習 Exploratory 統計解析/因果推論 • 「データ利活用を自分たちでできるようになりたい」というプロジェクトの一例
• 機械学習/AIを業務で使いたい • 機械学習/AIの結果は、どの程度、正しそうか？ • 現在進行形の状況を共有

©GRI Inc. CONFIDENTIAL 住宅購入のシナリオめったに買わない情報の非対称性高額商品長い契約までの期間毎日売っている

©GRI Inc. CONFIDENTIAL ある会社の住宅購入までの流れユーザエンゲージメント見学会 DM アウトバウンド（コール）
相談会成約マイホームホームページ情報収集時間

©GRI Inc. CONFIDENTIAL 住宅購入プロセスをデータ利活用で最適化したいユーザエンゲージメント見学会 DM アウトバウンド（コール）
相談会成約マイホームホームページ情報収集時間データはあるけど使いこなせていない自分たちで分析を続けられる自動機械学習を！

©GRI Inc. CONFIDENTIAL 自動機械学習(AutoML)の使いどころユーザエンゲージメント見学会 DM アウトバウンド（コール）
相談会成約マイホーム【事前的予測】資料請求の時点のデータで、成約見込みを推論（事前に訓練） ①効率的に営業をかける ②パーソナライズ施策【事後的予測】マイホームに関心がある人で成約につながるまでの全ての施策で何が効くのか（事後的に訓練）ホームページ情報収集時間

©GRI Inc. CONFIDENTIAL データセットの作成 • ID: primary keyのデータセット • 教師データ:
成約 • 特徴量: ユーザ属性、資料請求時情報、広告、アウトバウンドコール、セミナー、説明会、興味関心 • Exploratoryではdplyrをベースにしたマウス操作で特徴量作成 • チートシートで何ができるか理解 https://rstudio.com/wp- content/uploads/2015/09/data-wrangling- japanese.pdf

©GRI Inc. CONFIDENTIAL 初期分析（単変数で説明できそうか？）

©GRI Inc. CONFIDENTIAL 自動機械学習を試すとき ◼単変数で上手く問題を説明できない ◼大量に特徴量が考えられる

©GRI Inc. CONFIDENTIAL 自動機械学習（大量の特徴量から予測の説明に効く特徴量）各見込み顧客が「成約するか？」をそれ以外の情報（特徴量）で予測（説明）できるか？ ※典型的に数百の特徴量

©GRI Inc. CONFIDENTIAL 自動機械学習に任せたいところ • 大量のデータでも最適なパラメタを高速に自動的に決定しプロットをさせる • 予測スコアも簡単に出力

©GRI Inc. CONFIDENTIAL 自動機械学習(AutoML)とは既存のデータセット • アルゴリズム • ハイパーパラメタ •
実行基盤 • 予測モデル施策立案の解釈 XAI(Explainable AI) とりあえずデータを投入すると自動的に機械学習が動き出力される訓練新しいデータセット推論自動機械学習(eg: ForecastFlow) • 予測スコア施策対象の選定効率化／自動化

©GRI Inc. CONFIDENTIAL 自動機械学習の出力結果例数百の特徴量を作り、それをAuto MLに突っ込んで、とりあえず重要な特徴量を高速に見つける

©GRI Inc. 自動機械学習（LightGBM系）のPros/Cons Pros ◼とりあえず大量のデータセットを作れば高速に大まかな傾向をとらえられる（施策選定に効果的） ◼推論により予測スコアを施策実施時に活用できる（What-if
分析含む） Cons ◼各特徴量の実際の効果を数値的に説明しきれない部分が出てくる（大まかには言えるが詳細な数値に関しては交絡しているところの説明が苦しい） ◼予測スコアにキャリブレーションできていないので閾値の調整が必要

©GRI Inc. CONFIDENTIAL Exploratoryで自動機械学習でつらい所を利用（現在進行形） ◼推論での閾値調整 ◼細かな因果的な効果までの数値化への挑戦（特に交絡している特徴量の部分）

©GRI Inc. CONFIDENTIAL 推論用の閾値調整【推論】成約する／しない 1: 成約する 0: 成約しない
ID: C1123 成約確率: 0.45 自動機械学習が出力する推論結果が、0 or 1ならば判定の閾値は不要実際には0から1の実数、推論結果を解釈する上で閾値は 0.5で良いか？

©GRI Inc. CONFIDENTIAL 出力される分布の形状は様々なので良い閾値を探した方が良い 1: 成約する 0: 成約しない一般的に「成約する」人は少ないので、出力される分布は等しくならない

©GRI Inc. CONFIDENTIAL 因果推論の手順 ※この特徴量（担当営業初回が NULL）の本当の効果？参考 https://qiita.com/A_KI/items/39f542730512fbab5066 成約
（教師データ）気になる特徴量をそれ以外の特徴量で予測（ロジスティック回帰分析）重要特徴量傾向スコア逆確率重み付け（予測値の逆数重み付け）ロジスティック回帰の予測値逆確率重み（営業がNULLだったデータの出現のしやすさを調整するための重み） GLM一般化線形モデルを用いて「成約」を「担当営業初回」で説明その際、逆確率重みを使う担当営業初回がNULLの効果の推定

©GRI Inc. CONFIDENTIAL 本日のまとめ ◼データ利活用プロジェクトの中で、自動機械学習とExploratoryの使っているところをご紹介 ◼因果推論で数値の厳密性を解き明かす際にExploratoryの機能を活用（現在進行形であるが）

©GRI Inc. CONFIDENTIAL Exploratory活用に関する弊社の今後の課題 ◼因果推論の事例パターンを増やす ◼Generalized Random Forestの適用を試してみる ◼XGBoostなどでの最適ハイパーパラメタの自動選定法

©GRI Inc. CONFIDENTIAL 因果推論のイメージチョコレートノーベル賞ノーベル賞研究予算国力チョコレート
国ごとのチョコレート消費量とノーベル賞獲得数の関係 https://www.statschat.org.nz/2017/03/09/causation-correlation-and-gaps/

分析会社でのExploratoryの使い方のご紹介

分析会社でのExploratoryの使い方のご紹介

Ikuya Murasato

More Decks by Ikuya Murasato

Other Decks in Business

Featured

Transcript

株式会社GRI データで新たな事業を開発していくカンパニー。 Confidential 分析会社でのExploratoryの使い方のご紹介～自動機械学習(AutoML)の後に因果推論～ 2019/11/15 古幡征史＆斉藤浩樹

©GRI Inc. CONFIDENTIAL S, R, Exploratoryとの出会い • 初期分析 • 回帰分析

©GRI Inc. CONFIDENTIAL GRIの分析系のサービス領域 BI データ分析基盤データ分析事業企画

©GRI Inc. CONFIDENTIAL 本日の話のエッセンス ForecastFlow 自動機械学習 Exploratory 統計解析/因果推論 • 「データ利活用を自分たちでできるようになりたい」というプロジェクトの一例

©GRI Inc. CONFIDENTIAL 住宅購入のシナリオめったに買わない情報の非対称性高額商品長い契約までの期間毎日売っている

©GRI Inc. CONFIDENTIAL ある会社の住宅購入までの流れユーザエンゲージメント見学会 DM アウトバウンド（コール）

©GRI Inc. CONFIDENTIAL 住宅購入プロセスをデータ利活用で最適化したいユーザエンゲージメント見学会 DM アウトバウンド（コール）

©GRI Inc. CONFIDENTIAL 自動機械学習(AutoML)の使いどころユーザエンゲージメント見学会 DM アウトバウンド（コール）

©GRI Inc. CONFIDENTIAL データセットの作成 • ID: primary keyのデータセット • 教師データ:

©GRI Inc. CONFIDENTIAL 初期分析（単変数で説明できそうか？）

©GRI Inc. CONFIDENTIAL 初期分析（単変数で説明できそうか？）

©GRI Inc. CONFIDENTIAL 自動機械学習を試すとき ◼単変数で上手く問題を説明できない ◼大量に特徴量が考えられる

©GRI Inc. CONFIDENTIAL 自動機械学習（大量の特徴量から予測の説明に効く特徴量）各見込み顧客が「成約するか？」をそれ以外の情報（特徴量）で予測（説明）できるか？ ※典型的に数百の特徴量

©GRI Inc. CONFIDENTIAL 自動機械学習に任せたいところ • 大量のデータでも最適なパラメタを高速に自動的に決定しプロットをさせる • 予測スコアも簡単に出力

©GRI Inc. CONFIDENTIAL 自動機械学習(AutoML)とは既存のデータセット • アルゴリズム • ハイパーパラメタ •

©GRI Inc. CONFIDENTIAL 自動機械学習の出力結果例数百の特徴量を作り、それをAuto MLに突っ込んで、とりあえず重要な特徴量を高速に見つける

©GRI Inc. 自動機械学習（LightGBM系）のPros/Cons Pros ◼とりあえず大量のデータセットを作れば高速に大まかな傾向をとらえられる（施策選定に効果的） ◼推論により予測スコアを施策実施時に活用できる（What-if

©GRI Inc. CONFIDENTIAL Exploratoryで自動機械学習でつらい所を利用（現在進行形） ◼推論での閾値調整 ◼細かな因果的な効果までの数値化への挑戦（特に交絡している特徴量の部分）

©GRI Inc. CONFIDENTIAL 推論用の閾値調整【推論】成約する／しない 1: 成約する 0: 成約しない

©GRI Inc. CONFIDENTIAL 出力される分布の形状は様々なので良い閾値を探した方が良い 1: 成約する 0: 成約しない一般的に「成約する」人は少ないので、出力される分布は等しくならない

©GRI Inc. CONFIDENTIAL 最適な閾値の推定最適な閾値 0.48 （F値：0.9178）デフォルト閾値 0.5 （F値：0.9156）

©GRI Inc. CONFIDENTIAL 因果推論の必要性数百の特徴量自動機械学習重要特徴量 ※この特徴量の本当の効果？教師データ

©GRI Inc. CONFIDENTIAL 自動機械学習で解釈に困るとき高い影響で担当営業（初回）がいない（NULL）場合、成約しやすい（本当の効果はどのくらいだろうか？）

©GRI Inc. CONFIDENTIAL 因果推論の手順 ※この特徴量（担当営業初回が NULL）の本当の効果？参考 https://qiita.com/A_KI/items/39f542730512fbab5066 成約

©GRI Inc. CONFIDENTIAL 営業がNULLの結果の比較自動機械学習初回営業がNull 0.298 因果推論で0.29

©GRI Inc. CONFIDENTIAL コマンドはpredicted_probability

©GRI Inc. CONFIDENTIAL 本日のまとめ ◼データ利活用プロジェクトの中で、自動機械学習とExploratoryの使っているところをご紹介 ◼因果推論で数値の厳密性を解き明かす際にExploratoryの機能を活用（現在進行形であるが）

©GRI Inc. CONFIDENTIAL Exploratory活用に関する弊社の今後の課題 ◼因果推論の事例パターンを増やす ◼Generalized Random Forestの適用を試してみる ◼XGBoostなどでの最適ハイパーパラメタの自動選定法

©GRI Inc. CONFIDENTIAL 因果推論のイメージチョコレートノーベル賞ノーベル賞研究予算国力チョコレート