Upgrade to Pro — share decks privately, control downloads, hide ads and more …

分析会社でのExploratoryの使い方のご紹介

Ikuya Murasato
November 15, 2019

 分析会社でのExploratoryの使い方のご紹介

2019/11/15(金) に開催したExploratory データサイエンス勉強会#11の株式会社GRI 様のご登壇資料です。

Ikuya Murasato

November 15, 2019
Tweet

More Decks by Ikuya Murasato

Other Decks in Business

Transcript

  1. ©GRI Inc. CONFIDENTIAL S, R, Exploratoryとの出会い • 初期分析 • 回帰分析

    • 一般化線形モデル • Windows/Linux Dualの個人PCの 限界 • たまに利用 • dplyr • GBM/XGBoost • iGraph • 2019年に契約 1992年 S言語を利用 1998年 R言語を利用 2014年 R-Studioを利用 2017年 Exploratoryを利用
  2. ©GRI Inc. CONFIDENTIAL 住宅購入プロセスをデータ利活用で最適化したい ユーザ エンゲージメント 見学会 DM アウトバウンド (コール)

    相談会 成約 マイホーム ホームページ 情報収集 時間 データはあるけど 使いこなせていない 自分たちで分析を 続けられる 自動機械学習を!
  3. ©GRI Inc. CONFIDENTIAL 自動機械学習(AutoML)の使いどころ ユーザ エンゲージメント 見学会 DM アウトバウンド (コール)

    相談会 成約 マイホーム 【事前的予測】 資料請求の時点のデータで、成 約見込みを推論(事前に訓練) ①効率的に営業をかける ②パーソナライズ施策 【事後的予測】 マイホームに関心がある 人で成約につながるまで の全ての施策で何が効く のか(事後的に訓練) ホームページ 情報収集 時間
  4. ©GRI Inc. CONFIDENTIAL データセットの作成 • ID: primary keyのデータセット • 教師データ:

    成約 • 特徴量: ユーザ属性、資料請求時情報、広告、ア ウトバウンドコール、セミナー、説明会、興味関心 • Exploratoryではdplyrをベースにし たマウス操作で特徴量作成 • チートシートで何ができるか理解 https://rstudio.com/wp- content/uploads/2015/09/data-wrangling- japanese.pdf
  5. ©GRI Inc. CONFIDENTIAL 自動機械学習(AutoML)とは 既存のデータセット • アルゴリズム • ハイパーパラメタ •

    実行基盤 • 予測モデル 施策立案 の解釈 XAI(Explainable AI) とりあえずデータを投入すると自動的に機械学習が動き出力される 訓練 新しいデータセット 推論 自動機械学習(eg: ForecastFlow) • 予測スコア 施策対象 の選定 効率化/自動化
  6. ©GRI Inc. 自動機械学習(LightGBM系)のPros/Cons Pros ◼とりあえず大量のデータセッ トを作れば高速に大まかな傾向 をとらえられる(施策選定に効 果的) ◼推論により予測スコアを施策 実施時に活用できる(What-if

    分析含む) Cons ◼各特徴量の実際の効果を数値 的に説明しきれない部分が出て くる(大まかには言えるが詳細 な数値に関しては交絡している ところの説明が苦しい) ◼予測スコアにキャリブレー ションできていないので閾値の 調整が必要
  7. ©GRI Inc. CONFIDENTIAL 推論用の閾値調整 【推論】 成約する/しない 1: 成約する 0: 成約しない

    ID: C1123 成約確率: 0.45 自動機械学習が出力する推論 結果が、0 or 1ならば判定の閾 値は不要 実際には0から1の実数、推論 結果を解釈する上で閾値は 0.5で良いか?
  8. ©GRI Inc. CONFIDENTIAL 因果推論の手順 ※この特徴量 (担当営業初回が NULL)の本当の効果? 参考 https://qiita.com/A_KI/items/39f542730512fbab5066 成約

    (教師データ) 気になる特徴量を それ以外の特徴量で予測 (ロジスティック回帰分析) 重要特徴量 傾向スコア 逆確率 重み付け (予測値の 逆数重み付け) ロジスティック回帰 の予測値 逆確率重み (営業がNULLだったデータの出現 のしやすさを調整するための重み) GLM一般化線形モデルを用いて 「成約」を「担当営業初回」で説明 その際、逆確率重みを使う 担当営業初回がNULLの 効果の推定
  9. ©GRI Inc. CONFIDENTIAL 因果推論のイメージ チョコレート ノーベル賞 ノーベル賞 研究予算 国力 チョコレート

    国ごとのチョコレート消費量とノーベル賞獲得数の関係 https://www.statschat.org.nz/2017/03/09/causation-correlation-and-gaps/