Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
分析会社でのExploratoryの使い方のご紹介
Search
Ikuya Murasato
November 15, 2019
Business
0
10k
分析会社でのExploratoryの使い方のご紹介
2019/11/15(金) に開催したExploratory データサイエンス勉強会#11の株式会社GRI 様のご登壇資料です。
Ikuya Murasato
November 15, 2019
Tweet
Share
More Decks by Ikuya Murasato
See All by Ikuya Murasato
トピックモデル分析を活用した問合せ業務の効率化
ikuyam
0
150
回帰分析の活用による新商品の販売力予測
ikuyam
0
120
生存分析モデルを利用したLineのブロック要因分析
ikuyam
0
51
自動車トラブルと気象条件などの探索的データ分析
ikuyam
0
40
データサイエンス「も」使えるチェンジメーカー輩出への挑戦
ikuyam
0
290
ExploratoryとRによる全学データサイエンス教育
ikuyam
0
380
エンゲージメント向上のための人事制度改革 - 管理部門におけるExploratoryの活用
ikuyam
0
1.1k
「学ぶ」分析技術から「使う」分析技術へ - Exploratoryによるドリル演習
ikuyam
0
290
データサイエンス入門教育の現場から - 46歳新任教員2年間の苦闘
ikuyam
0
360
Other Decks in Business
See All in Business
MAGMA - Company Guide
magma_info
0
250
goooods 株式会社 事業概要説明資料 / company deck
syo
3
7.3k
【株式会社Amazia】採用資料(エンジニア)
amazia200910
1
1.2k
【新卒採用】BuySell Technologies会社紹介資料
buyselltechnologies
0
140k
#CMC_Meetup コミュニティの主体がCSからマーケに変わって気づいた良さの違い
ktkn1129
0
120
株式会社ラクーンホールディングス会社紹介 / Company Profile
raccoon_hd_hr
PRO
0
4.7k
株式会社ハロー - Company Deck
helloinc
PRO
1
1.8k
会社説明_採用ページ
arisaiyou
0
14k
Findy - 人生で熱くなれるなにかを探している誰かへ / Letter from Findy
findyinc
6
110k
しくじり先生 〜ふりかえり手法はチームのイマとコネクトして〜
electricsatie
0
330
ワンキャリア 会社説明資料 / Company Deck
onecareer
5
140k
エンジニア向け会社説明資料
staffrecruiter
2
380
Featured
See All Featured
Side Projects
sachag
451
41k
Music & Morning Musume
bryan
41
5.6k
The Cost Of JavaScript in 2023
addyosmani
16
3.9k
The Language of Interfaces
destraynor
151
23k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
14
1.6k
Mobile First: as difficult as doing things right
swwweet
216
8.6k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
17
1.4k
Stop Working from a Prison Cell
hatefulcrawdad
266
19k
Robots, Beer and Maslow
schacon
PRO
155
7.9k
What’s in a name? Adding method to the madness
productmarketing
PRO
16
2.6k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
25
2.3k
How to name files
jennybc
65
93k
Transcript
株式会社GRI データで新たな事業を開発していくカンパニー。 Confidential 分析会社でのExploratoryの使い方のご紹介 ~自動機械学習(AutoML)の後に因果推論~ 2019/11/15 古幡征史 & 斉藤浩樹
©GRI Inc. CONFIDENTIAL S, R, Exploratoryとの出会い • 初期分析 • 回帰分析
• 一般化線形モデル • Windows/Linux Dualの個人PCの 限界 • たまに利用 • dplyr • GBM/XGBoost • iGraph • 2019年に契約 1992年 S言語を利用 1998年 R言語を利用 2014年 R-Studioを利用 2017年 Exploratoryを利用
©GRI Inc. CONFIDENTIAL GRIの分析系のサービス領域 BI データ 分析基盤 データ分析 事業企画
©GRI Inc. CONFIDENTIAL 本日の話のエッセンス ForecastFlow 自動機械学習 Exploratory 統計解析/因果推論 • 「データ利活用を自分たちでできるようになりたい」というプロジェクトの一例
• 機械学習/AIを業務で使いたい • 機械学習/AIの結果は、どの程度、正しそうか? • 現在進行形の状況を共有
©GRI Inc. CONFIDENTIAL 住宅購入のシナリオ めったに買わない 情報の非対称性 高額商品 長い契約までの期間 毎日売っている
©GRI Inc. CONFIDENTIAL ある会社の住宅購入までの流れ ユーザ エンゲージメント 見学会 DM アウトバウンド (コール)
相談会 成約 マイホーム ホームページ 情報収集 時間
©GRI Inc. CONFIDENTIAL 住宅購入プロセスをデータ利活用で最適化したい ユーザ エンゲージメント 見学会 DM アウトバウンド (コール)
相談会 成約 マイホーム ホームページ 情報収集 時間 データはあるけど 使いこなせていない 自分たちで分析を 続けられる 自動機械学習を!
©GRI Inc. CONFIDENTIAL 自動機械学習(AutoML)の使いどころ ユーザ エンゲージメント 見学会 DM アウトバウンド (コール)
相談会 成約 マイホーム 【事前的予測】 資料請求の時点のデータで、成 約見込みを推論(事前に訓練) ①効率的に営業をかける ②パーソナライズ施策 【事後的予測】 マイホームに関心がある 人で成約につながるまで の全ての施策で何が効く のか(事後的に訓練) ホームページ 情報収集 時間
©GRI Inc. CONFIDENTIAL データセットの作成 • ID: primary keyのデータセット • 教師データ:
成約 • 特徴量: ユーザ属性、資料請求時情報、広告、ア ウトバウンドコール、セミナー、説明会、興味関心 • Exploratoryではdplyrをベースにし たマウス操作で特徴量作成 • チートシートで何ができるか理解 https://rstudio.com/wp- content/uploads/2015/09/data-wrangling- japanese.pdf
©GRI Inc. CONFIDENTIAL 初期分析(単変数で説明できそうか?)
©GRI Inc. CONFIDENTIAL 初期分析(単変数で説明できそうか?)
©GRI Inc. CONFIDENTIAL 自動機械学習を試すとき ◼単変数で上手く問題を説明できない ◼大量に特徴量が考えられる
©GRI Inc. CONFIDENTIAL 自動機械学習(大量の特徴量から予測の説明に効く特徴量) 各見込み顧客が「成約するか?」を それ以外の情報(特徴量)で 予測(説明)できるか? ※典型的に数百の特徴量
©GRI Inc. CONFIDENTIAL 自動機械学習に任せたいところ • 大量のデータでも最適なパラメタを高速に自動 的に決定しプロットをさせる • 予測スコアも簡単に出力
©GRI Inc. CONFIDENTIAL 自動機械学習(AutoML)とは 既存のデータセット • アルゴリズム • ハイパーパラメタ •
実行基盤 • 予測モデル 施策立案 の解釈 XAI(Explainable AI) とりあえずデータを投入すると自動的に機械学習が動き出力される 訓練 新しいデータセット 推論 自動機械学習(eg: ForecastFlow) • 予測スコア 施策対象 の選定 効率化/自動化
©GRI Inc. CONFIDENTIAL 自動機械学習の出力結果例 数百の特徴量を作り、それをAuto MLに突っ込んで、とりあえず重要な特徴量を高速に見つける
©GRI Inc. 自動機械学習(LightGBM系)のPros/Cons Pros ◼とりあえず大量のデータセッ トを作れば高速に大まかな傾向 をとらえられる(施策選定に効 果的) ◼推論により予測スコアを施策 実施時に活用できる(What-if
分析含む) Cons ◼各特徴量の実際の効果を数値 的に説明しきれない部分が出て くる(大まかには言えるが詳細 な数値に関しては交絡している ところの説明が苦しい) ◼予測スコアにキャリブレー ションできていないので閾値の 調整が必要
©GRI Inc. CONFIDENTIAL Exploratoryで自動機械学習でつらい所を利用(現在進行形) ◼推論での閾値調整 ◼細かな因果的な効果までの数値 化への挑戦(特に交絡している 特徴量の部分)
©GRI Inc. CONFIDENTIAL 推論用の閾値調整 【推論】 成約する/しない 1: 成約する 0: 成約しない
ID: C1123 成約確率: 0.45 自動機械学習が出力する推論 結果が、0 or 1ならば判定の閾 値は不要 実際には0から1の実数、推論 結果を解釈する上で閾値は 0.5で良いか?
©GRI Inc. CONFIDENTIAL 出力される分布の形状は様々なので良い閾値を探した方が良い 1: 成約する 0: 成約しない 一般的に「成約する」人は少ないので、出力される分布は等しくならない
©GRI Inc. CONFIDENTIAL 最適な閾値の推定 最適な閾値 0.48 (F値:0.9178) デフォルト閾値 0.5 (F値:0.9156)
©GRI Inc. CONFIDENTIAL 因果推論の必要性 数百の特徴量 自動機械学習 重要特徴量 ※この特徴量の 本当の効果? 教師データ
©GRI Inc. CONFIDENTIAL 自動機械学習で解釈に困るとき 高い影響で担当営業(初回)がいない(NULL)場合、成約しやすい (本当の効果はどのくらいだろうか?)
©GRI Inc. CONFIDENTIAL 因果推論の手順 ※この特徴量 (担当営業初回が NULL)の本当の効果? 参考 https://qiita.com/A_KI/items/39f542730512fbab5066 成約
(教師データ) 気になる特徴量を それ以外の特徴量で予測 (ロジスティック回帰分析) 重要特徴量 傾向スコア 逆確率 重み付け (予測値の 逆数重み付け) ロジスティック回帰 の予測値 逆確率重み (営業がNULLだったデータの出現 のしやすさを調整するための重み) GLM一般化線形モデルを用いて 「成約」を「担当営業初回」で説明 その際、逆確率重みを使う 担当営業初回がNULLの 効果の推定
©GRI Inc. CONFIDENTIAL 営業がNULLの結果の比較 自動機械学習 初回営業がNull 0.298 因果推論で0.29
©GRI Inc. CONFIDENTIAL コマンドはpredicted_probability
©GRI Inc. CONFIDENTIAL 本日のまとめ ◼データ利活用プロジェクトの中で、自動機械学習とExploratoryの使っ ているところをご紹介 ◼因果推論で数値の厳密性を解き明かす際にExploratoryの機能を活用 (現在進行形であるが)
©GRI Inc. CONFIDENTIAL Exploratory活用に関する弊社の今後の課題 ◼因果推論の事例パターンを増やす ◼Generalized Random Forestの適用を試してみる ◼XGBoostなどでの最適ハイパーパラメタの自動選定法
©GRI Inc. CONFIDENTIAL 因果推論のイメージ チョコレート ノーベル賞 ノーベル賞 研究予算 国力 チョコレート
国ごとのチョコレート消費量とノーベル賞獲得数の関係 https://www.statschat.org.nz/2017/03/09/causation-correlation-and-gaps/