Upgrade to Pro — share decks privately, control downloads, hide ads and more …

機械学習と統計モデルを用いた顧客育成_配布用

 機械学習と統計モデルを用いた顧客育成_配布用

2018/08/02 人工知能ビジネス創出協会/第17回 AIB協会・専門セミナーでの、曲沼の講演資料になります

Recruit Technologies

August 02, 2018
Tweet

More Decks by Recruit Technologies

Other Decks in Technology

Transcript

  1. (C) Recruit Technologies Co., Ltd. All rights reserved. 2 アジェンダ

    人工知能時代におけるデータサイエンス事例 人工知能時代 会社紹介 Ⅰ Ⅱ Ⅲ
  2. リクルートグループについて 4 創業 1960年3月31日 「大学新聞広告社」としてスタート グループ 従業員数 40,152名 (2018年3月31日時点) 連結売上高

    21,733億円 (2017年4月1日〜2018年3月31日) 連結経常利益 1,917億円 (2017年4月1日〜2018年3月31日) グループ 関連企業数 365社 (連結対象子会社、2018年3月31日時点) 目指す世界観 「あなた」を支える存在でありたい
  3. リクルートの事業内容について 5 ライフイベント領域 進学 就職 結婚 転職 住宅購⼊ ⾞購⼊ 出産/育児

    旅⾏ ビジネス支援 生活/地域情報 グルメ・美容 ライフスタイル領域 選択・意思決定を支援する情報サービスを提供し、 「まだ、ここにない、出会い。」を実現する。
  4. リクルートのビジネスモデルについて 6 リクルートには、ユーザーとクライアントという2つのお客様が存在します。 企業と人(B to C)、企業と企業(B to B)、人と人(C to C)、すべての間に

    ⽴ち、双⽅にとって最適なマッチングを図る「場」を提供しています。 ユーザーとクライアントを新しい接点で結び、 「まだ、ここにない、出会い。」の場を創造する。
  5. リクルートテクノロジーズは、リクルートグループのIT・ネットマーケティング 領域のテクノロジー開発を担う会社です。 リクルートグループにおけるリクルートテクノロジーズについて 7 リクルート ホールディングス リクルートキャリア リクルート住まいカンパニー リクルートライフスタイル リクルートジョブズ

    リクルートマーケティングパートナーズ リクルートテクノロジーズ リクルートテクノロジーズ リクルートスタッフィング スタッフサービス・ホールディングス リクルートコミュニケーションズ メディア & ソリューション事業 (株)リクルート 人材派遣事業 Recruit Global Staffing B.V. HRテクノロジ― 事業 RGF OHR USA, Inc. その他海外派遣グループ会社 Indeed,Inc.
  6. リクルートテクノロジーズの組織構成について リクルートテクノロジーズは5つの統括本部で構成されています。 各統括本部の下に、さらに部・グループが続きます。 企画統括本部 ITマネジメント本部 リクルートテクノロジーズ ITマーケティング本部 8 ITソリューション本部 経営企画、広報、経理/人事/総務ほか

    いわゆるコーポレートスタッフ 事業と一体となり、開発ディレクションやエンハ ンス、大規模開発プロジェクトの推進を担う UXデザイン、ウェブマーケティング基盤の開発、 サービスデザインの検討から実装を担う サービスプロダクトの開発、サービスインフラや AP基盤の開発、運用を担う ITエンジニアリング本部 リクルートグループ共通の社内システムやインフ ラ等のソリューション企画・開発・運用を担う
  7. (C) Recruit Technologies Co., Ltd. All rights reserved. 12 AIとは何か

    https://www.gartner.com/newsroom/id/3784363 Deep Learning 自動運転 認知コンピューティング ドローン 会話型UI 機械学習 企業内で情報の管理を容易 にする仕組み スマートダスト(超小型の センサーによって構築され るソリューション) スマートロボット スマートオフィス 汎用人工知能 AI AIという単語にかなり色々なものを組み込んで語られている Gartner Identifies Three Megatrends That Will Drive Digital Business Into the Next Decade
  8. (C) Recruit Technologies Co., Ltd. All rights reserved. 13 新興技術ハイプサイクル

    ハイプサ イクルの 概念(出 典: Gartner) AIに関わる単語は「過度な期待」のピーク 新興技術ハイプサイクル2017年版(出典:Gartner) Note: PaaS = platform as a service; UAVs = unmanned aerial vehicles Source: Gartner (July 2017)
  9. (C) Recruit Technologies Co., Ltd. All rights reserved. 14 恐怖のAI導入

    わが社もいち早く AIを導入するのだ 良いですね!! AIで「こんなこと分かっちゃいました」 とかリリース出したいです 話題のイケテルデータ サイエンティストに相 談してみましょう 社長 部長 現場担当
  10. (C) Recruit Technologies Co., Ltd. All rights reserved. 15 何がいけないのか①

    ビジネス目的がなく、「AIの導入」が 目的になってしまっている わが社もいち早く AIを導入するのだ AIがパフォーマンスする領域を明 確にし、そこでの成果を目的とし て定義する必要がある
  11. (C) Recruit Technologies Co., Ltd. All rights reserved. 16 AIがパフォーマンスしやすい分野

    7割ぐらい当たっていてくれると仕事が軽減される。というような領域にAIは非常に マッチする 「1つとして同じ形のきゅうりはありません。形や大 きさ、表面のツヤ、曲がり具合、太さの均一さなど 、確認するポイントが非常に多く、また、選別する 等級を間違うとクレームにつながることもあるため 、忙しいときだけバイトを雇って手伝ってもらう、と いった手段も取りにくい。何より問題なのが、この 作業に時間をかけても、別にきゅうりの収穫量や 品質が上がるわけではないということ。なるべく時 間を減らしたい作業なのです」 きゅうりの選別 きゅうりの選別 静岡県できゅうり農家を営む小池誠さんだ。家族経営 で年間約21万本(63トン)のきゅうりを出荷自動車部 品メーカーのソフトウェアエンジニアだったこともあり、 すぐにTensorFlowのチュートリアルを流用する形でシス テムを組み上げた 出典:Itmediaエンタープライズ http://www.itmedia.co.jp/enterprise/articles/1803/12/news035.html データサイエンスのスペシャリストではない人がオープンソース のライブラリを用いて画像解析を実装。8割ほどの精度で仕 分けスピード40%向上
  12. (C) Recruit Technologies Co., Ltd. All rights reserved. 17 何がいけないのか②

    良いですね!! AIで「こんなこと分かっちゃいまし た」とかリリース出したいです 構造を明確にする必要があるも のには、データサイエンスの分野 から適切なものを選ぶ DeepLearningに代表されるような機 械学習の手法は因果関係は説明で きない
  13. (C) Recruit Technologies Co., Ltd. All rights reserved. 18 データサイエンス

    機械学習 機械学習 統計モデリング 統計モデリング 予測 予測 推測 推測 Outcomeを正しく当てる 解釈よりも予測精度を重視(因果不明、説 明はできない 原因の究明(構造化) 仮説検定は典型例 ドメイン知識は必要ない(エキスパートは必要) データからルールを作る ルールを使ってデータから予測する (AIエンジニアリング) 出典: 出典: 出典: 出典:What is deep learning? Why is this a growing trend in machine learning? Why not use SVMs? fig: Face Recognition using Deep Networks ドメイン知識は必要 ドメイン知識でルールを作る ルールを使ってデータを説明する 説明モデル/因果モデル(狭義のデータサイエンス) 介入が難しい (限界) 介入が難しい (限界) 介入した時の 影響が分かる 介入した時の 影響が分かる 階層ベイズ
  14. (C) Recruit Technologies Co., Ltd. All rights reserved. 19 AIにドメイン知識は必要ない?

    認識率98.66%?!たった2ヶ月 で手書き日本語のOCRを開発し たノンジャパニーズ 実際に開発に携わったのは、全部で4 人。メンバーはなんと日本語の読み書 きはほとんどできない。 実は一番大変だった作業は『日本語の 意味理解』などではなく、『日本語文 字情報を集めること』 日本人スタッフの助けが必要だったの は実際ここだけ。 出典:Ledge.ai https://ledge.ai/reactive_int/ 正しいラベルのついた、 質の高いデータがあればよい
  15. (C) Recruit Technologies Co., Ltd. All rights reserved. 20 事例_とある予測モデルの結果

    Model CART Quest NN CHAID Decision List C5.0 Logit Discriminant SVM Naive Bayes Accuracy 72.70% 71.06% 30.97% 72.70% 28.04% 72.70% 30.26% 65.47% 63.47% 29.74% Precision(1) 71.42% 74.19% 73.28% 71.42% 81.12% 71.42% 68.94% 77.07% 65.85% 69.08% Recall(1) 92.90% 81.38% 37.31% 92.90% 45.47% 92.90% 34.45% 62.64% 84.67% 32.89% F_measure(1) 0.81 0.78 0.49 0.81 0.58 0.81 0.46 0.69 0.74 0.45 AUC 0.67 0.68 0.55 0.75 0.65 0.67 0.53 0.75 0.60 0.53 GINI 0.33 0.36 0.10 0.50 0.30 0.33 0.07 0.49 0.20 0.05 Model CART Quest NN CHAID Decision List C5.0 Logit Discriminant SVM Naive Bayes Accuracy 97.50% 97.36% 42.16% 97.66% 62.33% 97.86% 47.99% 97.38% 62.36% 37.86% Precision(1) 99.07% 97.87% 41.93% 99.33% 99.95% 99.34% 47.50% 98.33% 100.00% 41.01% Recall(1) 96.98% 97.90% 98.22% 96.99% 91.63% 97.29% 97.23% 97.49% 62.36% 89.53% F_measure(1) 0.98 0.98 0.59 0.98 0.96 0.98 0.64 0.98 0.77 0.56 AUC 0.97 0.97 0.59 1.00 1.00 1.00 0.63 1.00 0.99 0.65 GINI 0.94 0.94 0.18 1.00 0.99 0.99 0.26 1.00 0.99 0.30 データセットA データセットB 説明力の高い特徴量が組み込めるとアルゴリズム間の差もなくなる つまり、質の高い仮説を立てることが予測精度を向上するうえで非常に重要である 2値判別の予測を複数のアルゴリズムで行ったもの 特徴量セットをかえただけで、全般的に予測精度が向上
  16. (C) Recruit Technologies Co., Ltd. All rights reserved. 21 機械学習の抱えるリスク(1/2)

    米国の科学、宇宙、テクノロジーへの投資は 首つり自殺と相関がある?! http://www.tylervigen.com/spurious-correlations
  17. (C) Recruit Technologies Co., Ltd. All rights reserved. 22 機械学習の抱えるリスク(2/2)

    問題点の認識 本来は無関係だが、偶然似てしまう事がある A B B B B C 因果関係 因果関係 逆の因果関係 単なる 偶然 単なる 偶然
  18. (C) Recruit Technologies Co., Ltd. All rights reserved. 23 何がいけないのか③

    話題のイケテルデータ サイエンティストに相 談してみましょう データサイエンティストだけ では解決しない AIをビジネス活用するのであ れば、関係部門を洗い出し体 制を確保。 それぞれの役割を定義する必 要がある。
  19. (C) Recruit Technologies Co., Ltd. All rights reserved. 24 データサイエンティストだけでは実現できない

    引用 D. Sculleyら Hidden Technical Debt in Machine Learning Systems (nips 2015) http://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdf 機械学習コードは現実のシステムのほんの小さな部分でしかない システムに必要とされるインフラはとても巨大で複雑 守備範囲が広く、全体を解決しないと本当に使えるようにはならない
  20. (C) Recruit Technologies Co., Ltd. All rights reserved. 25 RTC(データサイエンス部門)

    とあるプロジェクトの体制図 事業部(マーケティング企画) 分析 モデル作成 分析者 (GM) DSG GM CRMG 施策実施 会議運営など メンバー 施策コスト設計 リーダー プロジェクト 管理 DSG 既存ナレッジ共有 分析者(DS部門) 全社システム部門 (GM) 開発 エンジニア 開発 (GM) システムG 基盤管理 事業部システム部門 データ連携 部門 システムG 連携担当 IDPBDSG JOB化 予測結果連携 調整 定例MTG JOB管理 JOB実行 情報連携 調整 調整 資材受け渡し 資材受け渡し 要件整理 スケジュー ル策定 効果試算 ・・・ 連携 JOB化 複数組織・機能をまたがる体制でプロジェクトを推進
  21. (C) Recruit Technologies Co., Ltd. All rights reserved. 27 ビジネス目的

    背景 ビジネス目標 ビジネス成功の定 義 状況の評価 人員 データ リスク リスクの代替プラン データ解析の目標の決 定 ゴール定義 成功定義 プロジェクト計画の策定 プロジェクト計画( スケジュール策定) 評価ツールと技術 初期データの収集 テーブル選定 カラム選定 項目の過不足 データ結合の可否 欠損値処理状況 の把握 データの記述 データサイズ データの種類 コーディングスキーマ (CD定義) データの探索 データ構造の仮説 と検証 有効な特徴量の 仮説と検証 探索結果を受け た目標の見直し データ品質の検証 欠損値 データエラー コーディング不整合 不良メタデータ データの選択 項目の選択(行) 属性、またはその 特性の選択 データのクリーニング レポート データの作成 レポート データの結合 データのフォーマッ ト モデリング手法 の選択 テスト方法の データの記述レ ポート データの探索 データ探索レポ ート データ品質の検証 データ品質レポ ート 結果の評価 モデルの更新 次期STEPの検 討 開発計画 モニタリングと メンテナンス計 画 最終レポートの作成 プロジェクトレビュー データ品質レポート プロジェクトの推進 ビジネス の理解 データ の理解 データ の準備 モデリ ング 評価 展開 基本的にCRISP-DM(CRoss-Industry Standard Process for Data Mining)の方法論に即 してプロジェクトを推進
  22. (C) Recruit Technologies Co., Ltd. All rights reserved. 28 ビジネス課題の理解

    (C) Recruit Technologies Co., Ltd. All rights reserved. 28 ビジネス 課題 事業戦略資料 イシューツリー 担当者ヒアリング ##幅広いレイヤーからの 情報収集 調査(実際に使ってみる) 外部・内部データ調査( 収集できるFact) ##事業に見えている景色 は正しいのか? 事業視点 カスタマ視点 何を実現したいのか(何 (誰)がどうなっていれ ばいいのか) 分析結果を具体的に何に 使いたいのか ##出口の明確化 ビジネス視点 何を予測、分類、最適化(最 大化最小化)するのか いつまでに何をアウトプットすべ きか どのぐらいの精度が求めら れる(許容される)のか ##ターゲットとQCDの明確化 分析視点 分析 テーマ ※カスタマではなく、クライアントになる場合もあるし、課題によって可変 ビジネス課題のフェーズでは複数の視点でバランスよく課題を理解することが重要 特に「カスタマ視点」と「ビジネス視点」が弱くなりがちなので意識して取り組む ビジネス の理解
  23. (C) Recruit Technologies Co., Ltd. All rights reserved. 29 プロジェクト設定

    分析 モデル作成 分析者 施策実施 会議運営など メンバー 施策コスト設計 リーダー 既存ナレッジ共有 分析者(DS部門) 定例MTG 資材受け渡し 要件整理 スケジュー ル策定 効果試算 ・・・ 最初の課題設定は特に重要 ビジネス担当者を中心にプロジェクト設計を進めた ビジネス の理解 何を実現したいか 世界観のような定性的なところから、KPIまで いつまでに実現したいか 短期的、中長期的マイルストンの定義 必要な機能(体制)は何か 実現にあたって何が必要かを整理するとともに、社内調整を 進める ポイント ポイント
  24. (C) Recruit Technologies Co., Ltd. All rights reserved. 30 データの準備の際のポイント

    データ の準備 実現にあたって必要なデータはどこにあるか 場合によっては新しく作らなくてはいけないこともある 分析環境の確保とデータの連携調整 ポイント ポイント これまでデータ活用の実績が無い場合やテーマの新規性が高い場合、ここで意外と 時間を取られることが多い。実は今回のプロジェクトもメインとなるデータが蓄積さ れておらず、その収集(マート化)から開始した。
  25. (C) Recruit Technologies Co., Ltd. All rights reserved. 31 データの理解の際のポイント

    データ の理解 既存のナレッジの組み込み ビジネス側で定義したセグメントなどの情報 これまでのデータ解析プロジェクトや施策における既知のナレ ッジ ビジネス担当者(ナレッジを保有している人)との結果の共有 と仮説の構築 ポイント ポイント ただ、データを整備し基礎数値を見ていくだけでなく、 アウトプットを見ながら、なぜそのような結果が出ているのかを議論し、当該プロジェ クトにおける予測モデル構築の仮説を立てていくことが重要。
  26. (C) Recruit Technologies Co., Ltd. All rights reserved. 32 モデリング_実現のための手順

    モデ リング 予測モデル 最適化 ID×投下コスト毎の行使確 率 施策単位で対象者ごとの投下コ ストを定義 施策単位で対象者の優先順位を 定義 アウト プット コスト 選定 セグメント 分類 予測 対象者 選定 どのような分析STEPでビジネス目的を実現するアウトプットを出すかを設計 ※施策ごとにビジネス目的がある 大きく2つの手順で、ID単位のコスト差配を実現
  27. (C) Recruit Technologies Co., Ltd. All rights reserved. 33 予測モデル構築にあたっての課題と対応

    モデ リング 予測品質 演算負荷 説明力 複数の手法を用いた精度比較 JOB設計 正則化 異常値検出アルゴリズム 構造モデルの組み込み 交絡因子 予測モデル構築にあたって、出てくる課題に対し対応の方法を見立て、実施 etc
  28. (C) Recruit Technologies Co., Ltd. All rights reserved. 34 正則化による次元削減

    次元数の削減により精度の向上と処理時間の短縮を実現 精度:モデルの過適合を防ぐ 処理時間:演算時間の短縮 モデ リング 次元 サンプル 1 0 0 1 ݕ ݔ் ߱ ݔ 正則化
  29. (C) Recruit Technologies Co., Ltd. All rights reserved. 35 モデル評価

    学習期間 学習期間 検証期間/FS結果 検証期間/FS結果 複数の施策をもとに予測モデルを作成 CV有無 特徴量 投 下 CV有無 特徴量 投 下 行使有無 特徴量 投 下 CV有無 特徴量 投 下 CV有無 特徴量 投 下 CV有無 特徴量 投 下 CV有無 特徴量 投 下 予測モデルを適用 実績 実績 予測 予測 RANK RANK ~10% 11~20% 21~30% 31~40% 41~50% 50~60% 61~70% 71~80% 81~90% 91~100% 行使予測 スコア上 位から順 に10等分 行使予測 スコア上 位から順 に10等分 27.7% 26.0% 15.8% 14.6% 12.2% 10.7% 10.2% 8.1% 7.4% 6.2% 6.6% 5.2% 3.4% 4.7% 4.9% 4.2% 3.1% 3.7% 2.2% 2.2% 比較 高 CV 確 率 低 0% 5% 10% 15% 20% 25% 30% 1 2 3 4 5 6 7 8 9 10 RANK RANK RANK RANK 01_低LTV 実績行使率 予測スコア行使率 セグメントA 一般的なモデルの評価指標のみでなく、利用に即した評価も実施 評価
  30. (C) Recruit Technologies Co., Ltd. All rights reserved. 36 構造モデルを用いたチューニング

    訪問の有無( y i1 ) CVの有無( y i2 ) 第一階層 サイト訪問の意思決定 第一階層 サイト訪問の意思決定 無 有 第二階層 CVの意思決定 第二階層 CVの意思決定 無 有 ܷ௜௩ ൌ ܸ௜௩ ൅ ߝ௜௩ PV効用 ܷ௜௥ ൌ ܸ௜௥ ൅ ߝ௜௥ CV効用 モデ リング 構造モデル チューニングに利用 ターゲットのアクションのみでなくプレアクションも評価
  31. (C) Recruit Technologies Co., Ltd. All rights reserved. 37 構造モデルを用いたチューニング

    V r θ γi y i1 , y i2 Z i X i ネステッドロジット 事前分布 IW(逆ウィッシャート) 共役 共役 非共役 多変量正規回帰 推定アルゴリズム カスタマ毎に事前分布が異なると考え、 パラメータに階層構造を考えた階層ベイズを適用 チューニングに利用 ビジネス目的を鑑み、介入の影響の把握など多角的な観点で構造を把握 モデ リング 構造モデル
  32. (C) Recruit Technologies Co., Ltd. All rights reserved. 38 チューニングの実施

    AUC:予測モデルの精度を図る指標の一つ。 0~1の間を取り、この値が高いほど高精度。 ROC曲線(横軸に偽陽性(行使と予測して行使しなかった) 、縦軸に真陽性(行使と予測して実際に行使した)をとった グラフ)の右下側の面積を計算したもの AUC 既存 Data03 Data03_2 Data04 Data05 Data05_2 Data06 Data06_2 Data07 Data07_02 Seg01 0.7455163 0.73170 0.73170 0.73170 0.74772 0.74764 0.74636 0.74772 0.73626 0.73699 Seg02 0.6940391 0.71757 0.71757 0.71757 0.71447 0.71490 0.72549 0.72626 0.71859 0.71786 Seg03 0.7643843 0.79152 0.79152 0.79152 0.80147 0.80106 0.80272 0.79749 0.79304 0.78887 既存モデルよりも改善 機械学習だけでなく、統計的な構造モデルの組み込みにより、 高精度な予測モデルを実現 モデ リング
  33. (C) Recruit Technologies Co., Ltd. All rights reserved. 39 最適化に向けてのデータ作成

    最適化のアルゴリズム作成に必要な情報を整理、 データ項目として作成し、アルゴリズムの構築を開始 IDごとに投下コストと成果を予測、 施策の際の投下コストの決定に用いる モデ リング
  34. (C) Recruit Technologies Co., Ltd. All rights reserved. 40 最適化の評価

    項目 項目 項目 項目 既存配分 既存配分 既存配分 既存配分 新規ロジック 新規ロジック 新規ロジック 新規ロジック コスト 売上 収益 ROAS アクション数 予測確率 セグメント指標 分析的な制度や品質だけでなく、 ビジネス目的に合わせた指標を設定・評価 実際のデータにモデルを適用し、 複数の指標がそれぞれどう変化するかシミュレーション 実際に代表的な施策をターゲットとし、 複数(数十パタン)のアルゴリズムを作成 評価
  35. (C) Recruit Technologies Co., Ltd. All rights reserved. 41 効果測定

    A 既存 B 新規 モデル CTL群 CTL群 投下群 投下群 手なりで行った場合のCV率 (広告なしでのCV確率) CV率 手なりで行った場合のCV率 (広告なしでのCV確率) CV率 アドオン 比較 アドオン 比較 アドオン 比較 アドオン 比較 評価 それぞれ対象セグメントごとに、広告なしでの行使率との差(アドオン)を多角的な観点で比 較また、既存ロジックとの比較も行う事で、差配の経済効果も測定 アドオン 比較 アドオン 比較
  36. (C) Recruit Technologies Co., Ltd. All rights reserved. 42 RTC(データサイエンス部門)

    体制図 事業部(マーケティング企画) 分析 モデル作成 分析者 (GM) DSG GM CRMG 施策実施 会議運営など メンバー 施策コスト設計 リーダー プロジェクト 管理 DSG 既存ナレッジ共有 分析者(DS部門) 全社システム部門 (GM) 開発 エンジニア 開発 (GM) システムG 基盤管理 事業部システム部門 データ連携 部門 システムG 連携担当 IDPBDSG JOB化 予測結果連携 調整 定例MTG JOB管理 JOB実行 情報連携 調整 調整 資材受け渡し 資材受け渡し 要件整理 スケジュー ル策定 効果試算 ・・・ 連携 JOB化 複数組織・機能をまたがる体制でプロジェクトを推進 展開
  37. (C) Recruit Technologies Co., Ltd. All rights reserved. 43 展開に際してのポイント

    展開 実装環境の確保とサービスレベルの定義 どの環境でどのJOBを実装するか データの連携はどのように行うか どの頻度で実行するか 障害の定義とコンテンジェンシープランの策定 ポイント ポイント ビジネス側の要望をシステム課題に落とし、活用を実現 既存のデータ活用実績がある場合は、それをベースの例とするとスムーズに進めら れる。
  38. (C) Recruit Technologies Co., Ltd. All rights reserved. 44 現在の実装フロー

    工程 データ ソース モデル用 データ マート スコア リング 最適化 施策 CTL群 評価 .. 実施群 アドオン 比較 チューニング 詳細分析 現在、複数のFSとチューニングを繰り返すフローを実現 展開 日次バッチ 日次バッチ 施策時 バッチ 施策時 バッチ 施策時 バッチ 施策時 対応