Upgrade to Pro — share decks privately, control downloads, hide ads and more …

顧客行動を理解するための機械学習 “Forecast Flow”ハンズオン・セミナー資料/Fo...

顧客行動を理解するための機械学習 “Forecast Flow”ハンズオン・セミナー資料/Forecast Flow Seminar 

株式会社GRI

January 25, 2019
Tweet

More Decks by 株式会社GRI

Other Decks in Technology

Transcript

  1. ©GRI Inc. CONFIDENTIAL Forecast Flowでユーザが行うこと • 問題設定 • 何を予測? •

    どんな知見を得たい? • 入力データ • 訓練 • テスト • 予測推論 • 設定ファイル • 機械に解かせる問題 のデータ上の設定を 教える • 精度検証 • 良い精度? • 解釈レポート • 効く特徴量? • どんな風に? • 施策の立案と実施 準備 解釈 Forecast Flow 機械学習 予測モデル
  2. ©GRI Inc. CONFIDENTIAL 結局、FFって何がおいしいの? 入力データの準備 特徴量とパラメタの 高速最適組み合わせ (簡単に数百万の組み合わせ) 解釈レポート 施策立案に集中

    Kaggleランカーにお馴染みのアルゴリズムをベースに 最適化アルゴリズムと解釈レポートをGRI流にアレンジ 高速 分かりやすい 汎用的
  3. ©GRI Inc. CONFIDENTIAL モニター育成事例 (モニター会員育成) 調査会社/ 広告代理店 会員 メディア企業 回答者

    モニター群 (791万) 謝礼 配信と回収 アンケート 会員提供(メディア会社内部での調査用) モニタス社
  4. ©GRI Inc. CONFIDENTIAL モニター育成事例 (問題設定:良いリサーチ集計とは?) Aランク 12日~ Bランク 4~11日 Cランク

    1~3日 良いリサーチ集計とは 一般的な回答者から均質的に収集 よく回答するモニターの規定 28日間の回答日数でランク作成 前期28日間ランクから当期の変動予測 Bランクを育成したい
  5. ©GRI Inc. CONFIDENTIAL モニター育成事例(施策立案に使える入力データを準備) モニターID ランク変動 年齢 前期回答日数 前期トップメディア 001

    UP 35 3 A社 002 STAY 42 2 A社 003 DOWN 25 1 B社 例: 前期Cランクモニターのデータセット 正解 ラベル IDラベル … 特徴量 予測対象 件数 … 行動 デモグラ ※ランクごとに予測モデルを分けているのは、解釈をしやすくするため ※入力データは2種類に分割(重複しないデータ) ・訓練用(Train): 予測モデル作成に用いる ・テスト用(Test): 精度検証用 デリバーズ マスタ ポイント 付与履歴 メディア マスタ デリバーズ スペシャル 属性1 デリバーズ スペシャル 属性1 デリバーズ スペシャル 属性1 デリバーズ スペシャル 属性1 デリバーズ スペシャル 属性5 J J J F 入力データ(データセットの作成手順)
  6. ©GRI Inc. CONFIDENTIAL 問題によって、色んな入力データの作り方があります • 入力データは3種類の列で構成 • 予測対象のID • 正解ラベル

    • 特徴量 入力データ 予測対象 ID 正解 ラベル 特徴量 Train(訓練用データ) • • • Test(精度検証用データ) • • • Pred(推論用データ) • • 給料トランザ クション 社員マスタ J 社員の転職予測の入力データの作成例 特徴量 データフロー (データ・パイプライン) 入力データ(訓練、精度検証用)
  7. ©GRI Inc. CONFIDENTIAL いきなり上手く行くとは限らないので ◼何回も特徴量を作り直す作業を繰り返す(特徴量エンジニアリング) • 生データから機械学習用のデータセットを作る • 反応した特徴量が分かれば、打ち手に繋がりそうなものを選定する •

    分からなければ、とりあえず入れてみて、ドメイン知識を持った人とデータセットを作り直す • Python/Excel/Alteryx/Tableau Prep/SQLなどで自由に作る 測定数値(メジャ) 時間(年月日) 人/組織/会社 商品/サービス/機能 地域 メジャに対する典型的な最小の切り口 (ディメンション) 210 その他のよくある最小ディメンション • デバイス • 流入経路 • 初回フラグ • 理由
  8. ©GRI Inc. CONFIDENTIAL 売上予測事例 (ブライダル用カタログギフト) 予測対象 件数 正解 ラベル ID

    ラベル 特徴量 訓練用、 精度検証用の入力データ … 推論用の入力データ 推論対象 件数 … 年月日 売上金額 前年同日売上金額 月フラグ 曜日フラグ 祝日フラグ 連休フラグ 六曜 2018/10/1 60000 30000 10 3 1 大安 2018/10/2 150000 12000 10 4 仏滅 2018/10/1 30000 30000 10 3 1 大安 販売チャネル、商品区分ごと にデータを作成 年月日 前年同日売上金額 月フラグ 曜日フラグ 祝日フラグ 連休フラグ 六曜 2019/10/1 60000 10 6 友引 2019/10/2 150000 10 7 大安 2019/10/1 30000 10 6 友引
  9. ©GRI Inc. CONFIDENTIAL レコメンド事例(おすすめアニメAPI) 今期アニメ 次期アニメ アンケートデータからおすすめアニメのレコメンド(クラス分類) Aさん Bさん Cさん

    … 視聴意向 視聴実績 https://www.f-ism.net/ebix_news9/index.html 今見ているアニメを教えてくれたら、 AIがあなたにおすすめの次期アニメを レコメンドするシステム 視聴実績と視聴意向の関係性
  10. ©GRI Inc. CONFIDENTIAL レコメンド事例(アンケートから入力データを作成) 趣味嗜好(今期視聴アニメ) … デモグラ モニターID 次期視聴意向アニメ 性別

    年齢 あかねさす少女 ラディアン キャプテン翼 001けものフレンズ2 男性 17 1 0 1 001かぐや様は告らせたい 男性 17 1 0 1 002上野さんは不器用 女性 32 0 1 1 正解ラベル IDラベル … 特徴量 予測モデル アニメ おすすめAPI 好みの推論システム (パーソナライズ・レコメンド) 予測対象 件数 ※推論のAPI化については、個別相談(2019年4月以降、自動デプロイ機能を追加予定) 推論対象件数
  11. ©GRI Inc. CONFIDENTIAL Compute Engine ・・・ Container Registry train Cloud

    Storage pred result 学習データ 予測データ 出力データ 設定情報 model 学習済モデル Compute Engine Cloud SQL 位置情報 気象情報 商品コード ・・・ HTTP pred 検証データ ※開発中 入力画面 入出力データの格納 スケーラブルな 実行環境 共通 テーブル 各種アルゴリズムを 格納したコンテナ 解釈用 ダッシュボード ※都度追加 予測分析実行システム 予測分析解釈システム ※開発中 Forecast Flowのアーキテクチュア
  12. ©GRI Inc. CONFIDENTIAL Forecast Flowの価格体系 データセットをForecast Flowへ投入し、機械学習による自動予測実行、 および解釈用レポートデータの出力までの範囲 • 予測対象件数ベースの月額従量課金(何回予測を実行してもOK)

    • 最小予測対象件数:10,000件 • 金額の算定式:Log10 (予測対象件数 / 1000)*10000 ※予測対象件数は、訓練データと精度検証データが含まれます (推論対象件数は従量課金の対象に含みません。APIサービス開始時に変更予定)
  13. ©GRI Inc. CONFIDENTIAL サポート ◼運用保守サポート –予測精度向上のための特徴量エンジニアリングのアドバイス –データ・クレンジング方法のアドバイス –費用 : 1万円/時間で最小契約単位は10時間/月

    ◼予測モデル構築サポート –予測モデルの構築(戦略的に何を予測すべきかの選定) –利用可能データの初期分析(十分なデータ量か、データの整然さの確認) –データ・クレンジング(各種データを分析に使えるようにきれいにする) –データ整形(各種データを分析に使えるデータ構造に変換) –予測結果の解釈(どのような知見が得られたかのまとめ、および特徴量の再設 計) –費用: 都度見積もり
  14. ©GRI Inc. CONFIDENTIAL 評価用に2月末まで無料で使えるアカウント ◼本セミナーに参加された方は、現在のお知らせいただいたGoogleアカウ ントで2019年2月末まで無償利用可能 ◼予測対象件数の上限: 10,000 –何度でも予測実行可能 –予測対象IDの使いまわしはNG

    ◼使い勝手のフィードバックをお願いします –Slack招待アドレス(運営からのレスは弱いですが) – https://join.slack.com/t/forecastflowusers/shared_invite/enQtNTMwMzMxMDY1NTUzLWUzNWVkNWRmMzM3ODNhYjk1ZGQzYTcxMzE5Y mNkZGQ2OGE5M2YwODY4MTdhNWI4MmZiZDMzYTgwNzBjYjVkYzI ◼2019年3月中旬ごろに事例共有会の予定 –共有したい方がいる場合
  15. ©GRI Inc. CONFIDENTIAL Forecast Flowを使うと欲しくなるもの 利用可能なデータ 素敵なデータ基盤/可視化基盤 分析に関する社内教育 データに基づいた施策立案の定着 分析の分かりあえる人たち

    (外部でも) それ以外の便利システム (時系列予測、自然言語処理、グラフ 理論、最適化) この後の個別相談会へ 施策立案用アナリティクス コミュニティ まずはslackから 気軽に 今後の開発に期待 • スーパーのID-POS利用: グリーンスタンプ様 • エンタメに関する調査データ: Gzブレイン様 • その他のデータ販売社様も募集 投資(この後の個別相談会)
  16. ©GRI Inc. GRI WAY-事業企画から始めよう データ 食材 解析技術 料理法 企画! メニュー

    ≒ ≒ ≒ BIG DATAもAI(人工知能)も企画によって活かされる + = リーズナブルで美味しい メニューを考える 調理器具とレシピを選ぶ 食材を集める 下ごしらえする
  17. ©GRI Inc. 会社概要 会社名 株式会社GRI (GRI Inc.) http://gri.jp 所在地 〒105-0011

    東京都港区芝公園1-3-8 苔香園ビル5F 設立 2009年2月 資本金 4,600万円 代表者 代表取締役CEO 上野 勉 代表取締役COO 利齋 公晴 社員数 社員 18名、グループ会社含めて 計20名 事業内容 1.BIG DATAを利活用した事業開発に関わる支援 2.BIG DATAの収集および、BIG DATAの解析 3.BIG DATAの分析基盤(クラウド)の構築、見える化システムの提供 4.セルフ型ネットリサーチサービスの提供 5.AI型マッチングエンジンの開発 6.自然言語処理エンジンの導入、AI型チャットサービスの開発 7.Eコマースサイトの構築、パーソナライズエンジンの開発 8.データサイエンスまたは、人口知能(AI)分野における研究・研修・情報発信など 関連会社 株式会社アートダイジェスト(出版・編集、コンテンツ制作) 事業提携先 カルチュア・コンビニエンス・クラブ株式会社 株式会社日本リサーチセンター
  18. ©GRI Inc. 分析に関する取り組み 分析サービス ・データ解析 ・AIシステム開発 ・可視化ダッシュボード構築 ・Tableau/PowerBI/Grafana/JS ・データ整形/クレンジング ・Python/TableauPrep/Talend

    SPSS Modeler/Alteryx ・分析基盤構築 ・分析基盤アーキテクト ・分析業務コンサルテーション ・データドリブンカルチャ醸成 ・分析官教育 ・保守運用 適応手法 ・機械学習 ・クラスタリング ・コミュニティ特定 ・画像解析 ・時系列解析 ・逐次オンライン分析 ・自然言語処理 ・チャットボット ・最適化(混合整数計画法) ・クローリング ・スクレーピング 対象データ ・会員行動データ ・ID-POS ・Webログ ・広告関連データ ・TV視聴 ・Webログ ・会計データ ・財務/管理会計 ・生産物流データ ・人事管理データ ・生体信号データ ・IoTセンサー ・地理情報データ