Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SQLで簡単に機械学習を実演_マーケティングデータの分析手法をお見せいたします_.pdf

 SQLで簡単に機械学習を実演_マーケティングデータの分析手法をお見せいたします_.pdf

jtakai

May 14, 2019
Tweet

More Decks by jtakai

Other Decks in Technology

Transcript

  1. © Copyright iDEA Consulting Inc. 2019 2019年05月14日 イデア・コンサルティング株式会社 矢原 荘悟

    Oracle Analytics Cloud + Autonomous DWHを活用した マーケティング業務におけるデータ分析 Autonomous選手権 第3回 〜 データ可視化ツール × 自律型DBでデータ分析 〜
  2. © Copyright iDEA Consulting Inc. 2019 1-1. 弊社のご紹介  商号

    イデア・コンサルティング株式会社sulting Inc,)  設立 2010年6月1日 (旧:ダイヤモンド富士ソフト株式会社)  本社所在地 東京都千代田区神田松永町19 秋葉原ビルディング6F  社員数 約140名  資本系列 富士ソフト株式会社  事業内容 ERPの導入コンサル〜開発・保守、受託開発 データ分析の高度化をご支援  取扱プロダクト Oracle E-Business Suite (ERP) JD Edwards Enterprise One (ERP) Oracle ERP Cloud Oracle Data Integrator (ODI) OracleBIEE、Oracle Analytics Cloud、DVD DBCS、ADW、APEX、SOA Cloud Oracle Hyperion Planning、Essbase Oracle PBCS、Oracle CX Cloud PBCS EBS <会社沿革> 1999年 4月 ダイヤモンドコンピューターサービス㈱(三菱総研DCS㈱) と富士ソフトABC㈱(現 富士ソフト㈱)との合弁により 「ダイヤモンド富士ソフト㈱」設立 2010年 6月 Oracleソリューション部を独立 イデア・コンサルティング株式会社を設立 2018年 7月 Oracle Award 2018 を受賞いたしました!! 2 JDE BI URL: http://www.ideacns.co.jp 【お問い合わせ先】 mail: [email protected]
  3. © Copyright iDEA Consulting Inc. 2019 2-1. マーケティング業務とデータ分析 マーケティング業務においてデータ分析は重要な構成要素となっています。 4

    1.市場分析 2.戦略立案 3.施策立案 デ ー タ 分 析 例 赤字:データマイニング系 ・市場把握 ・ニーズ調査 ・アンケート ・ターゲット顧客 ・ポジショニング ・サービス/商品企画 ・体制、役割分担 ・スケジュール ・アクション ・プロモーション企画 ・必要なツール ・データ活用方法 ・アクション実行 ・広告、宣伝 ・WEBサイト構築 ・イベント、セミナー ・施策評価 ・KPI測定 ・アンケート ・アンケート分析 ★ABC分析 ・クラスタ分析 ・デシル分析 ・RFM分析 ・優良顧客抽出 ★アソシエーション分析 ・販売予測 ★マップマーケティング ・PV ・来場者数 ・アンケート結果 ・プロモーション受動率 ・クリック率 ・顧客満足度 ・クレーム数 ・販売分析 4.施策実行 5.分析・改善 <マーケティング業務のステップ> ★:本日ご紹介 主 な タ ス ク 「顧客に支持され続けるための施策実施、売れる仕組みを作る」 マーケティングとは?
  4. © Copyright iDEA Consulting Inc. 2019 2-2. 今回の構成イメージ 今回の構成イメージは、以下の通りです。 5

    ADW OAC EE OML Notebook DV BI DWH Oracle Cloud セルフサービスBI 利用者 定型レポート 利用者 DVD Dashboard Desktop Developer Client Tool (Administration Tool) 機械学習 利用者 今回使用 (ADW) 機械学習 今回使用 (OAC) OAA ADW : Autonomous Data Warehouse Cloud OML : Oracle Machine Learning OAA : Oracle Advanced Analytics OAC EE: Oracle Analytics Cloud Enterprise Edition DVD : Data Visualization Desktop BI : Business Intelligence (エンタープライズBI) DV : Data Visualization (セルフサービスBI) <環境情報/ver> Region:us-ashburn-1 ADW : April 2019 OAC : 105.2.0-307 Developer Client Tool : 105.2.0-307
  5. © Copyright iDEA Consulting Inc. 2019 3-1. OML Notebook 概要

    Oracle Machine Learning についてご紹介します。 7 高度なSQLユーザー向けに設計されたノートブック・スタイルのアプリ ケーションを提供し、洗練されたアナリティクスとデータ・モデルに基づい てレポートを開発、文書化、共有、自動化するインタラクティブなデー タ・アナリティクスを提供します ① WebベースのSQLツール、ブラウザからすぐに実行可能 ② 共有されたノートブックやテンプレート、権限、グラフ表示、ジョブスケジューラなどへの簡単アクセス ③ SQLやPL/SQLのスクリプト言語をサポート ④ Oracle Advanced Analyticsの機械学習アルゴリズムがデータベース内に含まれており、ADWCで機械学習メソドロジーをビ ルド、評価、デプロイ可能 Oracle Machine Learning (OML) とは? Oracle Machine Learning (OML)でできる事 インタラクティブに機械学習を実行するインターフェース オラクルはApache Zeppelinを組み込んでいる Workspace -> Project -> Notebook の順で作成 OML Notebook とは? ADW DV BI DVD
  6. © Copyright iDEA Consulting Inc. 2019 3-2. OML Notebook テンプレート

    Oracle Machine Learning Notebook のテンプレートを紹介します。 8 異常検知 相関ルール 特徴の抽出 分類 クラスタリング 最初のノートブック 回帰 統計ファンクション ADW DV BI DVD
  7. © Copyright iDEA Consulting Inc. 2019 3-3. OML のマーケティング業務での活用例 Oracle

    Machine Learning をマーケティング業務に活用する例をご紹介します。 9 No 分類 要望 アルゴリズム マイニング機能 アルゴリズム名 テンプレート 1 相関 同時に購入されやすい商品を知りたい アソシエーション分析 ASSOCIATION ALGO_APRIORI_ASSOCIATION _RULES (Apriori) 相関ルール 2 分類 DMを送付してそのキャンペーンに反応頂け る確率を予測したい ロジスティック回帰分析 CLASSIFICATION ALGO_GENERALIZED_LINEAR_ MODEL 3 分類 同上(樹形図) 決定木分析 同上 ALGO_DECISION_TREE 分類 4 分類,回帰 異常検出 既存顧客の分類結果を学習し、新規顧 客の分類を行う サポート・ベクター・マシン CLASSIFICATION ALGO_SUPPORT_VECTOR_MAC HINES 異常検知 5 クラスタリン グ 顧客をグループ分けしてターゲティングに活 用したい クラスタリング CLUSTERING ALGO_KMEANS (k-Means) クラスタリング 6 回帰 気温など1つの条件の変動から売上額を 予測したい 線形回帰分析 (SQL) REGR_R2等, CORR 7 分類,回帰 キャンペーン効果があったかどうかを調べたい 一般化線形モデル REGRESSION ALGO_GENERALIZED_LINEAR_ MODEL 回帰 8 時系列 売上予測を行いたい 時系列分析 TIME_SERIES ALGO_EXPONENTIAL_SMOOTH ING (指数平滑法) 9 予測 販売額に影響を与える顧客属性を知りた い 予測分析 (PA) DBMS_PREDICTIVE_ANALYTICS.EXPLAIN 特徴の抽出 10 予測 販売額に影響を与える顧客属性を使って プロファイルを作成する 予測分析 (PA) DBMS_PREDICTIVE_ANALYTICS.PROFILE 11 検定 男性と女性の販売額を比較し、有意な差 が出ているかを判断 T検定 (SQL) STATS_T_TEST_INDEP 等 統計ファンク ション 記号 (SQL):分析SQL関数、 (PA):予測分析、 未記入:DBMS_DATA_MINING.CREATE_MODEL[モデル作成] 参照:https://docs.oracle.com/cd/E96517_01/arpls/DBMS_DATA_MINING.html#GUID-7B9145D4-831F-46B3-977F-01AF77ACA4A1
  8. © Copyright iDEA Consulting Inc. 2019 3-4. OML Notebook 参考になるサイト

    Oracle Machine Learning Notebook について参考となるサイトをご紹介します。 10 No 分類 タイトル URL 1 プレゼンテーション OMLノートブック紹介資料 https://www.oracle.com/technetwork/jp/database/options/advanced- analytics/oraclemachinelearning4otn2-4479753-ja.pdf 2 Oracle Cloud 公式ブログ OML Notebookの使い方 https://community.oracle.com/groups/oracle-cloud-japan-blog/blog/2018/08/29/autonomous- data-warehouse-cloud-oracle-machine-learning- notebook%E3%81%AE%E4%BD%BF%E3%81%84%E6%96%B9?sr=search&searchId=646db6d3 -1987-4e77-9030-d82254e95ad1&searchIndex=7 3 チュートリアル OMLチュートリアル https://docs.oracle.com/cd/E60665_01/tutorials_ja.htm#OML 4 マニュアル OMLの概要 https://docs.oracle.com/cd/E83857_01/paas/autonomous-data-warehouse- cloud/business_analyst.html 5 マニュアル OMLの使い方 https://docs.oracle.com/cd/E83857_01/paas/autonomous-data-warehouse-cloud/user/create- dashboards.html#GUID-56831078-BBF0-4418-81BB-D03D221B17E9 赤字:お薦めサイト
  9. © Copyright iDEA Consulting Inc. 2019 4-1. 実演・デモ (1/16) 〜ABC分析〜

    実演・デモでご覧頂いた画面やその補足情報です。 12 ADW DV BI DVD ABC分析 :重要度が高い順にA、B、Cと分類して管理方法を分ける方法 パレートの法則:全体の数値の大部分は、一部の要素が生み出しているという理論、80:20の法則 下のパレート図:A-80%以下(赤)、 B-80%〜90%(オレンジ)、 C-90%〜100%(緑)
  10. © Copyright iDEA Consulting Inc. 2019 4-1. 実演・デモ (2/16) 〜ABC分析〜

    実演・デモでご覧頂いた画面やその補足情報です。 13 ADW DV BI DVD CASE WHEN ROUND(RSUM("販売実績"."売上金額"/SUM("販売実績"."売上金額")*100),1) <= 80 THEN 'A' WHEN ROUND(RSUM("販売実績"."売上金額"/SUM("販売実績"."売上金額")*100),1) between 80 and 90 THEN 'B' ELSE 'C' END 降順ソート 【ABC分析のAnswersの作成方法】 パレートを選択
  11. © Copyright iDEA Consulting Inc. 2019 4-1. 実演・デモ (3/16) 〜ABC分析〜

    実演・デモでご覧頂いた画面やその補足情報です。 14 ADW DV BI DVD スタースキーマで定義 ① クラウド上のリポジトリを開く ② リポジトリをオンライン編集 ③ リポジトリを公開 OAAC: 管理ツールを用いて Autonomous Oracle Analytics Cloud (OAAC) のリポジトリに接続する方法 (ドキュメントID 2492020.1) OAC: Oracle Analytics Cloud 管理ツールから ADWCS に接 続する方法 (ドキュメントID 2452287.1) 大切なノウハウ [DOC] OnP BIEE と同様な方法で 開発が可能です 【Developer Client Tool for OAC を使ったOACリポジトリ開発方法】
  12. © Copyright iDEA Consulting Inc. 2019 4-1. 実演・デモ (4/16) 〜ABC分析〜

    実演・デモでご覧頂いた画面やその補足情報です。 15 ADW DV BI DVD 【今回のデータモデル】 (スタースキーマ)
  13. © Copyright iDEA Consulting Inc. 2019 4-1. 実演・デモ (5/16) 〜マップマーケティング〜

    実演・デモでご覧頂いた画面やその補足情報です。 16 ADW DV BI DVD 【出店地の検討】 マップマーケティング ・・・ 以下の既存店舗データをDVDに取り込む
  14. © Copyright iDEA Consulting Inc. 2019 4-1. 実演・デモ (6/16) 〜マップマーケティング〜

    実演・デモでご覧頂いた画面やその補足情報です。 17 ADW DV BI DVD 【出店地の検討】 マップマーケティング ・・・ 以下の様に地図上で検討できる 以下を参照 (上記はAuto-Cluster Map Plugin を使用) https://community.oracle.com/groups/oracle-cloud-japan-blog/blog/2017/01/05/oracle-data-visualization%E3%81%A7%E5%A4%96%E9%83%A8%E5%9C%B0%E5%9B%B3%E9%80%A3%E6%90%BA
  15. © Copyright iDEA Consulting Inc. 2019 4-1. 実演・デモ (7/16) 〜マップマーケティング〜

    実演・デモでご覧頂いた画面やその補足情報です。 18 ADW DV BI DVD 【出店地の検討】 マップマーケティング ・・・ 2020年の人口分布 国立社会保障・人口問題研究所報告の『日本の地域別将来推計人口』 http://www.ipss.go.jp/pp-shicyoson/j/shicyoson18/3kekka/Municipalities.asp 出典:国立社会保障・人口問題研究所ホームページ (http://www.ipss.go.jp/) 以下を参照 https://community.oracle.com/groups/oracle-cloud-japan- blog/blog/2018/11/01/%E6%97%A5%E6%9C%AC%E3%83%9E%E3%83%83%E3 %83%97%E3%81%8Coracle-analytics- library%E3%81%AB%E5%85%AC%E9%96%8B 【人口分布データ】 【DVDの日本地図データ利用方法】 Oracle Analytics Library https://www.oracle.com/solutions/business-analytics/data-visualization/geo- layers.html ※JSON利用の制約:DVDで1つの地域が複数行の場合、最初の行のみしか使用 できない様なので、不要な行を削除すると良い 東京都23区の場合、江東区、品川区、大田区、港区が該当する
  16. © Copyright iDEA Consulting Inc. 2019 4-1. 実演・デモ (8/16) 〜マップマーケティング〜

    実演・デモでご覧頂いた画面やその補足情報です。 19 ADW DV BI DVD 【出店地の検討】 マップマーケティング ・・・ 以下の様に地図上で人口分布を確認できる
  17. © Copyright iDEA Consulting Inc. 2019 4-1. 実演・デモ (9/16) 〜アソシエーション分析〜

    実演・デモでご覧頂いた画面やその補足情報です。 20 ADW DV BI DVD 入力データ (SALES_TRN_ML) 分析結果 (AR_SALES_RESULT) モデル作成 モデルからルールを取得 %script BEGIN DBMS_DATA_MINING.CREATE_MODEL( model_name => 'AR_SALES_MODEL', mining_function => DBMS_DATA_MINING.ASSOCIATION, data_table_name => 'SALES_TRN_ML', case_id_column_name => 'TRANSACTION_ID', settings_table_name => 'AR_SALES_MODEL_SETTINGS' ); END; %script create table AR_SALES_RESULT as SELECT a.attribute_subname Antecedent, c.attribute_subname Consequent, rule_support Support, rule_confidence Confidence, rule_lift Lift, rule_id, row_number() over (partition by rule_id order by a.attribute_subname DESC) piece FROM TABLE(DBMS_DATA_MINING.GET_ASSOCIATION_RULES('AR_SALES_MODEL', 25, null, null, null, 3, 1)) T, TABLE(T.consequent) C, TABLE(T.antecedent) A; マイニング機能 モデル:データから発見した法則 ルール:アソシエーション分析の結果で発見したA⇒Bのパターン
  18. © Copyright iDEA Consulting Inc. 2019 4-1. 実演・デモ (10/16) 〜アソシエーション分析〜

    アソシエーション分析で使用している指標の説明です。 21 ADW DV BI DVD Support(支持度) A ⇒ B A を購入した時に B も購入する 大きいほど出現率が高い Support (A⇒B) = A⇒B のデータ数 全体のデータ数 Confidence (確信度) 大きいほど A,B の関連が強い (Aを購入する時に、Bも一緒に購入する割合が高い) Confidence (A⇒B) = A⇒B のデータ数 A⇒X のデータ数 Lift(リフト値) Aを購入する事で、Bの購入を何倍推進できるか? (1より大きいときが有効なルール) Lift (A⇒B) = A⇒B のデータ数 / A⇒X のデータ数 X⇒B のデータ数 / X⇒X (全体)のデータ数 スキップ
  19. © Copyright iDEA Consulting Inc. 2019 4-1. 実演・デモ (11/16) 〜アソシエーション分析〜

    実演・デモでご覧頂いた画面やその補足情報です。 22 ADW DV BI DVD AR_SALES_MODEL_SETTINGS モデル作成時の設定テーブル アソシエーションルールの最小支持度 アソシエーションルールの最小確信度 最大ルール長:3対1まで取得するため、「4」で設定 各ルールで満たす必要がある絶対最小支持度 分析項目の列の名前 以下の3パターンを対象とする 1 : 1 → A を購入した時、D を購入する (表記:A⇒D) 2 : 1 → A,B を購入した時、D を購入する (表記:A,B⇒D) 3 : 1 → A,B,C を購入した時、D を購入する (表記:A,B,C⇒D)
  20. © Copyright iDEA Consulting Inc. 2019 4-1. 実演・デモ (12/16) 〜アソシエーション分析〜

    実演・デモでご覧頂いた画面やその補足情報です。 23 ADW DV BI DVD 以下の様に、OML Notebook を使用して分析を実施する事ができます。 モデル作成 モデルからルールを取得
  21. © Copyright iDEA Consulting Inc. 2019 4-1. 実演・デモ (13/16) 〜アソシエーション分析〜

    実演・デモでご覧頂いた画面やその補足情報です。 24 ADW DV BI DVD 入力データを表示
  22. © Copyright iDEA Consulting Inc. 2019 4-1. 実演・デモ (14/16) 〜アソシエーション分析〜

    実演・デモでご覧頂いた画面やその補足情報です。 25 ADW DV BI DVD アソシエーション分析結果を一覧表示 【条件】 ・LIFT が1以上 (一般的に有効なルール) ・CONFIDENCE が0.2以上 (20%以上で発生) タオル、ゴミ袋を買った人は、54%の 確率でマグカップも買っている
  23. © Copyright iDEA Consulting Inc. 2019 4-1. 実演・デモ (15/16) 〜アソシエーション分析〜

    実演・デモでご覧頂いた画面やその補足情報です。 26 ADW DV BI DVD 3つの指標を個別にグラフ表示
  24. © Copyright iDEA Consulting Inc. 2019 4-1. 実演・デモ (16/16) 〜アソシエーション分析〜

    実演・デモでご覧頂いた画面やその補足情報です。 27 ADW DV BI DVD 3つの指標をバブルチャートで表示
  25. © Copyright iDEA Consulting Inc. 2019 5-1. ADW データロード計測結果 データロードの計測結果は以下の通りです。

    29 No SQL 挿入データ件数 1 OCPU 2 OCPU 1 Insert … select 100,000件 4.0 秒 3.1 秒 2 Insert … select 1,000,000件 19.0 秒 7.9 秒 <3つの接続モード> <今回テスト時に使用した接続モード> BI medium モード データロード high モード <データロード計測結果> (全てhighモード。計測は1回のみ) モード 割り当てリソース 同時実行数 実行モード high 最多 最少 パラレル実行 medium 少 多 パラレル実行 low 最少 最多 シリアル実行
  26. © Copyright iDEA Consulting Inc. 2019 5-2. AWD 検索パフォーマンス検証結果 ADWの検索パフォーマンス検証結果は以下となりました。(全てmediumモード。計測は2回の最大)

    31 No 分類 テーブル全体 抽出範囲 1 OCPU 2 OCPU パーティショニングなし パーティショニングあり パーティショニングなし パーティショニングあり 1 OAC(BI) 6ヶ月分のデータ 1ヶ月指定 3.4 秒 5.5 秒 1.8 秒 0.8 秒 2 2ヶ月指定 10.7 秒 7.4 秒 5.4 秒 1.6 秒 3 3ヶ月指定 11.5 秒 11.4 秒 6.7 秒 2.2 秒 4 1年分のデータ 1ヶ月指定 3.8 秒 3.7 秒 1.2 秒 0.8 秒 5 2ヶ月指定 9.8 秒 7.4 秒 3.5 秒 2.9 秒 6 3ヶ月指定 12.4 秒 11.6 秒 5.2 秒 4.1 秒 CPU利用率:4.5 % テーブル全体 (以下の2パターンで計測) ケース① 6ヶ月 ・・・ 6000万件 ケース② 1年 ・・・ 1億2000万件 抽出範囲 1ヶ月 ・・・ 1000万件 2ヶ月 ・・・ 2000万件 3ヶ月 ・・・ 3000万件 【データ件数】 1ヶ月=1000万件 ① CPU を増やすことにより大量データ検索を高速化できる ② 今回のデータ量ではパーティショニングの効果は大きく見られない ③ テーブル全体の件数が増えてもあまり検索速度は落ちない 【考察】 ※パーティショニング: 1つのテーブルをデータベース内部で複数の領域に分割するOracleDBの機能
  27. © Copyright iDEA Consulting Inc. 2019 6-1. 本日お伝えしたかったこと 〜シナリオ〜 本日お伝えしたシナリオは、以下の通りです。

    33 【100円ショップの出店検討担当者のマーケティング】 ① ABC分析を行い、重点顧客(年齢層)、重点商品を分析 ② 新規出店の場所を検討するため、既存店舗の場所を地図上で確認 2020年の人口分布を地図上に表示し、重点顧客の年齢層の分布も確認 ③ アソシエーション分析を行い、同時に購入されやすい商品を分析し、店舗内の品揃えを検討 (機械学習を実演) ④ 大量の販売データを集計する場合のパフォーマンス検証結果をご紹介
  28. © Copyright iDEA Consulting Inc. 2019 6-1. 本日お伝えしたかったこと 〜ポイント〜 本日お伝えしたかったポイントは、以下の通りです。

    34 マーケティング業務と データ分析 ・・・ マーケティング業務の中でデータを活用するときのケーススタ ディとなれば、嬉しい !! ABC分析 ・・・ ABC分析で重点顧客、重点商品を可視化するケースを 紹介したい。 (Oracle Analytics Cloud) マップマーケティング ・・・ 地図を使って出店場所を検討するケースを紹介したい。 (Oracle Data Visualization Desktop) アソシエーション分析 ・・・ 同時に購入されやすい商品を分析し、品揃え、セット商品 等に活かす方法を紹介したい。 (Oracle Autonomous Data Warehouse Cloud – OML Notebook) ADWのパフォーマンス ・・・ ADWのパフォーマンスの検証結果をご紹介したい。 (Oracle Autonomous Data Warehouse Cloud)
  29. © Copyright iDEA Consulting Inc. 2019 6-2. マーケティング業務とAutonomous DB 以下の通り、マーケティング業務とAutonomous

    DBの相性は良いと感じています。 35 機械学習  マーケティング業務で必要なアルゴリズムが整備されている  テンプレートが準備されている  SQL, PL/SQL が理解できる人は入りやすい 簡単にスケールアップ  簡単に立ち上げ  DB稼働中にCPU数、StorageのUp/Downが可能  機械学習モデル作成前にCPU数をUpすると便利 スケジュール実行も可 *1 大量データ  大量データの検索が高速  大量データのロードも高速  圧縮機能によりStorageも節約可能 *1 右記のblog参考:https://blogs.oracle.com/datawarehousing/managing-autonomous-data-warehouse-using-oci-curl
  30. © Copyright iDEA Consulting Inc. 2019 <Insert Picture Here> 本書に含まれる情報は、貴社内部でのご検討、評価の目的のために提供されるものです。

    貴社内でのご使用、複製、開示は、この目的のために必要な範囲でのみお願いいたします。 貴社との間で正式な契約が成立した場合には、当該契約に従い本書をお取り扱いいただきます。 なお、貴社にて既に取得されている情報については、これらの制限は及びません。 36