Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ValueDrivenDataAnalytics

 ValueDrivenDataAnalytics

【クラスメソッド・アクセンチュア デジタル共催】 最新テクノロジー案件最前線!実践ノウハウから伝えるLT×10本勉強会 〜サーバーレス、ビッグデータ、IoT、認証、そしてDevOpsなど〜
https://dev.classmethod.jp/news/190716-lt-ac-vs-cm/

アクセンチュア登壇資料

T.Koichi

July 16, 2019
Tweet

More Decks by T.Koichi

Other Decks in Technology

Transcript

  1. ‐ 1 ‐ Copyright © 2018 Accenture. All rights reserved.

    Accenture Confidential Information. 自己紹介
  2. ‐ 2 ‐ Copyright © 2019 Accenture. All rights reserved.

    Accenture Confidential Information. Digital-Delivery AAI Part of Accenture Digital 桝本 智志 マネージャー 山口県岩国市出身。FY13にアクセンチュア入社。 BI/DWH構築関連の複数案件を経て、現在は株式会社ARISE analyticsに て通信・広告・小売(EC)・証券など複数社を相手にアナリティクスコンサルティン グ案件を展開中。 主な実績 • BI/DWH/SFA構築 ‐外資系製薬会社 • BI構築‐大手小売業 • サイト内レコメンドエンジン構築‐通信キャリア系小売業 • クラウド・OSSを活用した分析プラットフォーム構築‐大手広告業 • 分析を活用したEコマース改善戦略の立案‐大手小売業 • データ分析を活用した業務改善‐大手通信業
  3. ‐ 3 ‐ Copyright © 2018 Accenture. All rights reserved.

    Accenture Confidential Information. Hype Cycle for Emerging Technologies, 2018 出展:Gartner /Hype Cycle for Emerging Technologies, 2018/8 トレンド 「AIの民主化」 AIテクノロジーは今後10年間で、ほ ぼどこにでも存在するようになるでしょう。 AIテクノロジーを早期に採用した企業 は、新たな状況に適応し、未知の問題 を解消できるようになります。また、AIテ クノロジーが一般に利用されるようにな り、「AIの民主化」が起こります。クラウ ドコンピューティングや「作り手」のコミュニ ティー、オープンソースといった動向やト レンドが発展し、最終的にAIは誰もが 使えるものになるでしょう。 ディープラーニングは既に「過度な期待のピーク期」を迎えています
  4. ‐ 4 ‐ Copyright © 2018 Accenture. All rights reserved.

    Accenture Confidential Information. データの多様化 技術の進化 環境のオープン化 IoTデバイスから得られるセンサー データや、ドライブレコーダーの動 画、Webアクセスや検索といった ログデータなど、利用できるデータ が拡大・多様化。 並列分散処理などのコンピュータ イング領域の発展と、機械学習/ ディープラーニングなどにおける新 たなアルゴリズムの提案。 クラウド基盤により個人でも大量 件データを取り扱うことができるこ とに加え、オープンソースの発達に よりコンピュータサイエンスの最新 研究成果の実行が容易に。 アナリティクスのビジネス適用・新しい技術への期待の高まり ビジネス活用の加速ともに、ビジネス効果に対する要求の高まり 一方で、考慮しなければいけないポイントが十分整理されていない ・精度を追う世界ではない ・PoCが目的ではない ・分析者依存は避けなければいけない
  5. ‐ 5 ‐ Copyright © 2018 Accenture. All rights reserved.

    Accenture Confidential Information. プロジェクト 準備 ビジネス ニーズ把握 環境・データ アセスメント ROI概算 PoC提案 提案スコープ 整理 PoC向け 業務設計 分析基盤 整備 ナレッジ共有 ルール整備 データ ガバナンス 体制整備 プロジェクト 設計 PoC向け 管理方針 データ準備 ・加工 分析設計 基礎分析 データ解釈 ROI算出 本格導入 提案 機能要件 整理 非機能要件 整理 運用設計 リスク 検討 業務 組み込み モデル構築 商用化 開発 モデル管理 検討 モニタリング 運用 ・保守 Analytics Derivery Method  要件整理においては「情報非対称性」 を意識しつつ、業務に合ったアルゴリズ ム選択、データ準備が必要  PoCで終わってしまわないよう、モデル 構築時から業務利用を想定してプロ ジェクトを進めることが重要  特にマーケティングなどの繰り返される 業務は、一度の失敗であきらめずに改 善しながらデータを蓄積していくことが 重要  モデル運用においては、従来のSI、ア プリケーション開発とは異なる管理対 象が存在するため、漏らさず管理を始 めることが重要  システムはセキュリティを前提としつつも、 ユーザビリティを突詰ることが求められる  データ整備は、各部門のミッションを理 解しつつも強力に整理を推進できる組 織・人材が必要  これらを滞りなく進めるためには、組織 作りやCXOコミットも重要  ・・・・ 分析案件のデリバリーリードには各フェーズで適切な舵取りが求められています。 モデル運用
  6. ‐ 6 ‐ Copyright © 2018 Accenture. All rights reserved.

    Accenture Confidential Information. プロジェクト 準備 ビジネス ニーズ把握 環境・データ アセスメント ROI概算 PoC提案 提案スコープ 整理 PoC向け 業務設計 分析基盤 整備 ナレッジ共有 ルール整備 PoC向け 管理方針 体制整備 プロジェクト 設計 データ ガバナンス データ準備 ・加工 分析設計 基礎分析 データ解釈 ROI算出 本格導入 提案 機能要件 整理 非機能要件 整理 運用設計 リスク 検討 業務 組み込み モデル構築 商用化 開発 モデル管理 検討 モニタリング 運用 ・保守 Analytics Derivery Method  要件整理においては「情報非対称性」 を意識しつつ、業務に合ったアルゴリズ ム選択、データ準備が必要  PoCで終わってしまわないよう、モデル 構築時から業務利用を想定してプロ ジェクトを進めることが重要  特にマーケティングなどの繰り返される 業務は、一度の失敗であきらめずに改 善しながらデータを蓄積していくことが 重要  モデル運用においては、従来のSI、ア プリケーション開発とは異なる管理対 象が存在するため、漏らさず管理を始 めることが重要  システムはセキュリティを前提としつつも、 ユーザビリティを突詰ることが求められる  データ整備は、各部門のミッションを理 解しつつも強力に整理を推進できる組 織・人材が必要  これらを滞りなく進めるためには、組織 作りやCXOコミットも重要  ・・・・ 分析案件のデリバリーリードには各フェーズで適切な舵取りが求められています。 モデル運用
  7. ‐ 7 ‐ Copyright © 2018 Accenture. All rights reserved.

    Accenture Confidential Information. モデル運用においては、従来のソフトウェア開発とは異なる管理対象が多 数存在するため、効率よく、かつ漏らさず運用・管理することが重要。
  8. ‐ 8 ‐ Copyright © 2018 Accenture. All rights reserved.

    Accenture Confidential Information. • 参照: Hidden TechnicalDebt in Machine Learning Systems(Google) • https://papers.nips.cc/paper/5656‐hidden‐technical‐debt‐in‐machine‐learning‐systems.pdf  機械学習の作業において、予測アルゴリズムなどを記述する処理をコードとして書く作業(いわゆ る「モデリング」)が本当に一部でしかない 機械学習システムの運用周りを重要視する考え方(MLOps)が議論されはじめています MLOpsの呼ばれる考え方の高まり MLOpsとは機械学習(ML)と運用(Operations)からなる造語で、DevOpsから派生した表現
  9. ‐ 9 ‐ Copyright © 2018 Accenture. All rights reserved.

    Accenture Confidential Information. 開発時における 資源管理 モデルの再現性 確保 モデルの デプロイ  分析者は多くの試行錯 誤を繰り返しながらモデル を作成する  ハイパーパラメータをいろ いろ試したときのログは、 手書きやExcel、 notebook上のメモなど に、散逸してしまっている  モデル作成時のプログラ ムのバージョンのみならず、 インプットデータ/パラメー タ値/評価指標値等をま とめて管理しなければ、 同じ予測結果を得ること ができない  機械学習における分析 コードは多くのライブラリー に依存関係があるため、 環境差分が生じやすい  モデルのディプロイ方法が 統一されていなければ、 運用工数が増大し、運 用ミスが発生してしまう モデルの再現性・再利用性を高めることで、運行工数を効率化していく必要があります。 モデル管理における現状の課題 現在モデルの管理に人的工数を使っており、かつ管理しきれていないことから、知見の散逸や作業ミ スによる工数肥大化が発生している
  10. ‐ 10 ‐ Copyright © 2018 Accenture. All rights reserved.

    Accenture Confidential Information. mlflowとは  Databrick社がOSSとして公開している機械学習モデル開発のライフサイクル管理ツール  Spark/AI Summit 2018内で発表され、注目を浴びる  2019/6/4にver1.00が公開される  mlflowは機械学習モデルの再現性や再利用性を向上させるための機能を提供する Tracking 追跡性と再現性を 高めるため、学習 条件やスコアなど、 実験内容を記録す るロギングフレーム ワークを提供 Project 再現性を高めるた め、実行環境の再 現と起動(パラメー タの与え方)を支援 Models モデルのフォーマット を定め、デプロイを 支援
  11. ‐ 11 ‐ Copyright © 2018 Accenture. All rights reserved.

    Accenture Confidential Information. 利用イメージ(1/3)  EMR内でmlflowの書式に従い、学習用コードを実装し、実行する  学習関数を定義  パラメータ値を指定して 学習を実行 …
  12. ‐ 12 ‐ Copyright © 2018 Accenture. All rights reserved.

    Accenture Confidential Information. 利用イメージ(2/3)  Mlflow Tracking‐Serverを確認すると、実行時のパラメータとその評価指標が記録されている  学習関数を定義  パラメータを指定して 学習を実行 インプットパラメータ 評価指標
  13. ‐ 13 ‐ Copyright © 2018 Accenture. All rights reserved.

    Accenture Confidential Information. 利用イメージ(3/3)  結果の比較機能を使用することで、チューニング作業を効率化することができる 例:alphaの値を変更し て、結果への影響を検証
  14. ‐ 14 ‐ Copyright © 2018 Accenture. All rights reserved.

    Accenture Confidential Information. • 参照: Hidden TechnicalDebt in Machine Learning Systems(Google) • https://papers.nips.cc/paper/5656‐hidden‐technical‐debt‐in‐machine‐learning‐systems.pdf  機械学習の作業において、予測アルゴリズムなどを記述する処理をコードとして書く作業(いわゆ る「モデリング」)が本当に一部でしかない 機械学習システムの運用周りを重要視する考え方(MLOps)が議論されはじめています MLOpsの呼ばれる考え方の高まり MLOpsとは機械学習(ML)と運用(Operations)からなる造語で、DevOpsから派生した表現
  15. ‐ 15 ‐ Copyright © 2018 Accenture. All rights reserved.

    Accenture Confidential Information. プロジェクト 準備 ビジネス ニーズ把握 環境・データ アセスメント ROI概算 PoC提案 提案スコープ 整理 PoC向け 業務設計 分析基盤 整備 ナレッジ共有 ルール整備 データ ガバナンス 体制整備 プロジェクト 設計 PoC向け 管理方針 データ準備 ・加工 分析設計 基礎分析 データ解釈 ROI算出 本格導入 提案 機能要件 整理 非機能要件 整理 運用設計 リスク 検討 業務 組み込み モデル構築 商用化 開発 モデル管理 検討 モニタリング 運用 ・保守 Analytics Derivery Method  要件整理においては「情報非対称性」 を意識しつつ、業務に合ったアルゴリズ ム選択、データ準備が必要  PoCで終わってしまわないよう、モデル 構築時から業務利用を想定してプロ ジェクトを進めることが重要  特にマーケティングなどの繰り返される 業務は、一度の失敗であきらめずに改 善しながらデータを蓄積していくことが 重要  モデル運用においては、従来のSI、ア プリケーション開発とは異なる管理対 象が存在するため、漏らさず管理を始 めることが重要  システムはセキュリティを前提としつつも、 ユーザビリティを突詰ることが求められる  データ整備は、各部門のミッションを理 解しつつも強力に整理を推進できる組 織・人材が必要  これらを滞りなく進めるためには、組織 作りやCXOコミットも重要  ・・・・ 分析案件のデリバリーリードには各フェーズで適切な舵取りが求められています。 モデル運用
  16. ‐ 16 ‐ Copyright © 2018 Accenture. All rights reserved.

    Accenture Confidential Information. Case:ROIのクイックな見極め
  17. ‐ 17 ‐ Copyright © 2018 Accenture. All rights reserved.

    Accenture Confidential Information.  サービスの解約率に課題があり、データ 分析活用して施策を高度化したい。  データ活用の高度化にむけて、AWS環 境にデータレイク初期構築。順次拡充し ており、 DMP整備を推進中。  分析環境については整備中。  短期間でクライアント優先課題に対する データ活用のROIを見極める。  並行して本格展開に向けて、施策実施 媒体の拡充、クライアント側の体制検討、 分析基盤強化について、CXOの合意を 得つつ、検討を進める。  (本格的なシステム構築・BI構築は後 回し。) クライアントニーズ 心得
  18. ‐ 18 ‐ Copyright © 2018 Accenture. All rights reserved.

    Accenture Confidential Information.  データ活用を推進するためには、既存のシステムやデータを確認し、あるべき姿とクイックウィンの両面で取り 組み内容を精査する必要がある認識。 データ 収集・整備 データ 可視化 高度分析・ 業務利用 分析基盤 整備  既存のシステムやデータを確認し、 あるべき姿とクイックウィンの両面で 取り組み内容を精査  分析モデルを活用した施策PoCを 実施し効果を見極め。  やりたいことを見 据えたときに必 要な分析基盤 を整備  複数システムを またがるデータや 名寄せなど、必 要に応じてデー タを整備  業務ユーザーに ヒアリングし、見 たいデータをク イックに可視化  必要に応じてモ デリング、アプリ ケーション化など を行い、業務で 活用 アセスメント結果を踏まえ、どこから着手すべきかご提案 アセスメント /分析PoC データ活用による効果見極め データ活用にむけたプロセス・フロー
  19. ‐ 19 ‐ Copyright © 2018 Accenture. All rights reserved.

    Accenture Confidential Information. データ整備・基礎分析  ユーザ属性と施策結果 データを整備し、優先課題 に対する因子見極めなど 基礎分析を実施。  PoC施策向けに予兆モデルを 構築。  モデルを活用したターゲットリス トを提供。解約抑止効果を 検証。 取 組 み イ メ ー ジ 解約抑止効果・ROIの見極め モデル構築 解約予兆モデル 媒体受容度モデル 解約に関する重要因子見極め 施策適用・高度化  継続してオウンドサイトやアプ リログなどデータ拡充。より目 の細かい因子見極めを実施。  プロファイル整備・可視化を 実施。 高 度 化  プロファイル整備と並行しモデ ルチューニングを実施。  仮説検討しながら、施策KPI を最大化するモデルを新規構 築。  ユーザセグメントごとの訴求最 適化・媒体の拡大による施 策効果最大化を目指す。 分析環境のセットアップ後3~4カ月で実施想定 image image image  クライアントで実施中のアウ トバウンドテレマ施策の高度 化を題材にPoCを実施。  解約リスクを推定するモデル と、施策実施媒体であるテ レマへの受容度を推定する モデルを構築。  リスクが高く、かつ電話に出 やすいユーザリストをコール センタに連携し、既存の施 策運用とA/Bテストを実施。
  20. ‐ 20 ‐ Copyright © 2018 Accenture. All rights reserved.

    Accenture Confidential Information. 2. 施策活用検討/モデル構築  既に実施中のアウトバウンドテレマ施策の 高度化を題材にPoCを実施。  既存の施策運用とA/Bテストを実施。 1. 分析環境/データ整備  自社DMPに集約されているデータを軸に プロファイル整備に着手。  モデル構築・検証環境を整備 3. 優先分析テーマの検討  直近の施策高度化だけでなく、優先課 題に対する対応方針・PoC期間以降の 注力テーマを検討。 分析 (予兆モデル構築) Month 1 Month 2 Month 3 予兆モデル 初版構築 施策実施検証 モデル チューニング 精度検証 PM データ整備 データ運用 環境運用 進捗報告・課題対応 PoC環境 整備 基礎分析・ モデル設計 データマート整備 (モデル構築/検証用) 優先分析テーマ検討
  21. ‐ 21 ‐ Copyright © 2018 Accenture. All rights reserved.

    Accenture Confidential Information. Case:機械学習マーケティングPFの構築
  22. ‐ 23 ‐ Copyright © 2018 Accenture. All rights reserved.

    Accenture Confidential Information. Prediction of churn rate Prediction of churn rate
  23. ‐ 24 ‐ Copyright © 2018 Accenture. All rights reserved.

    Accenture Confidential Information. Prediction of churn rate
  24. ‐ 25 ‐ Copyright © 2018 Accenture. All rights reserved.

    Accenture Confidential Information. 1. パラメータの入力 1. 利用する特徴量 2. モデルパラメータ 3. 学習パラメータ 4. 教師データのパス 5. train/test分割割合 6. 不均衡データのサンプリング割合 3. 属性データ, Webアクセス履歴, アプリ利用履歴の抽出 4. サイトのリフト値など特徴量を計算 5. 3,4をユーザマスタと紐づけて特徴量マートを作成 6. 不均衡データの調整 (アンダーサンプリング) 2. クロスバリデーション用にtrain/testデータを分割 7. モデルの学習 8. 精度の評価 • ROCカーブ, PRカーブ • AUC, ACC • クラス分類レポート, 混同行列 • 変数重要度 Mlflow 各処理の進捗や出力結果をMlflowに格納
  25. ‐ 26 ‐ Copyright © 2018 Accenture. All rights reserved.

    Accenture Confidential Information. S3 DataBricks EC2 Next.js (React) Apollo Server (GraphQL) Spark Analytics API Mlflow App Computing Data ユーザ 属性 ユーザ 行動履歴 施策反応 履歴 ユーザ マスタ
  26. ‐ 28 ‐ Copyright © 2018 Accenture. All rights reserved.

    Accenture Confidential Information. データの多様化 技術の進化 環境のオープン化 IoTデバイスから得られるセンサー データや、ドライブレコーダーの動 画、Webアクセスや検索といった ログデータなど、利用できるデータ が拡大・多様化。 並列分散処理などのコンピュータ イング領域の発展と、機械学習/ ディープラーニングなどにおける新 たなアルゴリズムの提案。 クラウド基盤により個人でも大量 件データを取り扱うことができるこ とに加え、オープンソースの発達に よりコンピュータサイエンスの最新 研究成果の実行が容易に。 アナリティクスのビジネス適用・新しい技術への期待の高まり ビジネス活用の加速ともに、ビジネス効果に対する要求の高まり 一方で、考慮しなければいけないポイントが十分整理されていない ・精度を追う世界ではない ・PoCが目的ではない ・分析者依存は避けなければいけない
  27. ‐ 29 ‐ Copyright © 2018 Accenture. All rights reserved.

    Accenture Confidential Information. ご清聴、ありがとうございました。