Slide 1

Slide 1 text

近道こちらです。 DX推進に必須のデータ分析基盤構築 2023/6/15 データアナリティクス事業本部 甲⽊ 洋介

Slide 2

Slide 2 text

2 セッション概要 本セッションでは これからデータ分析に取り組まれる企業様向けに 多数のデータ分析基盤を構築した経験をまとめた 「データ分析基盤構築の勘所」をご紹介します。 本セッションが • ベンダーに任せること • 御社が集中すべきこと の判断のご参考になれば幸いです。

Slide 3

Slide 3 text

3 ⾃⼰紹介 ⽒名 甲⽊ 洋介(かつき ようすけ)@yokatsuki 所属 クラスメソッド株式会社 データアナリティクス事業本部 プリセールスアーキテクト 主な担当 データ分析お悩み相談〜システム妄想〜設計〜提案 〜プロジェクト引き渡し

Slide 4

Slide 4 text

4 ⾃⼰紹介 書籍 みんなのAWS 〜アカウント開設からベストプラクティスまで〜 認定 AWS Certified Solutions Architect – Associate AWS Certified Solutions Architect - Professional AWS Certified Data Analytics – Specialty Snowflake Data Superheroes 2022, 2023

Slide 5

Slide 5 text

5 本セッションでお伝えする、主な内容 データ分析のはじめかた 最初に⾃社で取り組むこと データ分析基盤の導⼊まで データ分析基盤が必要となる理由 データ分析基盤を早期導⼊する⽅法 カスタマーストーリーアナリティクス(CSA)

Slide 6

Slide 6 text

6 データ分析の例(会員制情報サービス) ユーザ⾏動分析 来訪数 / 新規⼊会者数 / 退会会員数 / 来訪間隔 / 滞在時間 / 離脱率 広告の費⽤対効果分析 流⼊経路毎の来訪数、コンバージョン率変化 ユーザ向け画⾯改修の効果分析 所謂A/Bテスト 滞在時間やコンバージョン率の変化 分析軸 時間 / 年齢、性別 / アクセス場所

Slide 7

Slide 7 text

7 システム構成イメージ ⾃社開発システム 他社開発パッケージ 外部サービス (MAサービス、SNS) サーバー (コンテナ) データベース (RDB) サービス エンジン

Slide 8

Slide 8 text

8 分析のはじめかた ⾃社の課題を把握する ⾃社の利益構造を踏まえ、⾃社が発展するためには • 何をする必要があるか • そのためには何を知る必要があるか を考える 「◯◯を知りたい」が分析の出発点 分析は「正解を教えてもらう⾏為」ではなく、 「正解をより⾼い精度で引き当てる為の準備⾏為」であり 正解は⾃社で引き当てる必要がある

Slide 9

Slide 9 text

9 分析のはじめかた 知りたい情報の所在を知る コンピュータで扱える形になった情報=データ 知りたい情報が • どこに(どのシステムに) • どのようなデータ構造(ファイル / データベース)で 格納、保存されているか • 誰が(どのベンダーが)管理しているか • どのタイミングで更新されるのか などを調査、整理する 整理されたデータに関する情報=メタデータ

Slide 10

Slide 10 text

10 分析データの所在例 会員基本データ サービス提供サーバ もしくはMAサービス内のデータベース ユーザ⾏動データ サービス提供サーバーマシンのログ 外部サービス(Google Analyticsなど)のコンバージョン 広告効果関連データ 外部サービス(SNSなど)の統計情報

Slide 11

Slide 11 text

11 分析のはじめかた データの取得⽅法を知る • どのような通信経路を使うのか • どのようなプロトコルを利⽤するのか(ftp / 専⽤API) • 取りに⾏く必要があるのか、相⼿から送ってくれるのか これら情報もメタデータとしてまとめる メタデータは最初はExcelやWikiのような形で構わない データカタログ製品、サービスがあるのが最上

Slide 12

Slide 12 text

12 分析のはじめかた 不⾜情報を把握、準備する 調査の結果「何が⾜りないか」に気付く ⾜りない情報を調達する • ⾃分で集める(スクレイピング / システム改修) • 外部から買う(データ提供サービス) 情報の不⾜は分析を始めた後で気付くこともある その場合も上と同様の対応を⾏う =データ分析のシステムは必要に応じて変化する前提

Slide 13

Slide 13 text

13 分析のはじめかた まとめ まずは業務視点で⾃社の取り組みからスタートする • 課題把握〜分析の⽬的設定 • データ把握〜メタデータ整理 業務レベルの取り組みに関しては、必要に応じて 特定業務に特化したシステムベンダーや 専⾨の業務コンサルの協⼒を依頼するのが現実解 また、データ分析にかかる業務的、技術的な ⼈材の確保、育成も開始するのが良い

Slide 14

Slide 14 text

14 最初のデータ分析実施イメージ ⾃社開発システム ログファイル 外部サービス サーバー (コンテナ) データベース (RDB) サービス エンジン エクスポートファイル SQLクライアント BIツール Excel 分析担当者

Slide 15

Slide 15 text

15 データ分析における課題 データ集約の⼿間 ファイルコピーやSQL抽出など全て⼿作業 分析の⾒通しの悪さ すべてを⼀つのツール、画⾯で確認できない 所謂「横串検索」が実施できない、しにくい 本業への悪影響 実システムのデータ構造が分析処理に適していない 実システムへデータ抽出を⾏って性能低下

Slide 16

Slide 16 text

16 解決案 データ集約の⼿間 データ集約作業を⾃動化する(プログラム化、RPA導⼊) 分析の⾒通しの悪さ データを⼀箇所に、同じ形式に集約 分析しやすいデータ構造に変換しておく 本業への悪影響 実システムと分析⽤システムを分ける 結果、データ分析基盤導⼊が適切

Slide 17

Slide 17 text

17 分析しやすいデータ=整然データ 整然(tidy)データ=データ分析で扱いやすい形式 整然データの条件 • 個々の変数が1つの列をなす • 個々の観測が1つの⾏をなす • 個々の観測の構成単位の類型が1つの表をなす • 個々の値が1つのセルをなす

Slide 18

Slide 18 text

注文年 カテゴリ 売上 2022 事務用品 22294153 2021 事務用品 15420259 2020 事務用品 15880638 2019 事務用品 10127262 2022 家電 26949061 2021 家電 21985133 2020 家電 19268607 整然データ

Slide 19

Slide 19 text

19 整然ではないデータ • 同じ変数(注⽂年)が複数の列になっている • 1⾏が複数のデータ(観測)を集計した結果になっている • 個々の観測の構成単位の類型が1つの表をなす 2019年 2020年 2021年 家具 13659370 14084755 10127262 家電 19250324 19268607 15880638 事務用品 24615557 21985133 15420259

Slide 20

Slide 20 text

20 データ収集、加⼯の現実 完全⾃動化(AI活⽤など)はまだ データの意味理解や業務上のルール把握は前提知識が必要 最低でもメタデータの整備は必要 ただ、⼿間を省く⽅法はある ⼀部は次のセッションでご紹介

Slide 21

Slide 21 text

21 データ分析基盤導⼊後のシステム構成と分析 データ分析基盤 DWH データ加⼯ データロード ⾃社開発システム 外部サービス サーバー (コンテナ) データベース (RDB) サービス エンジン BIツール Excel 分析担当者 集約⽣データ (データレイク) データ取得 データ取得 データ取得

Slide 22

Slide 22 text

22 データ分析基盤に含まれる機能 データ連携 所謂「ETL」や「ELT」 データ抽出〜変換〜ロード データ蓄積 ⽣データ︓データレイク 集計済みデータ︓データウェアハウス(DWH) データ提供 既存の分析作業、⼿持ちの分析ツールと連携

Slide 23

Slide 23 text

23 データ分析基盤に使⽤する主なAWSサービス データ連携(ETL / ELT) AWS Glue AWS Lambda AWS Step Functions データ蓄積(データレイク / DWH) Amazon S3 Amazon Redshift データ提供(BIなど) Amazon QuickSight Amazon Athena

Slide 24

Slide 24 text

24 CSA(カスタマーストーリーアナリティクス)とは 販売データ(POS)や⾏動ログなど、企業に存在する多様なデータを 集約し、 様々な⾓度から顧客理解を深めるビックデータ分析基盤を提 供します。 従来、多くの費⽤と開発期間を必要としてきたビッグデー タの分析基盤をテンプレート化し最短1か⽉で導⼊可能です。

Slide 25

Slide 25 text

25 CSA構成概要 ③ データ分析基盤の基本構成を短期構築

Slide 26

Slide 26 text

26 CSA管理画⾯(Job Management Console) ● ETL/ELT処理(ジョブ)をブラウザで監視/管理 ● 異常発⽣時メール通知

Slide 27

Slide 27 text

27 CSA導⼊スケジュールの例 作業内容 1週⽬ 2週⽬ 3週⽬ 4週⽬ 5週⽬ 6週⽬ 7週⽬ 8週⽬ 9週⽬ CSアナリティクス環境構築 分析対象データご準備 初回データ連携設定、実施 分析対象データS3ロード処理開発 データ定時取込設定、テスト 分析利⽤、ダッシュボード作成 開始 貴社主担当作業 弊社主担当作業

Slide 28

Slide 28 text

28 CSA導⼊費⽤ 初期費⽤︓¥250,000〜 <必須提供> CSA環境構築︓AWS 環境設計・構築 作業⽤IAMユーザー払い出し ネットワーク設定(VPC、サブネット、セキュリティグループ) インスタンス構築、DWH構築(クラスタ作成、ユーザー作成、権限設 定) S3バケット作成、ETLサーバーの初期セットアップ <オプション提供> ※ ご要望構成に応じて個別⾒積 ⽉額利⽤費︓¥100,000/⽉ ※ 最安プラン、AWSサービス利⽤費含まず

Slide 29

Slide 29 text

29 まとめ ⾃社のデータを⾃社で把握するのが結果として近道 • 課題把握〜分析の⽬的設定 • データ把握〜メタデータ整理 本格的な分析を⾏うためには、専⽤の基盤が必要になる 基盤については専⾨企業にお任せできる CSA(カスタマーストーリーアナリティクス)が 適⽤できるかもしれません、ご相談ください

Slide 30

Slide 30 text

30 お問い合わせ先 CSアナリティクス

Slide 31

Slide 31 text

31 CSA導⼊事例 CSアナリティクス 導入事例

Slide 32

Slide 32 text

32 参考資料(ホワイトペーパー) https://classmethod.jp/download/data-analytics/

Slide 33

Slide 33 text

No content