Upgrade to Pro — share decks privately, control downloads, hide ads and more …

準備できていますか?DX時代におけるデータ活用基盤の基本

 準備できていますか?DX時代におけるデータ活用基盤の基本

2021年5月19日
Snowflake+クラスメソッド合同セミナー
「これからの業務分析に不可欠な、データクラウド導入不安解消セミナー~Snowflakeだからできるユースケースやコスト最適化のヒント~」
クラスメソッドセッション資料

Bd82857e5cd002562af37c7b6b9bc561?s=128

Yosuke Katsuki

May 19, 2021
Tweet

Transcript

  1. 準備できていますか? DX時代におけるデータ活用基盤の基本 クラスメソッド株式会社 2021/05/19

  2. 2 本日お話すること • クラスメソッド企業紹介 • 最初にやるべきこと~データを準備する~ • データ分析基盤を作る • まとめに代えて、メッセージ

  3. 会社概要 オープンな発想と高い技術力によりすべての人々の創造活動に貢献し続ける 3 事業内容 子会社 および 関連会社 認定 • クラウド(AWS)に関するコンサルティング、設計、構築、運用

    • サーバーレスアーキテクチャ基盤に関するコンサルティング、設計、 構築、運用 • ビッグデータ分析基盤に関するコンサルティング、設計、構築、運用 • モバイルアプリケーションに関する企画、デザイン、開発、運営 • マーケティング・システム構築のためのサービス「カスタマーストー リー」の企画、開発、運用 • 音声認識(Amazon Alexa)技術に関するコンサルティング アノテーション株式会社 (http://an.classmethod.jp/) アンダースコア株式会社 (https://us.classmethod.jp/) プリズマティクス株式会社 (https://prismatix.jp/) ネクストモード株式会社 (https://nextmode.co.jp/) Classmethod (Europe) GmbH (https://classmethod.de/) Classmethod Canada Inc. (https://www.classmethod.ca/) 名称 代表者 設 立 本 社 拠 点 資本金 従業員 クラスメソッド株式会社 (英語表記:Classmethod, Inc.) 横田 聡 2004年7月7日 東京都千代田区神田佐久間町1丁目11番地 産報佐久間ビル8階 東京、札幌、大阪、岡山、福岡、上越、沖縄、 ベルリン、バンクーバー、グルガオン、バン コク 1億円 500名
  4. 4 月間290万PVを誇る技術ブログ DevelopersIO https://developers.io/ 4 月間290万PV、80万UUを誇る、社員が執筆するIT技術に特化し たオウンドメディアです。 AWS、ビッグデータ、モバイル、IoT などの記事を掲載中です。 ユーザに有益な情報であれば社内のノウハウも

    余すところなく記事化 現在25,000本以上の記事を掲載(2020年8月現在) AWS関連の技術記事を約10,000本掲載 憶測やセオリーだけでなく、 実地検証に基づく「やってみた」記事を公開 日次で記事一覧を取得できるRSSの提供 [RSS]https://feed.classmethod.jp/blog/daily.rss 4
  5. Amazon Web Services様とクラスメソッド 「APN Cousulting Partner of the Year 2020」を受賞

    7年連続「AWSプレミアムコンサルティング パートナー」に認定 AWS認定トレーニング(研修)提供 世界トップクラスの技術認定数 延べ取得資格数 1000超 5
  6. Snowflake様とクラスメソッド 6 https://classmethod.jp/news/20191219-snowflake/

  7. 7 自己紹介 甲木 洋介(@yokatsuki) データアナリティクス事業本部プリセールスアーキテクト データ分析お悩み相談~システム妄想~設計 ~見積~提案~プロジェクト引き渡し、運営

  8. 8 ご覧になりましたか? https://mck.co/2S3TSvl

  9. 9 DXの取り組み:7つの塊

  10. 10 まず最初にやるべきこと データを準備する

  11. 11 現状を知るためのデータを見つける • 基盤構築目的を明確にする • 達成したい事は何? • 見える化…「何を」見える化したいのか? • いい感じに…「どういう状態が」いい感じなのか?

    • データの「入」と「出」を特定する • 入…分析に使われる素材 • どこに、どのような形でデータが存在するのか? • 出…経営層、業務担当者が受け取る情報 • どのような形式で、どのような形で提供するか?
  12. 12 データ分析に適したデータ格納形式 • ディメンショナルデータモデル • 分析の次元(ディメンション)を持つ • ファクト • 主に時系列で発生する事実情報

    • POS売上/アクセスログなど • ディメンション • 分析に必要な切り口の情報 • 「〇〇毎に」の部分
  13. 13 収集データの初歩~データ分析基盤に乗せる前に~ 最初はテキストで表現できるデータから • 顧客名簿、注文・売上… • テキストでないデータ(画像、音声)は、属性情報から 機械が吐き出すデータは事前に精度を確認 • 欠損や明らかな飛び値は発生していないか

    • データの不足は加工時点で補うルールづくりと工夫を 分析しやすい形に事前準備 • 王道のCSV, TSV、最近はJSONそのままでも可
  14. 14 「分析しやすいデータ」とは 整然(Tidy)データ • データ分析や機械学習などで扱いやすいデータ構造 • R言語の普及に多大な貢献をしている Hadley Wickham氏が提唱 Wickham,

    Hadley (2014). "Tidy Data". Journal of Statistical Software. 59 (10). 日本語訳:”整然データとは何か” 整然データの条件 1. 個々の変数が1つの列をなす 2. 個々の観測が1つの行をなす 3. 個々の観測の構成単位の類型が1つの表をなす
  15. 15 分析しやすいデータとは 整然ではないデータの例 整然データの例 • 個々の変数が1つの列をなす • 個々の観測が1つの行をなす • 個々の観測の構成単位の類型が1つの表をなす

    整然データにすることで 「〇〇ごとの✕✕」の集計や、 機械学習における説明変数の選択が シンプルに実現できる
  16. 16 データ分析基盤を作る

  17. 17 データ分析基盤構築 • 基盤構築の選択 • オンプレ or クラウド • データレイク

    or データウェアハウス • 中間処理の検討 • ETL or ELT
  18. 18 基盤構築の選択 • オンプレ or クラウドは「クラウド一択」 • すぐに利用開始 • 見積不要

    • 初期設定不要 • 従量課金 • 利用した時間/データ量に対して課金 • 組織毎に分かれた(サイロ化した)データを集約 • 「素早くやる」と「かっちりやる」は背反事項 • アクセス権管理、データの網羅性 • 社内でバランスを取りつつ、できるだけスピード側に寄せる
  19. 19 基盤構築の選択 • データレイク or データウェアハウス • データレイク:できるだけ生に近いデータ • クラウドストレージにテキストファイル形式で格納

    • 集計の為に最低限必要な加工を施すのが現在の解釈 • データ粒度が小さい(コンマ秒単位~) • データウェアハウス:分析しやすく整理したデータ • 専用のサービスにテーブル形式で格納 • データレイクのデータを集計して作成する事が可能 (データレイクなしでいきなりデータウェアハウスも可) • データ粒度は大きくする(時刻単位~)
  20. 20 基盤構築の選択 • データレイク or データウェアハウス(続き) • データレイク:量>速度 • 生に近いデータを持つため、詳細な検索が可能

    • 反対に、データ量が多い分集計の速度が遅くなる • データウェアハウス:速度>量 • 事前集計済みにするので、検索速度は速い • 反対に、検索粒度が下がる可能性がある • 近年の「レイクハウス」という考え方 • データレイク級の詳細データを データウェアハウスの速度で検索する • …お金の問題が…?
  21. 21 中間処理の検討 • 中間処理とはいわゆるETL • E(Extract):ソースデータの取得 • T(Transform):分析に適した構造変換 • L(Load):データウェアハウスへのロード

    • ETL or ELTはELT(LがTより先)が有利 • 先に目的の場所(データウェアハウスやデータレイク) にロードしてデータを集めてしまい、そこで必要な加工 を施す考え方 • クラウドの従量課金パワーを使って高速処理
  22. 22 まとめに代えて、メッセージ • DXの為にはデータ基盤が欠かせない • 一番大事なのは、基盤上の「データ」 • データの整備に注力し、それ以外は提供物を 最大限利用 •

    データ基盤にはクラウド利用が適切
  23. 23