Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データ分析基盤を作ってみよう~設計編~

 データ分析基盤を作ってみよう~設計編~

NRI Netcom

July 18, 2024
Tweet

More Decks by NRI Netcom

Other Decks in Technology

Transcript

  1. データ分析基盤を作ってみよう ~設計編 ~ NRIネットコム TECH AND DESIGN STUDY #37~ 2024年7月18日

    NRIネットコム株式会社 執行役員 デジタルソリューション事業本部長 クラウドテクニカルセンター センター長 佐々木拓郎
  2. 1 Copyright(C) NRI Netcom, Ltd. All rights reserved. 自己紹介 ◼

    2000年 4月 NRIネットコム株式会社入社 ◼ 現在 執行役員 デジタルソリューション事業本部長 クラウドテクニカルセンター センター長 ◼執筆 佐々木拓郎
  3. 2 Copyright(C) NRI Netcom, Ltd. All rights reserved. NRIネットコムのAWSへの取り組み APNアドバンスド

    コンサルティングパートナー 複数のAWS Award受賞者と 多数のAWS認定者資格 書籍&ブログ執筆
  4. 3 Copyright(C) NRI Netcom, Ltd. All rights reserved. データ分析と私① AWS

    認定の廃止と開始のお知らせ | Amazon Web Services ブログ https://aws.amazon.com/jp/blogs/news/aws-certification-retirements-and-launches/ AWS 認定の廃止と開始のお知らせ 2024 年 4 月に、AWS Certified Data Analytics – Specialty (DAS)、 AWS Certified Database – Specialty (DBS)、AWS Certified: SAP on AWS – Specialty (PAS) の 3 つの AWS 認定を廃止します。テクノロジーの 変化の速さを考慮して、私たちは常に認定を見直し、お客様のニーズにどの 程度応えているかを評価しています。私たちは、Specialty の AWS 認定の 数を減らし、Foundational、Associate、Professional の AWS 認定を強 化することで、お客様により良いサービスを提供する機会があると考えています。 発売日 2023/6/26
  5. 4 Copyright(C) NRI Netcom, Ltd. All rights reserved. データ分析と私② AWSの薄い本Ⅴ

    データ分析基盤を作ってみよう ~性能測定編~ https://booth.pm/ja/items/5231829 技術同人誌も書いています AWSの薄い本Ⅲ データ分析基盤を作ってみよう ~設計編~ https://booth.pm/ja/items/3059020
  6. 5 Copyright(C) NRI Netcom, Ltd. All rights reserved. 今日のお話 データ分析基盤

    何となく知ってるよ AWSで言うと RedshiftやGlueだよね データウェアハウス (DWH) を作ればいいのでしょ? 話す内容のレベル感
  7. 6 Copyright(C) NRI Netcom, Ltd. All rights reserved. データ分析基盤とは? 01

    データの構造とデータ分析基盤 02 ご案内 03
  8. 8 Copyright(C) NRI Netcom, Ltd. All rights reserved. データ分析基盤のレイヤー チ

    ャ ネ ル 、 施 策 接 点 デ ー タ 集 計 ・ 蓄 積 デ ー タ 分 析 基 盤 広告 メール SMS LINE SNS 検索 外部 キャンペーン モバイル アプリ 公式SNS EC 商品 ブランド BtoC会員 BtoB 会員 DL資料 ウェビナー 購買CV 加入CV CRM シス テム 計測ツール データレイク ETL DWH 分析 システム BI ダッシュボード 施策データ 施策利用のための マーケティングツール等 の連携 エンドユーザー接点・行動レイヤー 計測、働き掛けレイヤー データ活用の中枢レイヤー(分析基盤) データの施策活用 送客CV リマケCV 申込CV 分析データ デジマツール (特化型) デジマツール (ワンパッケージ型) 今日のお話の対象
  9. 9 Copyright(C) NRI Netcom, Ltd. All rights reserved. 利用者は、データウェアハウス(DWH)を経由してデータを閲覧する 目的に合わせて加工したデータをデータウェアハウスに格納して分析する

    リアルの世界での 活動履歴 オフラインデータ 用途に応じて データを編集 ETL 構造化した データを 保存する場所 データ ウェアハウス Web等のオンライン上 の活動履歴 オンラインデータ 生データ クエリ 分析・可視化 機械学習 POINT 元データを構造化する段階で、不要な情報が切り捨てられる 別の切り口で分析する際には、元データの再連携が必要 加工済 データ 一般的なシステム構成であるものの、ビジネス環境の変化が加速する事で課題が出てくる場合もある 構造化の過程で、不要な情 報が切り捨てられる
  10. 10 Copyright(C) NRI Netcom, Ltd. All rights reserved. データ分析活動の3つの分類 データ分析の活動は、収集系・蓄積系・分析/処理系の3つに分類して管理すると良い

    データを そのまま保存 構造化した データを保存 用途に適した データを抽出 用途に応じて データを編集 蓄積系 データ分析基盤 リアルの世界での 活動履歴 オフラインデータ 用途に応じて データを編集 ETL 構造化した データを 保存する場所 データ ウェアハウス 用途別に データを 保存する場所 データマート Web等のオンライン上 の活動履歴 オンラインデータ 収集系 転送 様々なデータを そのまま 保存する場所 データレイク 処理・分析系 整形された データで分析 取得 分析・可視化 機械学習 POINT データ分析基盤内でも、役割/用途が違う データウェアハウスとは別にデータレイクが必要
  11. 14 Copyright(C) NRI Netcom, Ltd. All rights reserved. データ変換の課題 構造化の過程で分析に不要なデータは切り捨てられる

    非構造化データ 構造化データ 私の所属する少年野球チームには、 10人の選手がいます。キャッチャーの 山田くんは6年生で、肩が強く身長は 155cmです。ピッチャーの田中くんは 5年生で身長は150cmです。彼は明るく 元気で、チームのムードメーカーです。 ファーストの・・・。 名前 ポジション 身長 学年 山田 田中 ・・・ キャッチャー ピッチャー 150 155 6 5 非構造化データからパターンを見出 して構造化できる (場合がある) 構造化データから 非構造化データの復元は (原則)できない ×
  12. 16 Copyright(C) NRI Netcom, Ltd. All rights reserved. データレイクを3層構造にすると扱いやすい RAWデータレイク・中間データレイク・構造化データレイク

    RAWデータレイク DBデータなど 構造化データ アクセスログなど 半構造化データ データレイク SNS投稿テキストなど 非構造化データ ETL(整形処理) データの形式を統一 フォーマット処理 重複や欠損値の除去 クレンジング処理 個人情報などの除去 マスク処理 中間データレイク DBデータなど 構造化データ アクセスログなど 半構造化データ 構造化されたテキスト 半構造化データ ETL(ビジネス加工) データ置換など ビジネスロジック処理 不要なカラムの除去など フィルタ処理 データソースの属性結合 エンリッチメント処理 構造化データレイク 顧客ごとのSNS反応履歴 構造化データ Eコマースの購買履歴 構造化データ 実店舗の購買履歴 構造化データ ETL(用途別加工) アプリ向けのデータ集約 アプリ用処理 古い情報のアーカイブ アーカイブ用処理 集計などの加工 分析用処理 DWH データの フォーマット はバラバラで OK! データの意味そのものを 変えるような加工はし ない 目的に応じて意味の改変も含めて加工したデータ
  13. 17 Copyright(C) NRI Netcom, Ltd. All rights reserved. データレイクを3層構造 データレイクの3層構造の具体例

    RAWデータレイクに個人情報を入れるか/入れないかも 設計上の非常に大きなポイント
  14. 18 Copyright(C) NRI Netcom, Ltd. All rights reserved. AWSのサービスに当てはめると? それぞれの構成要素に対応した、複数のサービスがある。

    オフラインデータ オンラインデータ データレイク データ ウェアハウス データマート 分析・可視化 機械学習 ETL データ分析基盤 リアルの世界 での活動履歴 Web等の オンライン上の 活動履歴 Amazon S3 Amazon EMR AWS Glue Amazon Athena Amazon Redshift Amazon Aurora Amazon Kinesis Amazon SageMaker Amazon QuickSight POINT データレイクとしてはS3を利用する。 それ以外は、規模・用途に応じて使い分ける 蓄積系 収集系 処理・分析系 データを そのまま保存 構造化した データを保存 用途に適した データを抽出 用途に応じて データを編集 整形された データで分析 転送 取得
  15. 20 Copyright(C) NRI Netcom, Ltd. All rights reserved. データレイクとデータウェアハウスの課題 ◼データウェアハウスの課題

    ⚫構造化データの処理に適しているが、非構造化データ・半構造化データは扱いづらい ⚫ストレージコストが高くなりがち ⚫複数チームから利用される場合の処理負荷 ◼データレイクの課題 ⚫データの沼地(Swamp)の問題。どこにどんなデータがあるのか解らない ⚫メタデータ、カタログ整理が必要 ⚫データウェアハウスとデータを二重で持つことになる
  16. 21 Copyright(C) NRI Netcom, Ltd. All rights reserved. レイクハウスという考え方と製品が台頭してきている データウェアハウスとデータレイクを組み合わせたレイクハウス

    ETL データ ウェアハウス データレイク データレイク メタデータレイヤー ガバナンスレイヤー ETL BI/Report 機械学習 BI/Report 機械学習 データレイクハウス
  17. 22 Copyright(C) NRI Netcom, Ltd. All rights reserved. まとめ ◼データ分析基盤の主な構成要素

    ⚫ データソース ⚫ データレイク ⚫ ETL ⚫ データウェアハウス ◼データの構造 ⚫ 構造化データ、半構造化データ、非構造化データ ⚫ 構造化の過程のデータの切り捨て(非可逆性) ⚫ 元のデータを保持しておく必要がある ⇒ データレイクの重要性 ◼データレイクの構造化 ⚫ データレイクを使い易くするために、3層構造にすると使いやすい ⚫ RAWデータレイク、中間データレイク、構造化データレイク ⚫ DWHを使わずにデータレイクを直接使うデータレイクハウスという考え方もある
  18. 24 Copyright(C) NRI Netcom, Ltd. All rights reserved. 30分でわかる!AWSコスト削減方法とマルチアカウント管理 「30分でわかる!AWSコスト削減方法とマルチアカウント管理

    AWS利用料削減と、組織のマルチアカウント管理やセキュリティ 統制を同時に実現するには? 」 【こんな方におススメです】 ・AWSアカウントの管理を任されている方 ・セキュリティやガバナンスの対策を検討中の方 ・AWSの利用料が増えて困っている方 ・AWS導入の予定があり、情報収集をしたい方 【ウェビナーのお知らせ】7/23(火)開催 「30分でわかる!AWSコスト削減方法とマルチアカウント管理」 https://cloud.nri-net.com/topics/202407-02/ 7月23日(火) 12:00~12:40
  19. 25 Copyright(C) NRI Netcom, Ltd. All rights reserved. 「AWS IAM

    のアンチパターンとAWSが考える”最低権限実現へのアプローチ”概略解説」 AWS IAM のアンチパターンとAWSが考える ”最低権限実現へのアプローチ”概略解説 ~AWS IAM Identity Center の活用を検討してみましょう~ 【こんな方におススメです】 ・AWS IAMの利用や管理において、まずは何に気を付ければよいのか悩 んでいる方 ・AWS IAMの最小権限実現に悩んだことがある、もしくは、悩んでいる 方 ・AWS IAM Identity Centerを利用しようとしている、もしくは、利用し ている方 【ウェビナーのお知らせ】8/2(金)開催「AWS IAM のアンチパター ンとAWSが考える”最低権限実現へのアプローチ”概略解説」 https://cloud.nri-net.com/topics/202407-05/ 8月2日(金) 12:00~13:00