$30 off During Our Annual Pro Sale. View Details »

AWSで作るデータ分析基盤サービスの選定と設計のポイント

 AWSで作るデータ分析基盤サービスの選定と設計のポイント

2021年3月18日に実施したデータ活用ウェビナーの登壇資料

データ分析基盤を作る上での設計のポイントと、AWSのサービス選定について

Takuro SASAKI

July 19, 2021
Tweet

More Decks by Takuro SASAKI

Other Decks in Technology

Transcript

  1. 2021年3月18日
    NRIネットコム株式会社 クラウド事業推進部
    佐々木 拓郎
    AWSで作る
    データ分析基盤サービスの
    選定と設計のポイント
    Provided by
    NRI Netcom

    View Slide

  2. 1
    Copyright(C) NRI Netcom, Ltd. All rights reserved.
    NRIネットコムについて
    データ分析基盤の
    作り方
    データ分析基盤の
    プロジェクトの進め方
    01
    02
    03

    View Slide

  3. 2
    Copyright(C) NRI Netcom, Ltd. All rights reserved.
    佐々木 拓郎
    自己紹介
    ◼ 2000年 4月 NRIネットコム株式会社入社
    ◼ 現在 クラウド事業推進部 部長
    ◼ 認定スクラムマスター(アジャイル)
    ◼ 執筆
    Amazon Web Services パターン別構築・運用ガイド・Amazon Web
    Services クラウドネイティブ・アプリケーション開発技法・Amazon
    Web Services 業務システム設計・移行ガイド …他多数
    ◼ Webのシステムアーキテクト
    クラウドを中心に、フロントエンド・バックエンドのシステム全般
    ◼ 情報処理技術者試験
    基本情報技術者、ソフトウェア開発技術者、情報セキュリティスペ
    シャリスト
    ◼ AWS認定

    View Slide

  4. 3
    Copyright(C) NRI Netcom, Ltd. All rights reserved.
    APNアドバンスド
    コンサルティングパートナー
    NRIネットコムのAWSへの取り組み
    NRIネットコムについて
    2年連続でアンバサダーが
    選出
    書籍執筆
    NRIとともに活動していましたが、
    2016年より独自のパートナーとし
    て登録しました。2017年にはAPN
    アドバンスドコンサルティング
    パートナーに認定されています。
    また、コンピテンシーの取得も
    2019年より開始し、モバイルコン
    ピテンシーを取得しています。
    AWSに関する高い技術と情報発信
    を評価するアンバサダー制度が日
    本に始まって以来、2年連続選出さ
    れています。Top Engineersも4名
    在籍し、現時点で取得可能な全資
    格取得者も複数名在籍しています。
    高い技術力を持った人材でAWSプ
    ロジェクトにあたっています。
    培ったAWSのノウハウを元に、社
    内のメンバーの有志たちでAWS本
    の執筆に取り組んでいます。毎年
    コンスタントに1~2冊づつ出版
    しています。どの本も非常に高い
    評価を受けています。

    View Slide

  5. 4
    Copyright(C) NRI Netcom, Ltd. All rights reserved.
    AWSのサービスを活用したクラウド上で
    のシステムの構築手順と設定。
    目的に応じたサーバ構築方法と、サービ
    スの選び方をわかりやすく解説します。
    システムの構築と運用の現場で培った実
    践的なノウハウが凝縮された一冊です。
    NRIネットコム株式会社 佐々木 拓郎, 林 晋一郎,
    小西 秀和, 佐藤 瞬 (著)
    好評販売中の前著『AmazonWebServices
    パターン別構築・運用ガイド』に続く、
    AWSガイドの第2弾。
    AWSのサービス群を上手く使って効率的
    にシステム/アプリケーションを開発する
    方法を主題としています。
    NRIネットコム株式会社 佐々木 拓郎 (監著), 佐藤
    瞬, 石川 修, 高柳 怜士, 佐藤 雄也, 岸本 勇貴 (著)
    ECサイトから基幹システムまで、企業の
    データ・サーバをAWSへ移行するための
    ネットワーク設計・構築、運用・管理の
    ノウハウを紹介。著者陣のノウハウを凝
    縮して、一般的な企業にAWSを導入する
    際のベストプラクティスをお届けします。
    NRIネットコム株式会社 佐々木 拓郎, 林 晋一郎
    野村総合研究所 瀬戸島 敏宏, 宮川 亮,宮川 亮(著)
    NRIネットコム社員執筆書籍
    事例
    Amazon Web Services
    パターン別構築運用ガイド
    一番大切な知識と技術が身に
    つく Amazon Web Services
    クラウドネイティブ・
    アプリケーション開発技法
    Amazon Web Services 業務
    システム設計・移行ガイド
    2016/4/20
    初版 2015/3/25 2018/1/20
    改訂 2018/3/23

    View Slide

  6. 5
    Copyright(C) NRI Netcom, Ltd. All rights reserved.
    合格への最短ルート!
    実際に豊富な構築経験と深い知識を持っ
    た著者が、試験の合格のポイントになる
    知識と解答の考え方が理解できるように
    構成しています。練習問題で知識を解答
    につなげる力がしっかりと身につきます。
    NRIネットコム株式会社 佐々木 拓郎 , 林 晋一郎,
    金澤 圭(著)
    合格に必要な知識はここにある!
    金融業やエンタープライズには必須とな
    りつつある認定を、豊富な経験と知識を
    持った著者陣が、合格するために必要な
    知識をわかりやすく解説しています。
    NRIネットコム株式会社 佐々木 拓郎 (監著), 佐藤
    瞬, 石川 修, 高柳 怜士, 佐藤 雄也, 岸本 勇貴 (著)
    Googleアナリティクス認定パートナーだ
    からこそ書ける、豊富な導入経験で培っ
    たノウハウを凝縮。目的に合わせてデー
    タを収集するための、設定・実行方法の
    手順をしっかりと解説。豊富なケースス
    タディを掲載。
    NRIネットコム株式会社 神崎健太, 坂本祐, 齋藤圭
    祐, 山川俊哉 (著)
    NRIネットコム社員執筆書籍
    事例
    AWS認定資格試験テキスト
    AWS認定 ソリューション
    アーキテクト-アソシエイト
    要点整理から攻略する『AWS
    認定セキュリティ専門知識』
    徹底活用 Google アナリティ
    クス
    デジタルマーケティングを成功に導く
    解析・改善のための操作ガイド
    2020/7/29
    初版 2019/4/20 2019/10/23
    改訂 2019/4/20

    View Slide

  7. 6
    Copyright(C) NRI Netcom, Ltd. All rights reserved.
    NRIネットコムについて
    データ分析基盤の
    作り方
    データ分析基盤の
    プロジェクトの進め方
    01
    02
    03

    View Slide

  8. 7
    Copyright(C) NRI Netcom, Ltd. All rights reserved.
    データ分析基盤とは?
    データ分析基盤の作り方
    データ分析の活動は、収集系・蓄積系・分析/処理系の3つで分類される
    データを
    そのまま保存
    構造化した
    データを保存
    用途に適した
    データを抽出
    用途に応じて
    データを編集
    蓄積系
    データ分析基盤
    リアルの世界で
    の活動履歴
    オフライン
    データ
    用途に応じて
    データを編集
    ETL
    構造化した
    データを
    保存する場所
    データ
    ウェアハウス
    用途別に
    データを
    保存する場所
    データマート
    Web等のオンライン
    上の活動履歴
    オンライン
    データ
    収集系
    転送 様々なデータを
    そのまま
    保存する場所
    データレイク
    処理・分析系
    整形された
    データで分析
    取得
    分析・可視化
    機械学習
    POINT
    データ分析基盤内でも、役割/用途が違う
    蓄積系と分析/処理系の分離が重要

    View Slide

  9. 8
    Copyright(C) NRI Netcom, Ltd. All rights reserved.
    オフラインデータ データ
    ウェアハウス
    データマート
    オンラインデータ
    データレイク 分析・可視化
    機械学習
    データマート
    データマート
    データ分析基盤のデータ例
    データ分析基盤の作り方
    実際に格納されるデータのイメージ
    実店舗での購買
    リアルでの行動
    サイト内の遷移
    Webサイト
    利用履歴・遷移
    スマホアプリ
    3rd Party Data
    パブリックDMP
    SNS・アプリストア
    口コミ、ランキング
    広告出稿
    広告
    データソース データ分析基盤
    ETL
    ETL
    ETL
    ETL
    SQL
    実店舗での購買
    リアルでの行動
    サイト内の遷移
    Webサイト
    利用履歴・遷移
    スマホアプリ
    3rd Party Data
    パブリックDMP
    SNS・アプリストア
    口コミ、ランキング
    広告出稿
    広告
    実店舗とEコマースの
    購買履歴を統合した
    データ
    統合購買データ
    広告出稿とSNS上の
    反応を統合したデー

    広告反応データ
    各所に設置されたセ
    ンサーデータを統合
    したもの
    統合センサー
    データ
    顧客が次に何を購入
    するか予測する
    モデル
    購買予測モデル
    購買予測モデルを学
    習させるための
    データ
    モデル学習用
    データ
    BIツールでLTV分析を
    行うためのデータ
    LTV分析用データ
    各店舗における温湿
    度の時系列データ
    環境測定用
    データ
    主に経営のための
    データ可視化ツール
    BIツール
    統計解析を用いて
    データの分析を行う
    ツール
    統計解析ツール
    SQLなどで限定的な
    分析を行うツール
    アドホック分析
    ツール
    センサー
    温度、湿度、位置情報
    Web行動履歴、来店
    履歴、位置情報など
    を統合したデータ
    行動履歴データ
    RAWデータ データをそのまま保存 構造化したデータを保存 用途に適したデータを抽出 整形されたデータで分析
    API
    JDBC
    データ活用
    転送 整形
    抽出
    抽出
    抽出
    取得
    取得
    取得

    View Slide

  10. 9
    Copyright(C) NRI Netcom, Ltd. All rights reserved.
    データレイクを3層構造にすると扱いやすい
    データ分析基盤の作り方
    RAWデータレイク・中間データレイク・構造化データレイク
    RAWデータレイク
    DBデータなど
    構造化データ
    アクセスログなど
    半構造化データ
    データレイク
    SNS投稿テキストなど
    非構造化データ
    ETL(整形処理)
    データの形式を統一
    フォーマット処理
    重複や欠損値の除去
    クレンジング処理
    個人情報などの除去
    マスク処理
    中間データレイク
    DBデータなど
    構造化データ
    アクセスログなど
    半構造化データ
    構造化されたテキスト
    半構造化データ
    ETL(ビジネス加工)
    データ置換など
    ビジネスロジック処理
    不要なカラムの除去など
    フィルタ処理
    データソースの属性結合
    エンリッチメント処理
    構造化データレイク
    顧客ごとのSNS反応履歴
    構造化データ
    Eコマースの購買履歴
    構造化データ
    実店舗の購買履歴
    構造化データ
    ETL(用途別加工)
    アプリ向けのデータ集約
    アプリ用処理
    古い情報のアーカイブ
    アーカイブ用処理
    集計などの加工
    分析用処理
    DWH
    データの
    フォーマット
    はバラバラで
    OK!
    データの意味その
    ものを変えるよう
    な加工はしない
    目的に応じて意味の改変も含めて加工したデータ

    View Slide

  11. 10
    Copyright(C) NRI Netcom, Ltd. All rights reserved.
    AWSのサービスに当てはめると?
    データ分析基盤の作り方
    それぞれの構成要素に対応した、複数のサービスがある。
    オフラインデータ
    オンラインデータ
    データレイク データ
    ウェアハウス
    データマート 分析・可視化
    機械学習
    ETL
    データ分析基盤
    リアルの世界
    での活動履歴
    Web等の
    オンライン上
    の活動履歴 Amazon S3
    Amazon EMR
    AWS Glue
    Amazon Athena
    Amazon
    Redshift
    Amazon
    Aurora
    Amazon
    Kinesis
    Amazon
    SageMaker
    Amazon
    QuickSight
    POINT
    データレイクとしてはS3を利用する。
    それ以外は、規模・用途に応じて使い分ける
    蓄積系
    収集系 処理・分析系
    データを
    そのまま保存
    構造化した
    データを保存
    用途に適した
    データを抽出
    用途に応じて
    データを編集
    整形された
    データで分析
    転送 取得

    View Slide

  12. 11
    Copyright(C) NRI Netcom, Ltd. All rights reserved.
    ETL処理
    データ分析基盤の作り方
    データ分析基盤構築の肝はデータ変換処理(ETL)。ELTという考え方もある
    データソース ETL基盤
    データソース データターゲット
    ⚫ 非構造化データを扱える
    ⚫ データ量削減により保管コスト減
    ⚫ 集計や結合処理は比較的遅い
    ⚫ 構造化データのみを扱う場合に適用可
    ⚫ データ量はそのままなので保管コスト増
    ⚫ 集計や結合処理が比較的早い
    データターゲット
    Extract
    Extract & Load
    Transform
    Load
    Transform
    POINT
    データ分析基盤は一度作って終了ではない
    利用者自身で改善し続ける必要があるいので技術の選定が大事
    SQLを中心で開発できる
    DWH
    DWH

    View Slide

  13. 12
    Copyright(C) NRI Netcom, Ltd. All rights reserved.
    NRIネットコムについて
    データ分析基盤の
    作り方
    データ分析基盤の
    プロジェクトの進め方
    01
    02
    03

    View Slide

  14. 13
    Copyright(C) NRI Netcom, Ltd. All rights reserved.
    データ分析基盤のプロジェクトのはじまり
    データ分析基盤のプロジェクトの進め方
    経営からビジョンだけ落ちてきた
    よくある始まり方
    社内のビッグデータを使って
    AIで業務革新したいので、
    分析基盤を作って!!
    へ!?
    何やったらいいの??

    View Slide

  15. 14
    Copyright(C) NRI Netcom, Ltd. All rights reserved.
    データ分析基盤のプロジェクトの工程
    データ分析基盤のプロジェクトの進め方
    分析 収集 保存 変換
    データ活用の
    目的は?
    そのためにどの
    データが必要?
    分析のためのデータ
    をデータ分析基盤に
    蓄積
    利用しやすいように
    データを変換
    検討フェーズ 構築フェーズ
    まずここが大事

    View Slide

  16. 15
    Copyright(C) NRI Netcom, Ltd. All rights reserved.
    データ分析基盤のプロジェクトの現実
    データ分析基盤のプロジェクトの進め方
    分析
    多くの場合は、2つの工程が並行する
    POINT
    作り始めた時に、要件は定まっておらず
    作っている途中に要件変更は(必ず)発生する
    分析
    変換
    保存
    収集

    View Slide

  17. 16
    Copyright(C) NRI Netcom, Ltd. All rights reserved.
    スモールスタート
    データ分析基盤のプロジェクトの進め方
    小さく作る。でも、大きくなるという前提で考える
    データ活用型業務の適用範囲
    Final STEP
    次年度以降










    POINT
    データレイクとDWHの分離をしっかりしておくと、
    後々の拡張がしやすい
    1st STEP
    初年度
    2nd STEP
    次年度
    複数部署を対象に範囲拡大
    運用体制も徐々に整備
    全社横断でのデータ活用
    一部の部署でパイロットス
    タートなど、関係者を絞り
    込んで小さくスタート

    View Slide

  18. 17
    Copyright(C) NRI Netcom, Ltd. All rights reserved.
    下記のような観点から統制項目を洗い出し、それぞれの実施内容と担当者・責任分界点を決める。
     アクセス制御
     暗号化
     物理的/環境的セキュリティ
     バックアップ
     ログ取得/監視
     技術的脆弱性管理
     冗長性
     個人情報の取扱方針
    データ分析基盤とセキュリティ
    データ分析基盤のプロジェクトの進め方
    データ分析基盤は非常に機微な情報が集まるシステム。セキュリティは重要
    POINT 上記のような観点で考えられる人が必ず必要

    View Slide

  19. 18
    Copyright(C) NRI Netcom, Ltd. All rights reserved.
    データ分析基盤のプロジェクトに必要なメンバー
    データ分析基盤のプロジェクトの進め方
    インフラエンジニア
    • I/F方式
    • セキュリティ
    • システム運用設計
    アプリケーションエンジニア
    • 分析基盤開発
    • BI開発
    • 各種ツール導入
    • 運用PDCAご支援
    データサイエンティスト
    アドホック分析による
    仮説発見・検証
    データエンジニア
    • 業務理解
    • データ整理
    • データ設計
    コンサル
    • ロードマップ策定
    • 施策検討支援
    • 分析サポート
    • 組織設計
















    データ分析基盤構築のプロジェクトには、様々な技能を持った人が必要となる

    View Slide

  20. 19
    Copyright(C) NRI Netcom, Ltd. All rights reserved.
    NRIネットコムについて
    データ分析基盤の
    作り方
    データ分析基盤の
    プロジェクトの進め方
    01
    02
    03

    View Slide

  21. 20
    Copyright(C) NRI Netcom, Ltd. All rights reserved.
    AWSを利用したデータ分析基盤の構築支援
    NRIネットコムについて
    8.
    7.
    6.
    5.
    4.
    3.
    2.
    1.

    View Slide

  22. 21
    Copyright(C) NRI Netcom, Ltd. All rights reserved.
    AWS Organizations対応のAWSアカウントサービス
    NRIネットコムについて
    AWS Organizations
    AWS Cloud AWS Cloud AWS Cloud AWS Cloud
    AWS Organizations
    AWS Cloud AWS Cloud AWS Cloud AWS Cloud

    View Slide

  23. View Slide