Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AWSで作るデータ分析基盤サービスの選定と設計のポイント
Search
Takuro SASAKI
July 19, 2021
Technology
4
5.6k
AWSで作るデータ分析基盤サービスの選定と設計のポイント
2021年3月18日に実施したデータ活用ウェビナーの登壇資料
データ分析基盤を作る上での設計のポイントと、AWSのサービス選定について
Takuro SASAKI
July 19, 2021
Tweet
Share
More Decks by Takuro SASAKI
See All by Takuro SASAKI
技術書を書く技術 JAWS DAYS 2024
takuros
16
4.9k
パフォーマンスとコスト制約から考えるアーキテクチャ設計(JAWSUG東京ランチLT会#4)
takuros
2
1k
Storage-JAWS第0回 昔話で振り返るAWSの歴史 ~ストレージ編~
takuros
1
3.5k
エンジニアとしての自分とマネージャーとしての自分の狭間で、どう成長していくのか?(AWS DevDay 2023登壇資料)
takuros
30
13k
JAWSUG初心者支部 IAMの「あ」の話
takuros
4
8.4k
Security-JAWS-Speciality-Study
takuros
0
5.3k
CloudFormation StackSets with AWS Organizations
takuros
3
5.6k
AWS認定セキュリティ - 専門知識 AWSのサービスを使って楽してセキュリティ向上!!
takuros
5
5k
AWSアカウントのセキュリティを守る IAM編
takuros
1
2.8k
Other Decks in Technology
See All in Technology
Amazon Personalizeのレコメンドシステム構築、実際何するの?〜大体10分で具体的なイメージをつかむ〜
kniino
1
100
BLADE: An Attempt to Automate Penetration Testing Using Autonomous AI Agents
bbrbbq
0
300
Amplify Gen2 Deep Dive / バックエンドの型をいかにしてフロントエンドへ伝えるか #TSKaigi #TSKaigiKansai #AWSAmplifyJP
tacck
PRO
0
370
初心者向けAWS Securityの勉強会mini Security-JAWSを9ヶ月ぐらい実施してきての近況
cmusudakeisuke
0
120
インフラとバックエンドとフロントエンドをくまなく調べて遅いアプリを早くした件
tubone24
1
430
rootlessコンテナのすゝめ - 研究室サーバーでもできる安全なコンテナ管理
kitsuya0828
3
380
透過型SMTPプロキシによる送信メールの可観測性向上: Update Edition / Improved observability of outgoing emails with transparent smtp proxy: Update edition
linyows
2
210
Terraform CI/CD パイプラインにおける AWS CodeCommit の代替手段
hiyanger
1
240
CysharpのOSS群から見るModern C#の現在地
neuecc
2
3.2k
OCI 運用監視サービス 概要
oracle4engineer
PRO
0
4.8k
IBC 2024 動画技術関連レポート / IBC 2024 Report
cyberagentdevelopers
PRO
0
110
【Pycon mini 東海 2024】Google Colaboratoryで試すVLM
kazuhitotakahashi
2
500
Featured
See All Featured
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.1k
Building Flexible Design Systems
yeseniaperezcruz
327
38k
jQuery: Nuts, Bolts and Bling
dougneiner
61
7.5k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
169
50k
Into the Great Unknown - MozCon
thekraken
32
1.5k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
0
89
XXLCSS - How to scale CSS and keep your sanity
sugarenia
246
1.3M
Optimizing for Happiness
mojombo
376
70k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
Code Reviewing Like a Champion
maltzj
520
39k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
38
1.8k
Automating Front-end Workflow
addyosmani
1366
200k
Transcript
2021年3月18日 NRIネットコム株式会社 クラウド事業推進部 佐々木 拓郎 AWSで作る データ分析基盤サービスの 選定と設計のポイント Provided by
NRI Netcom
1 Copyright(C) NRI Netcom, Ltd. All rights reserved. NRIネットコムについて データ分析基盤の
作り方 データ分析基盤の プロジェクトの進め方 01 02 03
2 Copyright(C) NRI Netcom, Ltd. All rights reserved. 佐々木 拓郎
自己紹介 ◼ 2000年 4月 NRIネットコム株式会社入社 ◼ 現在 クラウド事業推進部 部長 ◼ 認定スクラムマスター(アジャイル) ◼ 執筆 Amazon Web Services パターン別構築・運用ガイド・Amazon Web Services クラウドネイティブ・アプリケーション開発技法・Amazon Web Services 業務システム設計・移行ガイド …他多数 ◼ Webのシステムアーキテクト クラウドを中心に、フロントエンド・バックエンドのシステム全般 ◼ 情報処理技術者試験 基本情報技術者、ソフトウェア開発技術者、情報セキュリティスペ シャリスト ◼ AWS認定
3 Copyright(C) NRI Netcom, Ltd. All rights reserved. APNアドバンスド コンサルティングパートナー
NRIネットコムのAWSへの取り組み NRIネットコムについて 2年連続でアンバサダーが 選出 書籍執筆 NRIとともに活動していましたが、 2016年より独自のパートナーとし て登録しました。2017年にはAPN アドバンスドコンサルティング パートナーに認定されています。 また、コンピテンシーの取得も 2019年より開始し、モバイルコン ピテンシーを取得しています。 AWSに関する高い技術と情報発信 を評価するアンバサダー制度が日 本に始まって以来、2年連続選出さ れています。Top Engineersも4名 在籍し、現時点で取得可能な全資 格取得者も複数名在籍しています。 高い技術力を持った人材でAWSプ ロジェクトにあたっています。 培ったAWSのノウハウを元に、社 内のメンバーの有志たちでAWS本 の執筆に取り組んでいます。毎年 コンスタントに1~2冊づつ出版 しています。どの本も非常に高い 評価を受けています。
4 Copyright(C) NRI Netcom, Ltd. All rights reserved. AWSのサービスを活用したクラウド上で のシステムの構築手順と設定。
目的に応じたサーバ構築方法と、サービ スの選び方をわかりやすく解説します。 システムの構築と運用の現場で培った実 践的なノウハウが凝縮された一冊です。 NRIネットコム株式会社 佐々木 拓郎, 林 晋一郎, 小西 秀和, 佐藤 瞬 (著) 好評販売中の前著『AmazonWebServices パターン別構築・運用ガイド』に続く、 AWSガイドの第2弾。 AWSのサービス群を上手く使って効率的 にシステム/アプリケーションを開発する 方法を主題としています。 NRIネットコム株式会社 佐々木 拓郎 (監著), 佐藤 瞬, 石川 修, 高柳 怜士, 佐藤 雄也, 岸本 勇貴 (著) ECサイトから基幹システムまで、企業の データ・サーバをAWSへ移行するための ネットワーク設計・構築、運用・管理の ノウハウを紹介。著者陣のノウハウを凝 縮して、一般的な企業にAWSを導入する 際のベストプラクティスをお届けします。 NRIネットコム株式会社 佐々木 拓郎, 林 晋一郎 野村総合研究所 瀬戸島 敏宏, 宮川 亮,宮川 亮(著) NRIネットコム社員執筆書籍 事例 Amazon Web Services パターン別構築運用ガイド 一番大切な知識と技術が身に つく Amazon Web Services クラウドネイティブ・ アプリケーション開発技法 Amazon Web Services 業務 システム設計・移行ガイド 2016/4/20 初版 2015/3/25 2018/1/20 改訂 2018/3/23
5 Copyright(C) NRI Netcom, Ltd. All rights reserved. 合格への最短ルート! 実際に豊富な構築経験と深い知識を持っ
た著者が、試験の合格のポイントになる 知識と解答の考え方が理解できるように 構成しています。練習問題で知識を解答 につなげる力がしっかりと身につきます。 NRIネットコム株式会社 佐々木 拓郎 , 林 晋一郎, 金澤 圭(著) 合格に必要な知識はここにある! 金融業やエンタープライズには必須とな りつつある認定を、豊富な経験と知識を 持った著者陣が、合格するために必要な 知識をわかりやすく解説しています。 NRIネットコム株式会社 佐々木 拓郎 (監著), 佐藤 瞬, 石川 修, 高柳 怜士, 佐藤 雄也, 岸本 勇貴 (著) Googleアナリティクス認定パートナーだ からこそ書ける、豊富な導入経験で培っ たノウハウを凝縮。目的に合わせてデー タを収集するための、設定・実行方法の 手順をしっかりと解説。豊富なケースス タディを掲載。 NRIネットコム株式会社 神崎健太, 坂本祐, 齋藤圭 祐, 山川俊哉 (著) NRIネットコム社員執筆書籍 事例 AWS認定資格試験テキスト AWS認定 ソリューション アーキテクト-アソシエイト 要点整理から攻略する『AWS 認定セキュリティ専門知識』 徹底活用 Google アナリティ クス デジタルマーケティングを成功に導く 解析・改善のための操作ガイド 2020/7/29 初版 2019/4/20 2019/10/23 改訂 2019/4/20
6 Copyright(C) NRI Netcom, Ltd. All rights reserved. NRIネットコムについて データ分析基盤の
作り方 データ分析基盤の プロジェクトの進め方 01 02 03
7 Copyright(C) NRI Netcom, Ltd. All rights reserved. データ分析基盤とは? データ分析基盤の作り方
データ分析の活動は、収集系・蓄積系・分析/処理系の3つで分類される データを そのまま保存 構造化した データを保存 用途に適した データを抽出 用途に応じて データを編集 蓄積系 データ分析基盤 リアルの世界で の活動履歴 オフライン データ 用途に応じて データを編集 ETL 構造化した データを 保存する場所 データ ウェアハウス 用途別に データを 保存する場所 データマート Web等のオンライン 上の活動履歴 オンライン データ 収集系 転送 様々なデータを そのまま 保存する場所 データレイク 処理・分析系 整形された データで分析 取得 分析・可視化 機械学習 POINT データ分析基盤内でも、役割/用途が違う 蓄積系と分析/処理系の分離が重要
8 Copyright(C) NRI Netcom, Ltd. All rights reserved. オフラインデータ データ
ウェアハウス データマート オンラインデータ データレイク 分析・可視化 機械学習 データマート データマート データ分析基盤のデータ例 データ分析基盤の作り方 実際に格納されるデータのイメージ 実店舗での購買 リアルでの行動 サイト内の遷移 Webサイト 利用履歴・遷移 スマホアプリ 3rd Party Data パブリックDMP SNS・アプリストア 口コミ、ランキング 広告出稿 広告 データソース データ分析基盤 ETL ETL ETL ETL SQL 実店舗での購買 リアルでの行動 サイト内の遷移 Webサイト 利用履歴・遷移 スマホアプリ 3rd Party Data パブリックDMP SNS・アプリストア 口コミ、ランキング 広告出稿 広告 実店舗とEコマースの 購買履歴を統合した データ 統合購買データ 広告出稿とSNS上の 反応を統合したデー タ 広告反応データ 各所に設置されたセ ンサーデータを統合 したもの 統合センサー データ 顧客が次に何を購入 するか予測する モデル 購買予測モデル 購買予測モデルを学 習させるための データ モデル学習用 データ BIツールでLTV分析を 行うためのデータ LTV分析用データ 各店舗における温湿 度の時系列データ 環境測定用 データ 主に経営のための データ可視化ツール BIツール 統計解析を用いて データの分析を行う ツール 統計解析ツール SQLなどで限定的な 分析を行うツール アドホック分析 ツール センサー 温度、湿度、位置情報 Web行動履歴、来店 履歴、位置情報など を統合したデータ 行動履歴データ RAWデータ データをそのまま保存 構造化したデータを保存 用途に適したデータを抽出 整形されたデータで分析 API JDBC データ活用 転送 整形 抽出 抽出 抽出 取得 取得 取得
9 Copyright(C) NRI Netcom, Ltd. All rights reserved. データレイクを3層構造にすると扱いやすい データ分析基盤の作り方
RAWデータレイク・中間データレイク・構造化データレイク RAWデータレイク DBデータなど 構造化データ アクセスログなど 半構造化データ データレイク SNS投稿テキストなど 非構造化データ ETL(整形処理) データの形式を統一 フォーマット処理 重複や欠損値の除去 クレンジング処理 個人情報などの除去 マスク処理 中間データレイク DBデータなど 構造化データ アクセスログなど 半構造化データ 構造化されたテキスト 半構造化データ ETL(ビジネス加工) データ置換など ビジネスロジック処理 不要なカラムの除去など フィルタ処理 データソースの属性結合 エンリッチメント処理 構造化データレイク 顧客ごとのSNS反応履歴 構造化データ Eコマースの購買履歴 構造化データ 実店舗の購買履歴 構造化データ ETL(用途別加工) アプリ向けのデータ集約 アプリ用処理 古い情報のアーカイブ アーカイブ用処理 集計などの加工 分析用処理 DWH データの フォーマット はバラバラで OK! データの意味その ものを変えるよう な加工はしない 目的に応じて意味の改変も含めて加工したデータ
10 Copyright(C) NRI Netcom, Ltd. All rights reserved. AWSのサービスに当てはめると? データ分析基盤の作り方
それぞれの構成要素に対応した、複数のサービスがある。 オフラインデータ オンラインデータ データレイク データ ウェアハウス データマート 分析・可視化 機械学習 ETL データ分析基盤 リアルの世界 での活動履歴 Web等の オンライン上 の活動履歴 Amazon S3 Amazon EMR AWS Glue Amazon Athena Amazon Redshift Amazon Aurora Amazon Kinesis Amazon SageMaker Amazon QuickSight POINT データレイクとしてはS3を利用する。 それ以外は、規模・用途に応じて使い分ける 蓄積系 収集系 処理・分析系 データを そのまま保存 構造化した データを保存 用途に適した データを抽出 用途に応じて データを編集 整形された データで分析 転送 取得
11 Copyright(C) NRI Netcom, Ltd. All rights reserved. ETL処理 データ分析基盤の作り方
データ分析基盤構築の肝はデータ変換処理(ETL)。ELTという考え方もある データソース ETL基盤 データソース データターゲット ⚫ 非構造化データを扱える ⚫ データ量削減により保管コスト減 ⚫ 集計や結合処理は比較的遅い ⚫ 構造化データのみを扱う場合に適用可 ⚫ データ量はそのままなので保管コスト増 ⚫ 集計や結合処理が比較的早い データターゲット Extract Extract & Load Transform Load Transform POINT データ分析基盤は一度作って終了ではない 利用者自身で改善し続ける必要があるいので技術の選定が大事 SQLを中心で開発できる DWH DWH
12 Copyright(C) NRI Netcom, Ltd. All rights reserved. NRIネットコムについて データ分析基盤の
作り方 データ分析基盤の プロジェクトの進め方 01 02 03
13 Copyright(C) NRI Netcom, Ltd. All rights reserved. データ分析基盤のプロジェクトのはじまり データ分析基盤のプロジェクトの進め方
経営からビジョンだけ落ちてきた よくある始まり方 社内のビッグデータを使って AIで業務革新したいので、 分析基盤を作って!! へ!? 何やったらいいの??
14 Copyright(C) NRI Netcom, Ltd. All rights reserved. データ分析基盤のプロジェクトの工程 データ分析基盤のプロジェクトの進め方
分析 収集 保存 変換 データ活用の 目的は? そのためにどの データが必要? 分析のためのデータ をデータ分析基盤に 蓄積 利用しやすいように データを変換 検討フェーズ 構築フェーズ まずここが大事
15 Copyright(C) NRI Netcom, Ltd. All rights reserved. データ分析基盤のプロジェクトの現実 データ分析基盤のプロジェクトの進め方
分析 多くの場合は、2つの工程が並行する POINT 作り始めた時に、要件は定まっておらず 作っている途中に要件変更は(必ず)発生する 分析 変換 保存 収集
16 Copyright(C) NRI Netcom, Ltd. All rights reserved. スモールスタート データ分析基盤のプロジェクトの進め方
小さく作る。でも、大きくなるという前提で考える データ活用型業務の適用範囲 Final STEP 次年度以降 デ ー タ 活 用 で 狙 う 効 果 POINT データレイクとDWHの分離をしっかりしておくと、 後々の拡張がしやすい 1st STEP 初年度 2nd STEP 次年度 複数部署を対象に範囲拡大 運用体制も徐々に整備 全社横断でのデータ活用 一部の部署でパイロットス タートなど、関係者を絞り 込んで小さくスタート
17 Copyright(C) NRI Netcom, Ltd. All rights reserved. 下記のような観点から統制項目を洗い出し、それぞれの実施内容と担当者・責任分界点を決める。
アクセス制御 暗号化 物理的/環境的セキュリティ バックアップ ログ取得/監視 技術的脆弱性管理 冗長性 個人情報の取扱方針 データ分析基盤とセキュリティ データ分析基盤のプロジェクトの進め方 データ分析基盤は非常に機微な情報が集まるシステム。セキュリティは重要 POINT 上記のような観点で考えられる人が必ず必要
18 Copyright(C) NRI Netcom, Ltd. All rights reserved. データ分析基盤のプロジェクトに必要なメンバー データ分析基盤のプロジェクトの進め方
インフラエンジニア • I/F方式 • セキュリティ • システム運用設計 アプリケーションエンジニア • 分析基盤開発 • BI開発 • 各種ツール導入 • 運用PDCAご支援 データサイエンティスト アドホック分析による 仮説発見・検証 データエンジニア • 業務理解 • データ整理 • データ設計 コンサル • ロードマップ策定 • 施策検討支援 • 分析サポート • 組織設計 仮 説 検 証 シ ス テ ム 実 装 P D C A 運 用 データ分析基盤構築のプロジェクトには、様々な技能を持った人が必要となる
19 Copyright(C) NRI Netcom, Ltd. All rights reserved. NRIネットコムについて データ分析基盤の
作り方 データ分析基盤の プロジェクトの進め方 01 02 03
20 Copyright(C) NRI Netcom, Ltd. All rights reserved. AWSを利用したデータ分析基盤の構築支援 NRIネットコムについて
8. 7. 6. 5. 4. 3. 2. 1.
21 Copyright(C) NRI Netcom, Ltd. All rights reserved. AWS Organizations対応のAWSアカウントサービス
NRIネットコムについて AWS Organizations AWS Cloud AWS Cloud AWS Cloud AWS Cloud AWS Organizations AWS Cloud AWS Cloud AWS Cloud AWS Cloud
None