Slide 12
Slide 12 text
12
⼤規模なデータを分析する際の難しさ
⽣データが巨⼤なために、分析⽤の分散処理システムやETLジョブが必要な場合がある。
このリソースは、データエンジニアが作成することが多い。
データサイエンティスト
傾向の確認
S3バケット
(⽣データ)
データエンジニア
マート作成処理
S3バケット
( ⽣データ )
S3バケット
(データマート)
Amazon Athena
AWS Glue
データサイエンティスト
活⽤
※必要があれば匿名化など
最低限の加⼯をしておく
①データの探索
②データの活⽤
■ 特徴量作成の例
データが⼤きいと分析に時間が
かかったり、分析⽤リソースの
メモリに載らないなどの課題が
ある。
データ分析基盤の
データエンジニアの
協⼒が必要