Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AWSでデータ解析を始めたーい
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
koara
September 16, 2023
Technology
340
0
Share
AWSでデータ解析を始めたーい
四国クラウドお遍路 2023
koara
September 16, 2023
More Decks by koara
See All by koara
SST ( Serverless Stack Toolkit ) 使ってみた
ra1211
0
240
もめんと会 Momento Cache
ra1211
0
77
JAWS-UG 名古屋 AVAハンズオン+re:Inforceの復習
ra1211
0
130
JAWS ミート 2023
ra1211
0
76
JAWS-UG大阪 AWS re:Invent 2022 re:Cap
ra1211
0
120
20221112_四国クラウドお遍路.pdf
ra1211
0
340
Other Decks in Technology
See All in Technology
業務に残された「良くない型」で考える「TypeScriptの難しさ」
sajikix
3
980
障害対応のRunbookは作った、でも本当に動くの? AWS FIS で EKS の AZ 障害を再現してみた
tk3fftk
0
120
Redmine次期バージョン7.0の注目新機能解説 — UI/UX強化と連携強化を中心に
vividtone
1
220
Fラン学生が考える、AI時代のデザインに執着した突破口
husengs7
1
230
Cortex(Code) を ML モデルの 精度改善サイクルに組み込む.pdf
oimo23
0
250
React Compiler導入の効果と運用の工夫
kakehashi
PRO
3
300
R&D 祭 2024 アニメエフェクト作成の効率化
olmdrd
PRO
0
110
Swift Sequence の便利 API 再発見
treastrain
1
290
The Making of AI Chips
pfn
PRO
0
600
Terragrunt x Snowflake + dbt で作るマルチテナントなデータ基盤構築プラットフォーム
gak_t12
0
520
TypeScript の型で副作用の実行順序を制御する
yanaemon
1
130
CARTA HOLDINGS エンジニア向け 採用ピッチ資料 / CARTA-GUIDE-for-Engineers
carta_engineering
0
47k
Featured
See All Featured
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
How STYLIGHT went responsive
nonsquared
100
6.1k
How Software Deployment tools have changed in the past 20 years
geshan
0
33k
GraphQLとの向き合い方2022年版
quramy
50
15k
Faster Mobile Websites
deanohume
310
31k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
910
Done Done
chrislema
186
16k
The innovator’s Mindset - Leading Through an Era of Exponential Change - McGill University 2025
jdejongh
PRO
1
170
How to Talk to Developers About Accessibility
jct
2
200
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
3.5k
The Limits of Empathy - UXLibs8
cassininazir
1
330
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
1
1.2k
Transcript
AWSでデータ分析を始めたーい クラウドお遍路 2023/09/16
Who am I ? { "name": "古賀巧", "X_id": "@koara__fftr", "age":
27, "career": [ “C”, ”C++”, ”C#”, ”JavaScript”, ”PHP”], "hobbies": ["音楽"], "certifications": [ ], "favorite_AWS_service": "AWS Lambda", "other": [ ] }
・はじめに ・データ分析の流れ ・AWSのデータ分析サービス ・Amazon AthenaでNo ETLで、分析してみる ・AWS Glue DataBrewでETLして、分析してみる ・まとめ
Contents
はじめに AWSを使いたい動機 オンプレで大量のデータを扱うためのリソースの調達や管理などが難しい したくない サクッと試して、今あるデータでどんなことをできるか知りたい 小さく作って、早く失敗して、改善していきたい
はじめに データ分析の流れ データ収集 蓄積・加工 可視化・分析
データ分析の流れ 1° 収集 データを集める 例) システムのアクセスログ IoTセンサーのデータ 購買履歴 音声データ SNSデータ
データ分析の流れ 部門や地域で サイロ化したデータを DLに集める 2°-1 蓄積・加工 DWH、DMに格納 分析しやすい形式に加工 ETL処理
データ分析の流れ Extraxt 2°-2 加工処理 データ分析全体の8割くらいを占める Transform Load Extraxt Load Transform
データを加工してから、書き出す →非構造化データにも対応 データを書き出してから、加工する
データ分析の流れ 2°で加工したデータを BIツールでの可視化や 機械学習の学習データとして活用 3° 可視化・分析
AWSのデータ分析サービス 収集 蓄積・加工 可視化・分析
Amazon AthenaでNo ETLで、分析してみる Amazon Athena サーバレスでインフラ管理不要 S3に保存・蓄積したログに対してSQLクエリを投げて データをロードせずに直接分析を行える
Amazon AthenaでNo ETLで、分析してみる 1°データをS3に保存する サポートしているデータ形式 Apache Parquet ORC CloudTrail ログ
CSV、TSV JSON など 行指向データ 行ごとにデータを保存 特定の列を扱う場合でも、行全体を読み込む必要がある 列指向データ 列ごとにデータを保存 特定の列だけ扱う処理では、行全体を読み込む必要がない
Amazon AthenaでNo ETLで、分析してみる 2°「データベース」と「テーブル」の作成 データベース・・・テーブルをグループにまとめる テーブル・・・列名、データ型などを定義 テーブル定義の作成 ・DDL(Data Define Language)で定義する
・Glue Crawlerで自動作成 列名やデータ型を推測して、作成してくれる
Amazon AthenaでNo ETLで、分析してみる 3°SQLでクエリ クエリ結果はS3に自動保存 コンソールから履歴も確認できる ANSI標準のSQLが使える(標準のSQL)
Amazon AthenaでNo ETLで、分析してみる +α 横串検索(Federated Query) データコネクタを利用した、複数データソースに横断的なクエリを実行
Amazon Athenaのパフォーマンスチューニング その他 Amazon Athena のパフォーマンスチューニング Tips トップ 10 https://aws.amazon.com/jp/blogs/news/top-10-performance-tuning-tips-for-amazon-athena/
1° スキャンするデータ量を減らす →列指向データ(Apache Parquet、ORCなど)を使用する →データの圧縮(Snappy→圧縮/解凍が速い, LZOなど) 2° 小さいサイズをまとめる 128MB以上にする 3° データをパーティションで分割する 例)2023/09/13 /14 /15 Amazon Athena でのパーティション射影 https://docs.aws.amazon.com/ja_jp/athena/latest/ug/partition-projection.html
Amazon AthenaとAmazon Redshift Spectrum Amazon Athena サーバーレス スキャンしたデータ量で課金 (1TBあたり$5) クエリタイムアウト時間
:30分 Amazon Redshift Spectrum Redshift クラスタの管理が必要 クラスタの実行時間で課金 より大規模なデータや 複数テーブルのJOINなどの複雑なクエリを実行 パフォーマンスはより安定
簡単に(?) AWS Glue DataBrewでETLして、分析してみる AWS Glue DataBrew は視覚的なデータ準備ツール であり、データアナリストやデー タサイエンティストはデータをより簡単にクリーンアップおよび正規化し、分析や機
械学習 (ML) の準備をすることができます。250 を超える事前構築された変換から 選択して、コードを記述することなくデータ準備タスクを自動化 できます。異常のフィ ルタリング、標準形式へのデータの変換、無効な値の修正などのタスクを自動化で きます。データの準備が整ったら、 すぐに分析と ML プロジェクトに使用で きます。 実際に使用した分に対してのみ料金が発生します。前払いの義務はありません。 https://aws.amazon.com/jp/glue/features/databrew/
簡単に(?) AWS Glue DataBrewでETLして、分析してみる DataBrewプロジェクトを作成 DataBrew レシピにデータ加工処理を記録
簡単に(?) AWS Glue DataBrewでETLして、分析してみる 一旦、赤枠のデータ操作は無視してデータと向き合う (坐禅タイム
簡単に(?) AWS Glue DataBrewでETLして、分析してみる 列ごとに統計情報と それに対するレコメンドを確認できる
簡単に(?) AWS Glue DataBrewでETLして、分析してみる レシピはGUIで作成することを前提にしている
簡単に(?) AWS Glue DataBrewでETLして、分析してみる レシピからジョブを作成
簡単に(?) AWS Glue DataBrewでETLして、分析してみる 出力先を指定して、ジョブを実行 実行した結果をQuickSightで可視化(マニフェストファイルの作成が必要)
Glue Databrew Glue Studio データを可視化して GUIでETLジョブの作成 用意された変換処理が200種類以上 GUIとコード両方を使用可能 ETLジョブの作成、実行、実行状況の監視
用意された変換処理は 40個 2つを組み合わせて使用することも可能 Glue DataBrewでデータの傾向把握と用意された変換処理を行い Glue DataBrewで足りない部分はGlue Studioでコードを書いて実現
まとめ AWSを使うことで ・データアクセスの民主化 + ・ツールの民主化 ・分析スキルの民主化へ
ちょっと宣伝
ちょっと宣伝2