Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AWSでデータ解析を始めたーい

koara
September 16, 2023

 AWSでデータ解析を始めたーい

四国クラウドお遍路 2023

koara

September 16, 2023
Tweet

More Decks by koara

Other Decks in Technology

Transcript

  1. Who am I ? { "name": "古賀巧", "X_id": "@koara__fftr", "age":

    27, "career": [ “C”, ”C++”, ”C#”, ”JavaScript”, ”PHP”], "hobbies": ["音楽"], "certifications": [ ], "favorite_AWS_service": "AWS Lambda", "other": [ ] }
  2. データ分析の流れ Extraxt 2°-2 加工処理 データ分析全体の8割くらいを占める Transform Load Extraxt Load Transform

    データを加工してから、書き出す →非構造化データにも対応 データを書き出してから、加工する
  3. Amazon AthenaでNo ETLで、分析してみる 1°データをS3に保存する サポートしているデータ形式 Apache Parquet ORC CloudTrail ログ

    CSV、TSV JSON など 行指向データ 行ごとにデータを保存 特定の列を扱う場合でも、行全体を読み込む必要がある 列指向データ 列ごとにデータを保存 特定の列だけ扱う処理では、行全体を読み込む必要がない
  4. Amazon Athenaのパフォーマンスチューニング その他
 Amazon Athena のパフォーマンスチューニング Tips トップ 10 https://aws.amazon.com/jp/blogs/news/top-10-performance-tuning-tips-for-amazon-athena/

    1° スキャンするデータ量を減らす →列指向データ(Apache Parquet、ORCなど)を使用する →データの圧縮(Snappy→圧縮/解凍が速い, LZOなど) 2° 小さいサイズをまとめる 128MB以上にする 3° データをパーティションで分割する 例)2023/09/13       /14       /15 Amazon Athena でのパーティション射影 https://docs.aws.amazon.com/ja_jp/athena/latest/ug/partition-projection.html
  5. Amazon AthenaとAmazon Redshift Spectrum Amazon Athena サーバーレス スキャンしたデータ量で課金 (1TBあたり$5) クエリタイムアウト時間

    :30分 Amazon Redshift Spectrum Redshift クラスタの管理が必要 クラスタの実行時間で課金 より大規模なデータや 複数テーブルのJOINなどの複雑なクエリを実行 パフォーマンスはより安定
  6. 簡単に(?) AWS Glue DataBrewでETLして、分析してみる AWS Glue DataBrew は視覚的なデータ準備ツール であり、データアナリストやデー タサイエンティストはデータをより簡単にクリーンアップおよび正規化し、分析や機

    械学習 (ML) の準備をすることができます。250 を超える事前構築された変換から 選択して、コードを記述することなくデータ準備タスクを自動化 できます。異常のフィ ルタリング、標準形式へのデータの変換、無効な値の修正などのタスクを自動化で きます。データの準備が整ったら、 すぐに分析と ML プロジェクトに使用で きます。 実際に使用した分に対してのみ料金が発生します。前払いの義務はありません。 https://aws.amazon.com/jp/glue/features/databrew/
  7. Glue Databrew     Glue Studio データを可視化して GUIでETLジョブの作成 用意された変換処理が200種類以上 GUIとコード両方を使用可能 ETLジョブの作成、実行、実行状況の監視

    用意された変換処理は 40個 2つを組み合わせて使用することも可能 Glue DataBrewでデータの傾向把握と用意された変換処理を行い Glue DataBrewで足りない部分はGlue Studioでコードを書いて実現