Slide 1

Slide 1 text

Amazon Athenaで 気軽に始めるデータ分析

Slide 2

Slide 2 text

自己紹介 名前 :阿部 真之 仕事 :株式会社ゆめみ。サーバーサイド、Androidのリードエンジニア 趣味 :コーヒー、ビール、アニメ、ゲーム、読書、etc… Twitter:@marchin_1989

Slide 3

Slide 3 text

前置き 対象者 - なにかしらデータ分析に関わる方 - AWS Athenaを触ったことがない方 前提とする知識 - AWSのサービスを少しでも触ったことがある方 - SQLを触ったことがある方

Slide 4

Slide 4 text

アジェンダ - Amazon Athenaとは - Amazon Athenaのデモ

Slide 5

Slide 5 text

Amazon Athenaとは

Slide 6

Slide 6 text

Amazon Athena - S3や、様々なデータソースに対して、SQLでクエリできるインタラクティブな分析サービス。 - サーバーレスでインフラ管理不要。 - 大規模データに対しても高速なクエリが可能。 - ユースケース - アナリストやデータサイエンティストによるアドホックな分析 - S3にあげて、テーブル定義後、すぐクエリ可能。 - ログ分析 - S3に保存した、ログデータに対してクエリ - ETLパイプライン

Slide 7

Slide 7 text

デモ

Slide 8

Slide 8 text

デモ - AWSマネジメントコンソールの「クエリエディタ」からクエリを実行してみる。

Slide 9

Slide 9 text

デモ - 公式のチュートリアルを実施 - https://docs.aws.amazon.com/ja_jp/athena/latest/ug/getting-started.html - サンプルデータ - s3://athena-examples-ap-northeast-1/cloudfront/plaintext/ - CFのアクセスログ

Slide 10

Slide 10 text

デモの流れ 1. クエリ結果保存用のS3バケットを指定する 2. データベースを作成する 3. テーブルを作成する 4. クエリする

Slide 11

Slide 11 text

1. クエリ結果保存用のS3バケットを指定する

Slide 12

Slide 12 text

2. データベースを作成する

Slide 13

Slide 13 text

3. テーブルを作成する

Slide 14

Slide 14 text

4. クエリする

Slide 15

Slide 15 text

その他 - 基本的にクエリのスキャン量で課金される。1 TB あたり5USD。 - スキャン量を削減することで、パフォーマンスが向上し、料金が安くなる。 - パーティション化 - Hive形式(例: s3://bucketname/year=2023/month=05/day=08/…)のS3に対して、テーブル 作成時にパーティションを指定する。 - Federated Query - S3だけでなく、RDS、DynamoDBといった様々なデータソースに対してクエリを実行可能。 - S3のデータに対して、RDSのテーブルを結合してクエリできる。 - クエリエディタ以外でも、アプリケーションなどからJDBC経由、AWS SDK(API)経 由で実行可能。

Slide 16

Slide 16 text

まとめ - Amazon Athenaは、S3や、様々なデータソースに対して、SQLでクエリできるイン タラクティブな分析サービス。 - S3にデータを溜めておけば、気軽にデータ分析が始められる。

Slide 17

Slide 17 text

参考文献 ・YouTube, 【AWS Black Belt Online Seminar】Amazon Athena,https://www.youtube.com/watch?v=6FLkOE60Pfs,(2020/06/18) ・AWS, Amazon Athena とは, https://docs.aws.amazon.com/ja_jp/athena/latest/ug/what-is.html