Amazon Athenaで気軽に始めるデータ分析
View Slide
自己紹介名前 :阿部 真之仕事 :株式会社ゆめみ。サーバーサイド、Androidのリードエンジニア趣味 :コーヒー、ビール、アニメ、ゲーム、読書、etc…Twitter:@marchin_1989
前置き対象者- なにかしらデータ分析に関わる方- AWS Athenaを触ったことがない方前提とする知識- AWSのサービスを少しでも触ったことがある方- SQLを触ったことがある方
アジェンダ- Amazon Athenaとは- Amazon Athenaのデモ
Amazon Athenaとは
Amazon Athena- S3や、様々なデータソースに対して、SQLでクエリできるインタラクティブな分析サービス。- サーバーレスでインフラ管理不要。- 大規模データに対しても高速なクエリが可能。- ユースケース- アナリストやデータサイエンティストによるアドホックな分析- S3にあげて、テーブル定義後、すぐクエリ可能。- ログ分析- S3に保存した、ログデータに対してクエリ- ETLパイプライン
デモ
デモ- AWSマネジメントコンソールの「クエリエディタ」からクエリを実行してみる。
デモ- 公式のチュートリアルを実施- https://docs.aws.amazon.com/ja_jp/athena/latest/ug/getting-started.html- サンプルデータ- s3://athena-examples-ap-northeast-1/cloudfront/plaintext/- CFのアクセスログ
デモの流れ1. クエリ結果保存用のS3バケットを指定する2. データベースを作成する3. テーブルを作成する4. クエリする
1. クエリ結果保存用のS3バケットを指定する
2. データベースを作成する
3. テーブルを作成する
4. クエリする
その他- 基本的にクエリのスキャン量で課金される。1 TB あたり5USD。- スキャン量を削減することで、パフォーマンスが向上し、料金が安くなる。- パーティション化- Hive形式(例: s3://bucketname/year=2023/month=05/day=08/…)のS3に対して、テーブル作成時にパーティションを指定する。- Federated Query- S3だけでなく、RDS、DynamoDBといった様々なデータソースに対してクエリを実行可能。- S3のデータに対して、RDSのテーブルを結合してクエリできる。- クエリエディタ以外でも、アプリケーションなどからJDBC経由、AWS SDK(API)経由で実行可能。
まとめ- Amazon Athenaは、S3や、様々なデータソースに対して、SQLでクエリできるインタラクティブな分析サービス。- S3にデータを溜めておけば、気軽にデータ分析が始められる。
参考文献・YouTube, 【AWS Black Belt Online Seminar】AmazonAthena,https://www.youtube.com/watch?v=6FLkOE60Pfs,(2020/06/18)・AWS, Amazon Athena とは,https://docs.aws.amazon.com/ja_jp/athena/latest/ug/what-is.html