AWS Glueではじめるデータレイク

AWS Glueで始めるデータレイク

自己紹介 - 名前: 阿部真之 - 仕事: 株式会社ゆめみでAndroidエンジニアしてます -
最近はサーバサイド Kotlinの仕事も始めました - ほぼサーバーサイドどっぷりです - 趣味 - コーヒー、ビール、アニメ、ゲーム、読書、 etc… - Twitter: @marchin_1989

アジェンダ - データレイクとは - AWS Glue - AWS Glueのデモ

データレイクとは

データレイクとは - データの貯蔵庫 - 様々な生データを貯めておく - ニーズに応じて、利用することができる

- データレイクに入れたり、出したりするときにデータ連携を行う。 - ETL処理（抽出処理、変換処理、ロード処理）が主な処理。データレイクでのデータ連携データ連携

- データレイクに入れたり、出したりするときにデータ連携を行う。 - ETL処理（抽出処理、変換処理、ロード処理）が主な処理。データレイクでのデータ連携データ連携 ETL処理以外にもやることがある。リトライ処理、メタデータ管理、データーソースのスキーマ変更への対応、ワークフロー管理、スケーリング
etc… また、それ以前にアプリ実行環境の整備など、やることが多い。。。

AWS Glue - サーバーレスなデータ統合サービス。 - ETL Job：ETL処理の作成、実行、管理ができる。 - Glue Data
Catalog：データソースのスキーマをカタログ化して、管理することができる。 - Crowler：データソースをクロールして、Data Catalogを作成できる。 - GlueStudio：ETL Jobの作成、実行、モニタリングが簡単にできるGUI。

AWS Glueのデモ

AWS Glueのデモ RDS上の「購入履歴データ」をS3（データレイク）に保存してみる。

実行手順 1. Crawlerの実行。Data catalogを作成 2. Glue StudioでETL Job構築、実行 3. 保存データの確認
1. 2. 3.

1. Crawlerの実行。Data catalogを作成 - すでに定義済みのクローラーの画面を確認する。 - データソースはRDSを指定。 1.

Data sourceにRDSを設定したCrowlerを定義して、Crowlerを実行。 Hourly, Daily, Weeklyなどで定期実行可能。

テーブルスキーマの変更があったことがわかる。

データカタログの画面。 crowlerを実行することで、Data catalogの作成&更新ができる。スキーマを管理し、他のサービスから利用することが可能。

2. Glue StudioでETL Job構築、実行 - Glue Studioの画面で、ETL Jobを構築する。 2.

AWS Glue Studioの画面から、jobを作成する。

GUIベースで、ETL Jobを作成することができる。

Sourceから、「Relational DB」を選択すると、ノードが作成される。

Data Catalogを作成済みであれば、 DataCatalogを選択でき、抽出したいデーターベースのテーブルを選択する。

Actionから、変換処理などを作成しノードをつなげるように処理を作成していく。

year, month, dayのカラムを追加したり ...

スキーマ名の変更など可能。

いろいろな変換処理が用意されている。もちろんスクリプトを自分で書くことも可能。

最後にTargetとして、保存先にS3を指定。 FormatはCSVやParquetといったものを選択可能。

パーティショニングが可能。データ利用時（検索時）に効率よくクエリを実行できたりする。ここでは、year, month, dayを指定。

保存し、Jobを実行。実行のステータスは Runsタブで確認できる。

3. 保存データの確認 - ETL Jobを実行後の、S3データを確認する。 3.

保存先のS3バケットを確認。パーティションが「year=2022/month=10/day=10/」という感じで作成されている。

ファイルの中身。 $ cat run-AmazonS3_node1669307667051-15-part-r-00000 amount,user_id,price,product_id,purchased_at,order_detail_id,order_id 1,3,7100,71,"2022-10-10 22:00:00.0",4239,848 1,1,1100,11,"2022-10-10 11:00:00.0",4185,837 1,1,2300,23,"2022-10-10
14:00:00.0",4199,840 1,1,2700,27,"2022-10-10 23:00:00.0",4244,849

まとめ - AWS Glueを利用することで、データレイク周辺のデータ連携が簡単にできる。よりやりたいことに集中できる。 - Glue StudioでGUIベースで視覚的にETL Jobを作成、管理可能。

参考文献・AWSではじめるデータレイク, 上原誠 (著), 志村誠 (著), 下佐粉昭
(著), 関山宜孝 (著), 2020, テッキーメディア・YouTube, 【AWS Black Belt Online Seminar】AWS Glue -Glue Studio を使ったデータ変換のベストプラクティス-, https://www.youtube.com/watch?v=xRszN4Tb4uM, （2021/04/01）・AWS, データレイクとは, https://aws.amazon.com/jp/big-data/datalakes-and-analytics/what-is-a-data-lake/, （2022/11/25）

AWS Glueではじめるデータレイク

AWS Glueではじめるデータレイク

marchin

More Decks by marchin

Other Decks in Programming

Featured

Transcript

AWS Glueで始めるデータレイク

自己紹介 - 名前: 阿部真之 - 仕事: 株式会社ゆめみでAndroidエンジニアしてます -

アジェンダ - データレイクとは - AWS Glue - AWS Glueのデモ

データレイクとは

データレイクとは - データの貯蔵庫 - 様々な生データを貯めておく - ニーズに応じて、利用することができる

- データレイクに入れたり、出したりするときにデータ連携を行う。 - ETL処理（抽出処理、変換処理、ロード処理）が主な処理。データレイクでのデータ連携データ連携

AWS Glue - サーバーレスなデータ統合サービス。 - ETL Job：ETL処理の作成、実行、管理ができる。 - Glue Data

AWS Glueのデモ

AWS Glueのデモ RDS上の「購入履歴データ」をS3（データレイク）に保存してみる。

実行手順 1. Crawlerの実行。Data catalogを作成 2. Glue StudioでETL Job構築、実行 3. 保存データの確認

1. Crawlerの実行。Data catalogを作成 - すでに定義済みのクローラーの画面を確認する。 - データソースはRDSを指定。 1.

Data sourceにRDSを設定したCrowlerを定義して、Crowlerを実行。 Hourly, Daily, Weeklyなどで定期実行可能。

テーブルスキーマの変更があったことがわかる。

データカタログの画面。 crowlerを実行することで、Data catalogの作成&更新ができる。スキーマを管理し、他のサービスから利用することが可能。

2. Glue StudioでETL Job構築、実行 - Glue Studioの画面で、ETL Jobを構築する。 2.

AWS Glue Studioの画面から、jobを作成する。

GUIベースで、ETL Jobを作成することができる。

Sourceから、「Relational DB」を選択すると、ノードが作成される。

Data Catalogを作成済みであれば、 DataCatalogを選択でき、抽出したいデーターベースのテーブルを選択する。

Actionから、変換処理などを作成しノードをつなげるように処理を作成していく。

year, month, dayのカラムを追加したり ...

スキーマ名の変更など可能。

いろいろな変換処理が用意されている。もちろんスクリプトを自分で書くことも可能。

最後にTargetとして、保存先にS3を指定。 FormatはCSVやParquetといったものを選択可能。

パーティショニングが可能。データ利用時（検索時）に効率よくクエリを実行できたりする。ここでは、year, month, dayを指定。

保存し、Jobを実行。実行のステータスは Runsタブで確認できる。

3. 保存データの確認 - ETL Jobを実行後の、S3データを確認する。 3.

保存先のS3バケットを確認。パーティションが「year=2022/month=10/day=10/」という感じで作成されている。

ファイルの中身。 $ cat run-AmazonS3_node1669307667051-15-part-r-00000 amount,user_id,price,product_id,purchased_at,order_detail_id,order_id 1,3,7100,71,"2022-10-10 22:00:00.0",4239,848 1,1,1100,11,"2022-10-10 11:00:00.0",4185,837 1,1,2300,23,"2022-10-10

まとめ - AWS Glueを利用することで、データレイク周辺のデータ連携が簡単にできる。よりやりたいことに集中できる。 - Glue StudioでGUIベースで視覚的にETL Jobを作成、管理可能。

参考文献・AWSではじめるデータレイク, 上原誠 (著), 志村誠 (著), 下佐粉昭