AWS Glueについての調査

AWS Glue 調査 Koshi Funamizu

目次 1. AWS Glue概要 2. Glue Data Catalog 3. Glue
Crawlers 4. Glue ETL 5. 所感 6. その他

AWS Glue 概要

AWS Glueとは ETL処理の支援とデータカタログの管理をしてくれるフレームワークサービス  ポイント  ETLツールではなくて、あくまでもETL支援サービス  そのため、Glueからの操作だけでは複雑なデータ変形はできない 
複雑なデータ変形をするためには、Glueの機能によって自動生成されたコードをカスタマイズ（コーディング）しなければならない

主な機能  Glue ETL  Spark Jobの作成、実行と管理  Python、ScalaのSpark scriptをジョブ登録して、実行、及び実行の管理。
 ジョブの実行はトリガー、オンデマンド、スケジュールを指定でき、実行されたジョブのモニタリング、アラートを飛ばすことも可能  Glue上でScriptの生成、編集可能  Glue Data Catalog • カタログ情報の管理・登録 – AWSサービス上に保存されたデータに対してのメタデータテーブルの管理・登録 – 扱えるカタログ情報はAurora、RDS、Redshift、S3、Athena、EMR、Redshift Spectrum、Hive Metastore – スキーマ変更のバージョン管理可能  Glue Crawlers • Glue Catalogへカタログ情報自動登録 – スケジュール設定に従って、指定したデータストアに接続し、データのスキーマを自動判断し、Data Catalogにメタデータテーブルを作成 AWS Glueには主にETL,Data Catalog,Crawlersという3つの機能が存在する.

Glue Data Catalog

活用イメージデータカタログでAWS上のメタデータを集中管理

Glue Data Catalog テーブルのメタデータをHiveメタストアで管理メタデータ • 列/プロパティ/データ型 • データロケーション •
更新情報等を管理

メタデータ（テーブル定義）の例テーブルの主要情報テーブルのプロパティテーブルスキーマ

メタデータのバージョン管理メタデータのバージョン一覧メタデータの比較

メタデータの編集スキーマの修正

Glue Crawlers

クローラーによるデータカタログの自動更新  クローラーが自動的にスキーマを推測しカタログへ登録する • クローラーがファイルタイプを識別し、どのような内容が含まれるのかを分類し、スキーマ、ファイルタイプ、パーティションを自動抽出しカタログへ登録する  クローラーをスケジュール実行することで新しいデータやスキーマの変更を発見
 クローラーを使わず手動で登録も可能  ログはCloudWatch Logsに出力

クローラーの探索 • RDS • RDB on EC2 • Redshift •
Amazon S3 • MySQL/MariaDB • PostgresSQL • Aurora • Oracle • SQL Server • Redshift • Avro • Parquet ,ORC • JSON • ログ • 区切り形式 … JDBC接続オブジェクト接続クローラの接続方法クローラの接続先クローラの探索するオブジェクト Grokでカスタム Classifierを作成可能

ファイルの判別分類子タイプ分類文字列コメント Apache Avro avro ファイルの先頭から読み取って形式を判断します。 Apache ORC
orc ファイルのメタデータを読み取って形式を判断します。 Apache Parquet parquet ファイルの先頭から読み取って形式を判断します。 JSON json ファイルの先頭から読み取って形式を判断します。バイナリ JSON bson ファイルの先頭から読み取って形式を判断します。 XML xml ファイルの先頭から読み取って形式を判断します。AWS Glue は、ドキュメントの XML タグに基づいてテーブルスキーマを判定します。 Ion ログ ion ファイルの先頭から読み取って形式を判断します。 Combined Apache ログ combined_apache grok パターンを通じてログ形式を判断します。 Apache ログ apache grok パターンを通じてログ形式を判断します。 Linux カーネルログ linux_kernel grok パターンを通じてログ形式を判断します。 Microsoft ログ microsoft_log grok パターンを通じてログ形式を判断します。 Ruby ログ ruby_logger ファイルの先頭から読み取って形式を判断します。 Squid 3.x ログ squid ファイルの先頭から読み取って形式を判断します。 Redis 監視ログ redismonlog ファイルの先頭から読み取って形式を判断します。 Redis ログ redislog ファイルの先頭から読み取って形式を判断します。 CSV csv 次の区切り記号をチェックします。カンマ (,)、パイプ (|)、タブ (¥t)、セミコロン (;)、および Ctrl-A (¥u0001) Amazon Redshift redshift JDBC 接続を使用してメタデータをインポートします。 MySQL mysql JDBC 接続を使用してメタデータをインポートします。 PostgreSQL postgresql JDBC 接続を使用してメタデータをインポートします。 Oracle データベース oracle JDBC 接続を使用してメタデータをインポートします。 Microsoft SQL Server sqlserver JDBC 接続を使用してメタデータをインポートします。 Amazon DynamoDB dynamodb DynamoDB テーブルからデータを読み取ります。 Glue Crawlersは下記タイプのファイルを判別することが可能 ※Zip,BZIP,GZIP,LZ4,Snappyといった圧縮形式でも分類可能

クローラーのスケジューリングカスタムはCron形式で最小5分間隔で設定できる下記の選択肢から選択可能

Glue ETL

ETLジョブの開発プロセスデータソース選択データターゲット選択マッピングコーディング  データストア • JDBB •
S3  形式 • JSON • Avro • Parquet • ORC  圧縮タイプ • None • Gzip • Bzip (snappyはデフォルトにはない)

ETLジョブの作成  GUIでデータソース、ターゲット、列のマッピングを設定することでひな形が生成される  csv ⇒ Parquetのフォーマット変換だけといった処理であればPythonコードの編集なしで実現自動生成されたコード
Glueの独自ライブラリを使用して書かれているサポートされている言語は Python2.7 or Scala

ジョブスクリプトの基本 import sys from awsglue.transforms import * from awsglue.utils import
getResolvedOptions from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.job import Job ① ライブラリのインポート args = getResolvedOptions(sys.argv, ['JOB_NAME']) sc = SparkContext() glueContext = GlueContext(sc) spark = glueContext.spark_session job = Job(glueContext) job.init(args['JOB_NAME'], args) ② 初期化処理 datasource0 = glueContext.create_dynamic_frame.from_catalog(database = "kfunamizu_test", table_name = "json_sample", transformation_ctx = "datasource0") ③ カタログ経由でデータソースへアクセスし、 DynamicFrame を作成

ジョブスクリプトの基本 ##ここから変換処理を記述 applymapping1 = ApplyMapping.apply(frame = datasource0, mappings = [
("arraymap", "array", "arraymap", "array"), ("bool2", "boolean", "bool2", "boolean"), ("float", "double", "float", "double"), ("floatarray", "array", "floatarray", "array"), ("int", "long", "int", "long"), ("intarray", "array", "intarray", "array"), ("json_map", "string", "json_map", "string"), ("nestarray", "array", "nestarray", "array"), ("nestnestarray", "array", "nestnestarray", "array"), ("null", "int", "null", "int"), ("str", "string", "str", "string"), ("strarray", "array", "strarray", "array"), ("timestamp", "string", "timestamp", "string") ], transformation_ctx = "applymapping1") … ④ DynamicFrameを操作してデータ変換今回はただのマッピング処理で列数を減らした ⑤ 変換後のDynamicFrameをカタログ経由でターゲットに出力 datasink2 = glueContext.write_dynamic_frame.from_options(frame = applymapping1, connection_type = "s3", connection_options = {"path": "s3://kfunamizu/result", "compression": "gzip"}, format = "json", transformation_ctx = "datasink2") job.commit()

DynamicFrameとDtaFrameの違い  DynamicFrameとは DynamicFrameはAWS Glueで独自に定義されたデータ構造  特徴 • Sparkで使われているDataFrameのようなテーブル形式でデータ •
DataFrameと異なり、同一列内に複数のデータ型の混在が可能  一部不正なデータが含まれてしまっているのを検知するなど、後続の処理がそのままでは対応できなかった場面において前処理として対処しておくのに非常に役立つ  DataFrameとの互換性 • fromDF/toDFメソッドでDynamicFrame ⇔dataFrameの変換が可能 • 同一列に複数の型が共存している場合は、toDFを使ってSparkのDataFrameには変換できない。修正してから変換する必要あり  DataFrameとの使い分け • データ操作はDataFrameで実装し、データのI/Oの時だけDynamicFrameを使用するコーディングも可能 Col0に2つのデータ型が共存している。なにかおかしいのでは？みたいなのを素早く検知

DynamicFrameの変換クラス・メソッド DynamicFrameには変換のためのメソッドが用意されている。  GlueTransform 基本クラス  ApplyMapping クラス  DropFields
クラス  DropNullFields クラス  ErrorsAsDynamicFrame クラス  フィルタクラス  Join クラス  マップクラス  MapToCollection クラス  クラスの関連付け  RenameField クラス  ResolveChoice クラス  SelectFields クラス  SelectFromCollection クラス  スピゴットクラス  SplitFields クラス  SplitRows クラス  Unbox クラス  UnnestFrame クラス参照：https://docs.aws.amazon.com/ja_jp/glue/latest/dg/aws-glue-programming-python-transforms.html 管理コンソールではクリックでビルドイン変換のサンプルコードが追加される

ライブラリの利用ジョブ作成・編集時にs3からライブラリをインポート可能  Python 2.7 ライブラリ (v3はサポートされていない  S3にライブラリファイルを置いてジョブ作成時に指定 
S3のURLはカンマ区切りで複数設定可能  Pure Pythonのコードであるということ(Pandasの様なC言語拡張に依存するライブラリは利用不可)  Java ライブラリ  S3にJarファイルを置いてジョブ作成時に指定  Pure Javaもしくは Scala 2.11ベースのコードのみ

ETL ジョブ開発環境  sshクライアント  Zeppelin Notebook から接続可能

ETL ジョブの実行状況  ジョブ開始のタイミング  先行ジョブ完了時  スケジュール  オンデマンド
• ETLジョブの状況は管理コンソールに表示される • ログはCloudWatch Logsに出力されるジョブのトリガー

所感・その他

所感  Glue ETL,DataCatalog, Crawlersは全体的に使いやすいサービス  Glue DataCatalogはAthenaやEMRなど他サービスでも共有して使えるので非常に便利  DataCatalogは使うべきサービス
 Crawlersはどこまで正確にテーブル定義してくれているかが未知数  Crawlersは探索にどのくらい時間がかかるのかも未知数で費用感が読めない  Glue ETLはコンセプトとしてはいいがPython3がサポートされていないのが難点  ETL ジョブは起動が遅く、ジョブが走るまでに5~10分くらいかかる。  DynamicFrameは気持ち悪いと思ったが、Spark DataFrameに容易に変換できるのであまり気にせずにコーディングできる。 • Glue ETLはPython3がサポートされていないっていう時点で使用対象外 (コンセプトとしてはいい) • Data CatalogはDataLakeを管理する上で使用すべきサービス • Crawlersは未知数な部分が多いが、パーティションを自動的に切ってくれたり、試してみたいサービス。テーブル定義が間違ってたとしても手動で直せばいいので。

EMR と AWS Glue ETLの違い・使い分け EMR Glue 用途汎用Hadoop/Spark環境 ETL処理に特化
Spark ベース (Spark2.2.1をサポート) スケールアウト可能（ユーザ設計）可能（パラメータ指定）サーバ管理数クリックで指定した環境が準備される不要 (サーバレス) S3へのアクセス可能可能プログラミング環境 Hadoopエコシステム上の多様なアプリケーション PySparkでETL処理を作成コスト (机上で調べた限り) 高い安い Python version 2 or 3 3の場合はジョブを設定するときに、設定コードを記述すればよい V2.7のみライブラリインストールすればなんでも使える Pure Pytho コードのもの  私が考えたEMRとの使い分け (もしPython3系がサポートされたら) • ETL作業はすべてGlueに集約してもいいかもしれない (管理が楽になるので) • Spark以外のアプリケーションを使いた場合やアドホックな分析をしたい場合はEMR

リージョン  サポートされているリージョンを下記に示す。 • パリ • サンパウロ以外 2018/08 時点

アカウント制限事項左記に記載されているデフォルトの制限はAWSサポートに連絡すれば、上限を引き上げてもらえる 2018/08 時点

コスト  データカタログの料金体系  最初の 100 万個のオブジェクトの保存は無料  100 万個を超えて保存された場合、100,000
個のオブジェクトごとに毎月 1 ドル  ETL ジョブの料金体系 • *DPU 時間あたり 0.44 ドルが 1 秒単位で課金 • デフォルト10 DPU (最低 2 DPU)  開発エンドポイントの料金体系 • DPU 時間あたり 0.44 ドルが 1 秒単位で課金 • デフォルト5 DPU (最低 2 DPU) * 1DPU : 4 vCPU,16GB of memory 2018/08 時点  クローラの料金体系 • DPU 時間あたり 0.44 ドルが 1 秒単位で課金され、クローラの実行ごとに最低 10 分

AWS Glueについての調査

AWS Glueについての調査

Koshi.Funamizu

More Decks by Koshi.Funamizu

Featured

Transcript

AWS Glue 調査 Koshi Funamizu

目次 1. AWS Glue概要 2. Glue Data Catalog 3. Glue

AWS Glue 概要

AWS Glueとは ETL処理の支援とデータカタログの管理をしてくれるフレームワークサービス  ポイント  ETLツールではなくて、あくまでもETL支援サービス  そのため、Glueからの操作だけでは複雑なデータ変形はできない 

主な機能  Glue ETL  Spark Jobの作成、実行と管理  Python、ScalaのSpark scriptをジョブ登録して、実行、及び実行の管理。

Glue Data Catalog

活用イメージデータカタログでAWS上のメタデータを集中管理

Glue Data Catalog テーブルのメタデータをHiveメタストアで管理メタデータ • 列/プロパティ/データ型 • データロケーション •

メタデータ（テーブル定義）の例テーブルの主要情報テーブルのプロパティテーブルスキーマ

メタデータのバージョン管理メタデータのバージョン一覧メタデータの比較

メタデータの編集スキーマの修正

Glue Crawlers

クローラーの探索 • RDS • RDB on EC2 • Redshift •

ファイルの判別分類子タイプ分類文字列コメント Apache Avro avro ファイルの先頭から読み取って形式を判断します。 Apache ORC

クローラーのスケジューリングカスタムはCron形式で最小5分間隔で設定できる下記の選択肢から選択可能

Glue ETL

ETLジョブの開発プロセスデータソース選択データターゲット選択マッピングコーディング  データストア • JDBB •

ETLジョブの作成  GUIでデータソース、ターゲット、列のマッピングを設定することでひな形が生成される  csv ⇒ Parquetのフォーマット変換だけといった処理であればPythonコードの編集なしで実現自動生成されたコード

ジョブスクリプトの基本 import sys from awsglue.transforms import * from awsglue.utils import

ジョブスクリプトの基本 ##ここから変換処理を記述 applymapping1 = ApplyMapping.apply(frame = datasource0, mappings = [

DynamicFrameとDtaFrameの違い  DynamicFrameとは DynamicFrameはAWS Glueで独自に定義されたデータ構造  特徴 • Sparkで使われているDataFrameのようなテーブル形式でデータ •

DynamicFrameの変換クラス・メソッド DynamicFrameには変換のためのメソッドが用意されている。  GlueTransform 基本クラス  ApplyMapping クラス  DropFields

ライブラリの利用ジョブ作成・編集時にs3からライブラリをインポート可能  Python 2.7 ライブラリ (v3はサポートされていない  S3にライブラリファイルを置いてジョブ作成時に指定 

ETL ジョブ開発環境  sshクライアント  Zeppelin Notebook から接続可能

ETL ジョブの実行状況  ジョブ開始のタイミング  先行ジョブ完了時  スケジュール  オンデマンド

所感・その他

所感  Glue ETL,DataCatalog, Crawlersは全体的に使いやすいサービス  Glue DataCatalogはAthenaやEMRなど他サービスでも共有して使えるので非常に便利  DataCatalogは使うべきサービス

EMR と AWS Glue ETLの違い・使い分け EMR Glue 用途汎用Hadoop/Spark環境 ETL処理に特化

リージョン  サポートされているリージョンを下記に示す。 • パリ • サンパウロ以外 2018/08 時点

アカウント制限事項左記に記載されているデフォルトの制限はAWSサポートに連絡すれば、上限を引き上げてもらえる 2018/08 時点

コスト  データカタログの料金体系  最初の 100 万個のオブジェクトの保存は無料  100 万個を超えて保存された場合、100,000