AWS Data Pipelineを本番投入してみた話

AWS DATA PIPELINEを本番 AWS DATA PIPELINEを本番投⼊してみた話投⼊してみた話橋本淳⼀
2017/12/20 1

アジェンダアジェンダ AWS Data Pipelineとは︖ システム構成 AWS Data Pipelineを採⽤した理由設計で⼯夫したところ
採⽤してよかったこと応⽤編 Data Pipelineの注意事項 Data Pipelineではまったこと 2

AWS DATA PIPELINEとは︖ AWS DATA PIPELINEとは︖ ビッグデータを扱うシステムにおいて、ETLができるサービスです。 3

ETLとは︖ ETLとは︖ Extract/Transform/Load（略称︓ETL）とは、データウェアハウスにおける以下のような⼯程を指す。 Extract - 外部の情報源からデータを抽出 Transform -
抽出したデータをビジネスでの必要に応じて変換・加⼯ Load - 最終的ターゲット（すなわちデータウェアハウス）に変換・加⼯済みのデータをロード Extract/Transform/Load - Wikipedia 4

システム構成システム構成

データ規模データ規模 Redshiftのテーブル数 100以上１回のデータ処理バッチで処理するレコード数 100万件１テーブルのレコード件数 1億件源泉の数＝パイプラインの数 36
6

AWS DATA PIPELINEを採⽤した理由 AWS DATA PIPELINEを採⽤した理由 7

ビッグデータのETLに求められる要件ビッグデータのETLに求められる要件 1. 様々なデータ源泉への対応 2. 将来データ量が増加しても対応できるアーキテクチャ 3. 複数のETL処理を並列に実⾏ 4. データ変換処理
8

ビッグデータのETLに求められる要件ビッグデータのETLに求められる要件 5. ETLに必要なそれぞれの処理をタスクとして分解し、ジョブとして連携すべての処理を⼀枚岩で実装してしまうと、今どの処理を実⾏しているのかがわからず運⽤がしにくくなります。タスクに分解することで、タスクを組み合わせて柔軟にワークフローを構成することができるようになります。 6.
管理画⾯ 7. エラー時のリトライ 8. 成功/失敗の通知 9

AWS DATA PIPELINEでできること AWS DATA PIPELINEでできること 10

1. 様々なデータ源泉への対応 1. 様々なデータ源泉への対応 S3 DB（JDBCで接続できればOK）オンプレミスのサーバーにも対応 11

2. データ量が増加しても対応できるアーキテ 2. データ量が増加しても対応できるアーキテクチャクチャパフォーマンス向上の⼿法として、⼀般的にスケールアップとスケールアウトの２つの⽅法があります。スケールアップマシンの性能を上げる⽅法です。
スケールアウト処理を複数マシンに分散できるようにしておき、処理マシンの台数を増やす⽅法です。 12

DATA PIPELINEでこれらを実現するには DATA PIPELINEでこれらを実現するにはスケールアップ EC2のインスタンスタイプのスペックを上げる。スケールアウト Amazon EMR（複数のEC2インスタンスをクラスタとして提供するサービス）と連携
すると、複数のEC2インスタンスで分散処理させることができます。 13

3. 複数のETL処理を並列に実⾏ 3. 複数のETL処理を並列に実⾏ EC2のインスタンスはパイプラインごとに⽣成されるので、実⾏環境は独⽴しています。他のパイプラインの実⾏に影響を及ぼしません。 14

4. データ変換処理 4. データ変換処理 Javaまたはシェルスクリプトでカスタムロジックを実装できます。 15

5. ETLに必要なそれぞれの処理をタスクとして 5. ETLに必要なそれぞれの処理をタスクとして分解し、ジョブとして連携分解し、ジョブとして連携個々の処理をアクティビティという単位に分割できます。アクティビティを組み合わせてワークフローを構成できます。 16

6. 管理画⾯ 6. 管理画⾯管理画⾯が⽤意されているので、開発者が作成する必要はありません。 17

7. エラー時のリトライ 7. エラー時のリトライアクティビティ単位のリトライ処理が⽤意されています。 18

8. 成功/失敗の通知 8. 成功/失敗の通知 Amazon SNSと連携し、メールまたはSMSで結果を通知できます。 19

設計で⼯夫したところ設計で⼯夫したところ 20

データのインポート処理でステージングをしています。ステージングは、Data Pipelineに限定された概念ではなく、データ処理で⼀般的に使われる考え⽅です。ステージングとは、直接対象にインポートするのではなく、⼀時的に別の領域に（今回はRedshiftにステージング⽤のテーブルを⽤意しました）データを⼊れることをいいます。最終的なターゲットのテーブルにはステージングテーブルから INSERTすることになります。 21

ステージングするメリットステージングするメリット Redshiftのテーブルにステージングすることにより、インポート前にデータをSQLで⾃由に加⼯できるようになります。ステージングを採⽤したことで、業務要件をすべてSQLだけで実現できました。前年度の営業⽇の売り上げを⼊れてほしい１年前の売り上げデータとステージングテーブルをJOINしてステージングデータの前年営業⽇売り上げをUPDATEする。更新⽇に処理⽇時を⼊れてほしいステージングデータの更新⽇を処理⽇時でUPDATEする。
インポートする前に同⼀キーの既存レコードを削除してほしいステージングテーブルに存在するレコードのキーで、ターゲットのレコードをDELETEする。 22

採⽤してよかったこと採⽤してよかったこと 23

将来への安⼼感将来への安⼼感データ量が増えても… EC2インスタンスのスペックを上げて対応源泉が増えても… EC2インスタンスはパイプラインごとに独⽴しているので、パイプラインを増やしても既存のパイプラインの実⾏環境に影響を及ぼさない 24

EC2のインスタンスを使い捨てにできる EC2のインスタンスを使い捨てにできるパイプラインが開始されるときに、AMI（Amazon Machine Image）からインスタンスを⽣成し、パイプラインの処理が終わったらインスタンスが破棄される。 EC2は起動時間による従量課⾦（秒単位）なので、コスト⾯のメリットが⼤きい同じAMIから毎回インスタンスを⽣成し直すので、実⾏環境が常に
⼀定知らない間にOSにパッチが適⽤されていて、バッチが動かなくなったということがない。 25

応⽤編応⽤編 Data PipelineはETL以外にも使えます。カスタムロジックをシェルスクリプトで書けるので、AWS CLIを使ってAWSのリソースを操作できます。 EC2、Redshiftを使わないときは落としておくとコストが下がります。夜間の停⽌・翌朝の起動をData
Pipelineで⾃動化しています。 Amazon EC2 インスタンスの停⽌と開始 26

DATA PIPELINEの注意事項 DATA PIPELINEの注意事項 27

管理画⾯は⽇本語対応されていない。典型的な処理なら⽤意されているアクティビティを使⽤してノンコーディングで実装できるが、それで実現できない場合はカスタムのロジックをシェルスクリプトで書かなければいけない。C#の快適な開発と⽐べると… ⽇本語の含まれるJSONを管理コンソールからインポートすると⽂字化けする。 AWS CLI（コマンドラインインターフェース）でインポートすればOK。
28

ワークフローはGUIのエディタで定義できるがすべての機能が対応されているわけではない。⼀部の機能はJSONを⼿で修正する必要がある。時刻はUTCなので、⽇本時間より9時間遅い。ワークフロー内で条件分岐させることはできない。データパイプラインで使⽤するEC2のインスタンスはLinuxである必要があります。現状Windowsインスタンスは使えません。 TaskRunnerというエージェントプロセスをインストールする必要があるが、Windowsはサポートしていないため。 Task
Runner を使⽤した既存のリソースでの作業の実⾏ - AWS Data Pipeline 29

DATA PIPELINEではまったこと DATA PIPELINEではまったこと 30

スケジュールの開始時刻どおりに実⾏されなスケジュールの開始時刻どおりに実⾏されないい指定した開始時刻よりもパイプラインの開始が早まったり、遅くなったりする（⾃分が確認した範囲では数分程度） 31

AWSサポートに問い合わせました AWSサポートに問い合わせました A. これはData Pipelineの意図された動作です。負荷の集中がサービスの安定稼働に影響を与えることを避けるため、サービス側で開始時刻の調整をします。最⼤でどのくらい開始時刻が前後するかは回答できません。 32

対応対応 Data Pipelineのスケジュール機能を使うのをやめて、タスクスケジューラでパイプラインを定期実⾏するようにした（AWSにはAWS CLIと呼ばれるコマンドラインインターフェースがあります） 33

データパイプラインの参考資料データパイプラインの参考資料 AWSの公開している資料 AWSの公開している資料その他その他 AWS Data Pipeline とは
- AWS Data Pipeline AWS Black Belt Tech シリーズ 2015 - AWS Data Pipeline Data Warehousing on AWS Data Pipeline ｜特集カテゴリー｜ Developers.IO AWS Data Pipeline の稀によくあるQ&A | ALBERT Of cial Blog 34

END END 35

AWS Data Pipelineを本番投入してみた話

AWS Data Pipelineを本番投入してみた話

jhashimoto

More Decks by jhashimoto

Other Decks in Programming

Featured

Transcript

AWS DATA PIPELINEを本番 AWS DATA PIPELINEを本番投⼊してみた話投⼊してみた話橋本淳⼀

アジェンダアジェンダ AWS Data Pipelineとは︖ システム構成 AWS Data Pipelineを採⽤した理由設計で⼯夫したところ

AWS DATA PIPELINEとは︖ AWS DATA PIPELINEとは︖ ビッグデータを扱うシステムにおいて、ETLができるサービスです。 3

ETLとは︖ ETLとは︖ Extract/Transform/Load（略称︓ETL）とは、データウェアハウスにおける以下のような⼯程を指す。 Extract - 外部の情報源からデータを抽出 Transform -

システム構成システム構成

データ規模データ規模 Redshiftのテーブル数 100以上１回のデータ処理バッチで処理するレコード数 100万件１テーブルのレコード件数 1億件源泉の数＝パイプラインの数 36

AWS DATA PIPELINEを採⽤した理由 AWS DATA PIPELINEを採⽤した理由 7

ビッグデータのETLに求められる要件ビッグデータのETLに求められる要件 1. 様々なデータ源泉への対応 2. 将来データ量が増加しても対応できるアーキテクチャ 3. 複数のETL処理を並列に実⾏ 4. データ変換処理

AWS DATA PIPELINEでできること AWS DATA PIPELINEでできること 10

1. 様々なデータ源泉への対応 1. 様々なデータ源泉への対応 S3 DB（JDBCで接続できればOK）オンプレミスのサーバーにも対応 11

3. 複数のETL処理を並列に実⾏ 3. 複数のETL処理を並列に実⾏ EC2のインスタンスはパイプラインごとに⽣成されるので、実⾏環境は独⽴しています。他のパイプラインの実⾏に影響を及ぼしません。 14

4. データ変換処理 4. データ変換処理 Javaまたはシェルスクリプトでカスタムロジックを実装できます。 15

6. 管理画⾯ 6. 管理画⾯管理画⾯が⽤意されているので、開発者が作成する必要はありません。 17

7. エラー時のリトライ 7. エラー時のリトライアクティビティ単位のリトライ処理が⽤意されています。 18

8. 成功/失敗の通知 8. 成功/失敗の通知 Amazon SNSと連携し、メールまたはSMSで結果を通知できます。 19

設計で⼯夫したところ設計で⼯夫したところ 20

採⽤してよかったこと採⽤してよかったこと 23

DATA PIPELINEの注意事項 DATA PIPELINEの注意事項 27

DATA PIPELINEではまったこと DATA PIPELINEではまったこと 30

スケジュールの開始時刻どおりに実⾏されなスケジュールの開始時刻どおりに実⾏されないい指定した開始時刻よりもパイプラインの開始が早まったり、遅くなったりする（⾃分が確認した範囲では数分程度） 31

対応対応 Data Pipelineのスケジュール機能を使うのをやめて、タスクスケジューラでパイプラインを定期実⾏するようにした（AWSにはAWS CLIと呼ばれるコマンドラインインターフェースがあります） 33

データパイプラインの参考資料データパイプラインの参考資料 AWSの公開している資料 AWSの公開している資料その他その他 AWS Data Pipeline とは

END END 35