Slide 1

Slide 1 text

AWS Lake Formation の ハンズオンをやってみた クラウドLT大会 vol.11 10/28(月) 19:00- 株式会社セゾンテクノロジー データインテグレーション部 吉田 慎弥

Slide 2

Slide 2 text

自己紹介 吉田 慎弥 株式会社セゾンテクノロジー データインテグレーション部 #入社4年目 #CLF #SAA #SOA #2024 Japan AWS Jr. Champions 1

Slide 3

Slide 3 text

もくじ 1. はじめに 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake Formation の機能 5. まとめ 2

Slide 4

Slide 4 text

1. はじめに 1. はじめに 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake Formation の機能 5. まとめ “AWS Lake Formation の ハンズオンをやってみた” 3

Slide 5

Slide 5 text

1. はじめに 1. はじめに 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake Formation の機能 5. まとめ “データインテグレーション” = お客様のデータ利活用を推進する 4

Slide 6

Slide 6 text

1. はじめに 1. はじめに 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake Formation の機能 5. まとめ 5 データレイクにS3が使われることが多い? AWSでデータレイクを構築すると,,, AWS学習 × 業務キャッチアップ= 一石二鳥!

Slide 7

Slide 7 text

1. はじめに 1. はじめに 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake Formation の機能 5. まとめ 話すこと • Data Engineering on AWS – A Data Lake Solution コースの内容(抜粋) • AWS Lake Formation の詳細 • データレイクとは 話さないこと • Amazon S3, AWS Glue 他などの詳細 • データウェアハウスとは 6 https://explore.skillbuilder.aws/learn/Course/ 20316/data-engineering-on-aws- a-data-lake-solution-includes-labs

Slide 8

Slide 8 text

2. データレイク 1. 経緯 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake Formation の機能 5. まとめ 構造化データと非構造化データの両方をもとの 形式で大規模に保存するために使用できる 一元化されたリポジトリ 7 テキスト テーブル 画像 動画・音声

Slide 9

Slide 9 text

2. データレイク 1. データガバナンス 複数のソースからの膨大な量の異なるデータを管理することは困難。 (ポリシー、アクセス制御、メタデータ管理) 2. データ品質 複数のソースから生データを取り込むと、データ品質、不整合、重複、整合性の問題が 発生しうる。大量のデータに対して ETL とクリーニングを実行することは困難。 3. セキュリティ 大量の異種データを含むデータレイクを保護することは困難。 アクセス制御、暗号化、マスキング、監査を大規模に実装するには、慎重な計画が必要。 8 1. 経緯 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake Formation の機能 5. まとめ データレイク構築/運用の課題

Slide 10

Slide 10 text

3. AWSにおける データレイクサービス 1. 経緯 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake Formation の機能 5. まとめ AWS Lake Formation データセキュリティ、アクセス制御、監査証跡を 一元管理するための統合ガバナンスを提供 Amazon S3 基盤および主要なデータレイクストレージ AWS Glue データカタログ(※)の作成、データの処理 ※データに関する情報を集約し、データを容易に見つけるための仕組み 9

Slide 11

Slide 11 text

4. Lake Formation の機能 1. 経緯 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake Formation の機能 5. まとめ 10 https://explore.skillbuilder.aws/learn/course/20316/data-engineering-on-aws-a-data-lake-solution-includes-labs

Slide 12

Slide 12 text

Amazon S3 bucket • データレイクストレージ • データ形式/ソース等を問わない AWS Glue Data Catalog • データカタログ(※)の作成 ※データに関する情報を集約してデータを容易に見つけるための仕組み 11 https://explore.skillbuilder.aws/learn/course/20316/ data-engineering-on-aws-a-data-lake-solution-includes-labs 4. Lake Formation の機能 1. 経緯 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake Formation の機能 5. まとめ

Slide 13

Slide 13 text

1. データガバナンス&セキュリティ 2. データ品質 12 4. Lake Formation の機能 1. 経緯 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake Formation の機能 5. まとめ IAMによるS3バケット へのアクセス制御 テーブル/列/セルレベ ルのアクセス制御 ※Lake Formation独自のタグ ベースのアクセス制御も可能 LFなし LFあり Glueワークフローを 自作 Blueprintを用いた ワークフローの テンプレート活用 LFなし LFあり

Slide 14

Slide 14 text

13 再掲 1 2 4. Lake Formation の機能 1. 経緯 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake Formation の機能 5. まとめ https://explore.skillbuilder.aws/learn/course/20316/data-engineering-on-aws-a-data-lake-solution-includes-labs

Slide 15

Slide 15 text

5. まとめ 1. 経緯 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake Formation の機能 5. まとめ AWS Lake Formationは データレイクの課題を解決し 短期間でデータレイク環境を構築する優れもの 1. テーブル/列/セルレベル、タグベースのアクセス制御を利用する ことで、ガバナンスやセキュリティの課題に対応できる! 2. Blueprintを用いたWorkflowのテンプレートを利用することで、 データ品質の課題に対応できる! 14

Slide 16

Slide 16 text

ご清聴ありがとうございました 15

Slide 17

Slide 17 text

xx. 補足資料 “データインテグレーション”? 弊社サイトより抜粋 https://www.saison-technology.com/products 16

Slide 18

Slide 18 text

AWSでの分析基礎 - パート① • ML(機械学習) × アナリティクス(分析) = 膨大なデータから有意義なパターンやインサイトを自動的 かつ迅速に発見し、よりよい意思決定に役立てることができる • ビッグデータの5Vとその課題、AWSにおける解決策 AWSでの分析基礎 - パート② • データレイクとAWS • データウェアハウスとAWS 17 xx. 補足資料 SkillBuilderでデータレイク構築関連コースを受講 https://explore.skillbuilder.aws/learn/course/18778/fundamentals-of-analytics-on-aws-part-1-japanese https://explore.skillbuilder.aws/learn/course/18779/fundamentals-of-analytics-on-aws-part-2-japanese

Slide 19

Slide 19 text

18 xx. 補足資料 データおよび分析アプリケーション向けの ストレージのベストプラクティス https://docs.aws.amazon.com/whitepapers/latest/building-data-lakes/building-data-lake-aws.html →クラウドベースのデータレイクを構築する利点は ストレージとコンピューティングの機能を個別に拡張できること

Slide 20

Slide 20 text

XX. 今後の展望 1. ブループリントを使用するとGlueのワークフローが簡単に作成 できる! →Glueの他の機能を調べ触ってみる 2. データレイクの構築はイメージがついた →データウェアハウスの構築、データレイクハウスの理解を深める 3. AWSでのデータ分析基盤のイメージがついた →Snowflakeを学習しAWSとの違いを理解する (SnowPro® Core認定を取得予定。その前にDEAを取得するつもり) 19 1. 経緯 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake Formation の機能 5. まとめ

Slide 21

Slide 21 text

参考資料 20 Qiita - データレイクハウスの概要とそれを支える技術 https://qiita.com/RyoOkaya/items/e0d0f9a8ebd5c2ad0eb8 Microsoft - Microsoft Fabric のレイクハウスとは? https://learn.microsoft.com/ja-jp/fabric/data- engineering/lakehouse-overview AWS - データ分析とは何ですか? https://aws.amazon.com/jp/what-is/data-analytics/ AWS - AWS Lake Formation https://aws.amazon.com/jp/lake-formation/

Slide 22

Slide 22 text

参考資料 21 AWS - データおよび分析アプリケーション向けのストレージの ベストプラクティス https://docs.aws.amazon.com/whitepapers/latest/building- data-lakes/building-data-lake-aws.html Classmethod - AWS入門ブログリレー2024〜AWS Glue編〜 https://dev.classmethod.jp/articles/introduction-2024-aws- glue/ AWS - データレイク解説シリーズ 第 1 回 : データレイクってな に ? https://aws.amazon.com/jp/builders-flash/202003/what-is- datalake/