Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
AWS Lake Formation の ハンズオンをやってみた クラウドLT大会 vol.11 10/28(月) 19:00- 株式会社セゾンテクノロジー データインテグレーション部 吉田 慎弥
Slide 2
Slide 2 text
自己紹介 吉田 慎弥 株式会社セゾンテクノロジー データインテグレーション部 #入社4年目 #CLF #SAA #SOA #2024 Japan AWS Jr. Champions 1
Slide 3
Slide 3 text
もくじ 1. はじめに 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake Formation の機能 5. まとめ 2
Slide 4
Slide 4 text
1. はじめに 1. はじめに 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake Formation の機能 5. まとめ “AWS Lake Formation の ハンズオンをやってみた” 3
Slide 5
Slide 5 text
1. はじめに 1. はじめに 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake Formation の機能 5. まとめ “データインテグレーション” = お客様のデータ利活用を推進する 4
Slide 6
Slide 6 text
1. はじめに 1. はじめに 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake Formation の機能 5. まとめ 5 データレイクにS3が使われることが多い? AWSでデータレイクを構築すると,,, AWS学習 × 業務キャッチアップ= 一石二鳥!
Slide 7
Slide 7 text
1. はじめに 1. はじめに 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake Formation の機能 5. まとめ 話すこと • Data Engineering on AWS – A Data Lake Solution コースの内容(抜粋) • AWS Lake Formation の詳細 • データレイクとは 話さないこと • Amazon S3, AWS Glue 他などの詳細 • データウェアハウスとは 6 https://explore.skillbuilder.aws/learn/Course/ 20316/data-engineering-on-aws- a-data-lake-solution-includes-labs
Slide 8
Slide 8 text
2. データレイク 1. 経緯 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake Formation の機能 5. まとめ 構造化データと非構造化データの両方をもとの 形式で大規模に保存するために使用できる 一元化されたリポジトリ 7 テキスト テーブル 画像 動画・音声
Slide 9
Slide 9 text
2. データレイク 1. データガバナンス 複数のソースからの膨大な量の異なるデータを管理することは困難。 (ポリシー、アクセス制御、メタデータ管理) 2. データ品質 複数のソースから生データを取り込むと、データ品質、不整合、重複、整合性の問題が 発生しうる。大量のデータに対して ETL とクリーニングを実行することは困難。 3. セキュリティ 大量の異種データを含むデータレイクを保護することは困難。 アクセス制御、暗号化、マスキング、監査を大規模に実装するには、慎重な計画が必要。 8 1. 経緯 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake Formation の機能 5. まとめ データレイク構築/運用の課題
Slide 10
Slide 10 text
3. AWSにおける データレイクサービス 1. 経緯 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake Formation の機能 5. まとめ AWS Lake Formation データセキュリティ、アクセス制御、監査証跡を 一元管理するための統合ガバナンスを提供 Amazon S3 基盤および主要なデータレイクストレージ AWS Glue データカタログ(※)の作成、データの処理 ※データに関する情報を集約し、データを容易に見つけるための仕組み 9
Slide 11
Slide 11 text
4. Lake Formation の機能 1. 経緯 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake Formation の機能 5. まとめ 10 https://explore.skillbuilder.aws/learn/course/20316/data-engineering-on-aws-a-data-lake-solution-includes-labs
Slide 12
Slide 12 text
Amazon S3 bucket • データレイクストレージ • データ形式/ソース等を問わない AWS Glue Data Catalog • データカタログ(※)の作成 ※データに関する情報を集約してデータを容易に見つけるための仕組み 11 https://explore.skillbuilder.aws/learn/course/20316/ data-engineering-on-aws-a-data-lake-solution-includes-labs 4. Lake Formation の機能 1. 経緯 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake Formation の機能 5. まとめ
Slide 13
Slide 13 text
1. データガバナンス&セキュリティ 2. データ品質 12 4. Lake Formation の機能 1. 経緯 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake Formation の機能 5. まとめ IAMによるS3バケット へのアクセス制御 テーブル/列/セルレベ ルのアクセス制御 ※Lake Formation独自のタグ ベースのアクセス制御も可能 LFなし LFあり Glueワークフローを 自作 Blueprintを用いた ワークフローの テンプレート活用 LFなし LFあり
Slide 14
Slide 14 text
13 再掲 1 2 4. Lake Formation の機能 1. 経緯 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake Formation の機能 5. まとめ https://explore.skillbuilder.aws/learn/course/20316/data-engineering-on-aws-a-data-lake-solution-includes-labs
Slide 15
Slide 15 text
5. まとめ 1. 経緯 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake Formation の機能 5. まとめ AWS Lake Formationは データレイクの課題を解決し 短期間でデータレイク環境を構築する優れもの 1. テーブル/列/セルレベル、タグベースのアクセス制御を利用する ことで、ガバナンスやセキュリティの課題に対応できる! 2. Blueprintを用いたWorkflowのテンプレートを利用することで、 データ品質の課題に対応できる! 14
Slide 16
Slide 16 text
ご清聴ありがとうございました 15
Slide 17
Slide 17 text
xx. 補足資料 “データインテグレーション”? 弊社サイトより抜粋 https://www.saison-technology.com/products 16
Slide 18
Slide 18 text
AWSでの分析基礎 - パート① • ML(機械学習) × アナリティクス(分析) = 膨大なデータから有意義なパターンやインサイトを自動的 かつ迅速に発見し、よりよい意思決定に役立てることができる • ビッグデータの5Vとその課題、AWSにおける解決策 AWSでの分析基礎 - パート② • データレイクとAWS • データウェアハウスとAWS 17 xx. 補足資料 SkillBuilderでデータレイク構築関連コースを受講 https://explore.skillbuilder.aws/learn/course/18778/fundamentals-of-analytics-on-aws-part-1-japanese https://explore.skillbuilder.aws/learn/course/18779/fundamentals-of-analytics-on-aws-part-2-japanese
Slide 19
Slide 19 text
18 xx. 補足資料 データおよび分析アプリケーション向けの ストレージのベストプラクティス https://docs.aws.amazon.com/whitepapers/latest/building-data-lakes/building-data-lake-aws.html →クラウドベースのデータレイクを構築する利点は ストレージとコンピューティングの機能を個別に拡張できること
Slide 20
Slide 20 text
XX. 今後の展望 1. ブループリントを使用するとGlueのワークフローが簡単に作成 できる! →Glueの他の機能を調べ触ってみる 2. データレイクの構築はイメージがついた →データウェアハウスの構築、データレイクハウスの理解を深める 3. AWSでのデータ分析基盤のイメージがついた →Snowflakeを学習しAWSとの違いを理解する (SnowPro® Core認定を取得予定。その前にDEAを取得するつもり) 19 1. 経緯 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake Formation の機能 5. まとめ
Slide 21
Slide 21 text
参考資料 20 Qiita - データレイクハウスの概要とそれを支える技術 https://qiita.com/RyoOkaya/items/e0d0f9a8ebd5c2ad0eb8 Microsoft - Microsoft Fabric のレイクハウスとは? https://learn.microsoft.com/ja-jp/fabric/data- engineering/lakehouse-overview AWS - データ分析とは何ですか? https://aws.amazon.com/jp/what-is/data-analytics/ AWS - AWS Lake Formation https://aws.amazon.com/jp/lake-formation/
Slide 22
Slide 22 text
参考資料 21 AWS - データおよび分析アプリケーション向けのストレージの ベストプラクティス https://docs.aws.amazon.com/whitepapers/latest/building- data-lakes/building-data-lake-aws.html Classmethod - AWS入門ブログリレー2024〜AWS Glue編〜 https://dev.classmethod.jp/articles/introduction-2024-aws- glue/ AWS - データレイク解説シリーズ 第 1 回 : データレイクってな に ? https://aws.amazon.com/jp/builders-flash/202003/what-is- datalake/