Upgrade to Pro — share decks privately, control downloads, hide ads and more …

吉田_LT大会_20241028.pdf

ShinyaYoshidaO
October 29, 2024
44

 吉田_LT大会_20241028.pdf

ShinyaYoshidaO

October 29, 2024
Tweet

Transcript

  1. 1. はじめに 1. はじめに 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake

    Formation の機能 5. まとめ “AWS Lake Formation の ハンズオンをやってみた” 3
  2. 1. はじめに 1. はじめに 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake

    Formation の機能 5. まとめ “データインテグレーション” = お客様のデータ利活用を推進する 4
  3. 1. はじめに 1. はじめに 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake

    Formation の機能 5. まとめ 5 データレイクにS3が使われることが多い? AWSでデータレイクを構築すると,,, AWS学習 × 業務キャッチアップ= 一石二鳥!
  4. 1. はじめに 1. はじめに 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake

    Formation の機能 5. まとめ 話すこと • Data Engineering on AWS – A Data Lake Solution コースの内容(抜粋) • AWS Lake Formation の詳細 • データレイクとは 話さないこと • Amazon S3, AWS Glue 他などの詳細 • データウェアハウスとは 6 https://explore.skillbuilder.aws/learn/Course/ 20316/data-engineering-on-aws- a-data-lake-solution-includes-labs
  5. 2. データレイク 1. 経緯 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake

    Formation の機能 5. まとめ 構造化データと非構造化データの両方をもとの 形式で大規模に保存するために使用できる 一元化されたリポジトリ 7 テキスト テーブル 画像 動画・音声
  6. 2. データレイク 1. データガバナンス 複数のソースからの膨大な量の異なるデータを管理することは困難。 (ポリシー、アクセス制御、メタデータ管理) 2. データ品質 複数のソースから生データを取り込むと、データ品質、不整合、重複、整合性の問題が 発生しうる。大量のデータに対して

    ETL とクリーニングを実行することは困難。 3. セキュリティ 大量の異種データを含むデータレイクを保護することは困難。 アクセス制御、暗号化、マスキング、監査を大規模に実装するには、慎重な計画が必要。 8 1. 経緯 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake Formation の機能 5. まとめ データレイク構築/運用の課題
  7. 3. AWSにおける データレイクサービス 1. 経緯 2. データレイク 3. AWSにおけるデータレイクサービス 4.

    Lake Formation の機能 5. まとめ AWS Lake Formation データセキュリティ、アクセス制御、監査証跡を 一元管理するための統合ガバナンスを提供 Amazon S3 基盤および主要なデータレイクストレージ AWS Glue データカタログ(※)の作成、データの処理 ※データに関する情報を集約し、データを容易に見つけるための仕組み 9
  8. 4. Lake Formation の機能 1. 経緯 2. データレイク 3. AWSにおけるデータレイクサービス

    4. Lake Formation の機能 5. まとめ 10 https://explore.skillbuilder.aws/learn/course/20316/data-engineering-on-aws-a-data-lake-solution-includes-labs
  9. Amazon S3 bucket • データレイクストレージ • データ形式/ソース等を問わない AWS Glue Data

    Catalog • データカタログ(※)の作成 ※データに関する情報を集約してデータを容易に見つけるための仕組み 11 https://explore.skillbuilder.aws/learn/course/20316/ data-engineering-on-aws-a-data-lake-solution-includes-labs 4. Lake Formation の機能 1. 経緯 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake Formation の機能 5. まとめ
  10. 1. データガバナンス&セキュリティ 2. データ品質 12 4. Lake Formation の機能 1.

    経緯 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake Formation の機能 5. まとめ IAMによるS3バケット へのアクセス制御 テーブル/列/セルレベ ルのアクセス制御 ※Lake Formation独自のタグ ベースのアクセス制御も可能 LFなし LFあり Glueワークフローを 自作 Blueprintを用いた ワークフローの テンプレート活用 LFなし LFあり
  11. 13 再掲 1 2 4. Lake Formation の機能 1. 経緯

    2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake Formation の機能 5. まとめ https://explore.skillbuilder.aws/learn/course/20316/data-engineering-on-aws-a-data-lake-solution-includes-labs
  12. 5. まとめ 1. 経緯 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake

    Formation の機能 5. まとめ AWS Lake Formationは データレイクの課題を解決し 短期間でデータレイク環境を構築する優れもの 1. テーブル/列/セルレベル、タグベースのアクセス制御を利用する ことで、ガバナンスやセキュリティの課題に対応できる! 2. Blueprintを用いたWorkflowのテンプレートを利用することで、 データ品質の課題に対応できる! 14
  13. AWSでの分析基礎 - パート① • ML(機械学習) × アナリティクス(分析) = 膨大なデータから有意義なパターンやインサイトを自動的 かつ迅速に発見し、よりよい意思決定に役立てることができる

    • ビッグデータの5Vとその課題、AWSにおける解決策 AWSでの分析基礎 - パート② • データレイクとAWS • データウェアハウスとAWS 17 xx. 補足資料 SkillBuilderでデータレイク構築関連コースを受講 https://explore.skillbuilder.aws/learn/course/18778/fundamentals-of-analytics-on-aws-part-1-japanese https://explore.skillbuilder.aws/learn/course/18779/fundamentals-of-analytics-on-aws-part-2-japanese
  14. XX. 今後の展望 1. ブループリントを使用するとGlueのワークフローが簡単に作成 できる! →Glueの他の機能を調べ触ってみる 2. データレイクの構築はイメージがついた →データウェアハウスの構築、データレイクハウスの理解を深める 3.

    AWSでのデータ分析基盤のイメージがついた →Snowflakeを学習しAWSとの違いを理解する (SnowPro® Core認定を取得予定。その前にDEAを取得するつもり) 19 1. 経緯 2. データレイク 3. AWSにおけるデータレイクサービス 4. Lake Formation の機能 5. まとめ
  15. 参考資料 20 Qiita - データレイクハウスの概要とそれを支える技術 https://qiita.com/RyoOkaya/items/e0d0f9a8ebd5c2ad0eb8 Microsoft - Microsoft Fabric

    のレイクハウスとは? https://learn.microsoft.com/ja-jp/fabric/data- engineering/lakehouse-overview AWS - データ分析とは何ですか? https://aws.amazon.com/jp/what-is/data-analytics/ AWS - AWS Lake Formation https://aws.amazon.com/jp/lake-formation/
  16. 参考資料 21 AWS - データおよび分析アプリケーション向けのストレージの ベストプラクティス https://docs.aws.amazon.com/whitepapers/latest/building- data-lakes/building-data-lake-aws.html Classmethod -

    AWS入門ブログリレー2024〜AWS Glue編〜 https://dev.classmethod.jp/articles/introduction-2024-aws- glue/ AWS - データレイク解説シリーズ 第 1 回 : データレイクってな に ? https://aws.amazon.com/jp/builders-flash/202003/what-is- datalake/