Slide 1

Slide 1 text

PythonとSparkで学ぶPySpark 速習講座 データエンジニアのための 最強のビッグデータ処理エンジンPyspark ~ABC人材のBig Dataを処理しよう バッチ処理~

Slide 2

Slide 2 text

はじめに

Slide 3

Slide 3 text

本コースの概要 ● Pysparkのバッチ講座になります ○ Pysparkはストリーミング処理も可能ですがそれは別講座にて ● 学べること ○ ケーススタディで実務を例に取ったデータエンジニアリングの流れで紹介 ○ PySparkを使う上でハマりやすいチューニングポイントを知ることができま す ○ 分散処理の基本を学ぶことができます ● ソースコードはすべてgithubに公開しています ○ https://github.com/yk-st/pyspark_batch

Slide 4

Slide 4 text

本コースの特徴 ● 日本で最初のPysparkコースです(おそらく、もしくは少なめ) ● 実務経験から特に重要なポイントに絞り解説を行います ○ よくある関数の羅列ではなく、ストーリじたてで紹介します ○ そのためあまり遠回りはしません ● Pysparkはバッチ処理もストリーミング処理もできますが ○ 本コースはバッチ処理のコースです

Slide 5

Slide 5 text

本コースを学ぶ意義 ● SparkはABC人材(AI,BigData,Cloud)な人材になるための必 須スキルと言っても過言ではありません ○ ABCはもう止められない流れ ● Sparkがスキルセットに存在しているだけで、企業のデータ活 用の人材として重宝されます ○ 年収も高めです

Slide 6

Slide 6 text

本コースに適する人 ● これからビッグデータの世界で大規模なデータと闘うABC人材 になりたい人 ○ AI BigData Cloudの頭文字をとった人材のこと ● Pythonを使ったプログラミングを強化したい人 ○ Pythonに分散処理というスパイスを加えたい人

Slide 7

Slide 7 text

本コースに適さない人 ● Pysparkの熟達者 ● Pysparkでストリーミング処理をやってみたい方 ○ 別のコースで作成予定 ● 機械学習のアルゴリズムを勉強したい方 ○ 難しいアルゴリズムは出てきません

Slide 8

Slide 8 text

自己紹介 ● データエンジニア ● 数PBクラスのデータレイクや データウェアハウスアーキテ クトを担当 ● データ処理(データラングリン グ、データ品質の可視化処 理などなど) ● 2021/12末くらいに拙書の データエンジニアリング書籍 が出ます

Slide 9

Slide 9 text

本コースの役割 ビッグデータ基盤 においてどこに対する データエンジニアリングなのか?

Slide 10

Slide 10 text

ファイル連 携 コレクティング レイヤ プロセシングレイヤ アクセスレイヤ ストレージレイヤ テンポラ リーゾー ン BIツール API ゴールドゾー ン ステー ジング ゾーン ローゾーン クオレンティーン ゾーン SSoT データ データ基盤 ストレー ジ アクセス データレイクへ蓄積 パブ リッ シュ バ ッ チ アーカイブ ラングリング ス ト リ ー ミ ン グ プロ ビ ジョ ニン グ プロビ ジョ ニング ETL ETL ワークフローエンジン データパイプラインオーケストレーション ETL ラングリ ング GUI データ品質 計算 メタ デ ータ 計 算 デ ータ 品 質 取 得 計 算 メタデータ 計算 データパイプラインオー ケストレーション データ利 用 BIツール メタデー タ登録 非構造 データ 構造デー タ 構造デー タ 構造デー タ メタデータストア テクニカルメ タデータ オペレーショナ ルメタデータ ビジネスメタ データ テーブ ル 定義 参照 テ ー ブ ル 定 義 参 照 カタログ 登録 メタデー タ利用 データ 参照 (SQLな ど) マスタデータ 利用 利用 利用 バック アップ 参照用 データ 暗 号 化 暗号化 メタ デ ー タ 計 算 結 果 格 納 デ ー タ 品 質 計 算 結 果 格 納 デ ー タ 利 用 メッセージ キュー デ ー タ 基 盤 へ の 操 作 パブリッシュ サ ブ ス ク ラ イ ブ メッ セージ キュー バ ッチ デ ー タ 受 け 渡 し データソース 不正 検知 ーソナ ライズ 機械 学習 等 不正 検知 ーソナ ライズ 機械 学習 等 データウェアハウス蓄積 ダッシュ ボード作 成・参照 サブスクラ イブ メタ データ 参照/ 操作 データ 基盤へ の操作 ユーザ

Slide 11

Slide 11 text

今回のコースはどこに当たる? コレクティン グレイヤ プロセシングレイヤ アクセス レイヤ ストレージレイヤ ユーザ データ ソース ETL(バッ チ) メタデータストア ビジネスメタ データ

Slide 12

Slide 12 text

Sparkの紹介とインス トール

Slide 13

Slide 13 text

目次

Slide 14

Slide 14 text

Pyspark Basics

Slide 15

Slide 15 text

Data(データ)    Information(情報) Knowledge(知識) Wisdom(知恵) 手を加えていないデータ データの分類 ETL(データ ウェアハウ ス化)やラン グリング等 データマー ト 人による創出 データに関する事実 (パータンと関係) データ活用 知恵の 創出に 集中でき るように システム やデータ を整備 する

Slide 16

Slide 16 text

目次

Slide 17

Slide 17 text

Pyspark for SQL

Slide 18

Slide 18 text

目次

Slide 19

Slide 19 text

Pyspark in Production

Slide 20

Slide 20 text

目次