Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
PythonとSparkで学ぶPySpark 速習講座 データエンジニアのための 最強のビッグデータ処理エンジンPyspark ~ABC人材のBig Dataを処理しよう バッチ処理~
Slide 2
Slide 2 text
はじめに
Slide 3
Slide 3 text
本コースの概要 ● Pysparkのバッチ講座になります ○ Pysparkはストリーミング処理も可能ですがそれは別講座にて ● 学べること ○ ケーススタディで実務を例に取ったデータエンジニアリングの流れで紹介 ○ PySparkを使う上でハマりやすいチューニングポイントを知ることができま す ○ 分散処理の基本を学ぶことができます ● ソースコードはすべてgithubに公開しています ○ https://github.com/yk-st/pyspark_batch
Slide 4
Slide 4 text
本コースの特徴 ● 日本で最初のPysparkコースです(おそらく、もしくは少なめ) ● 実務経験から特に重要なポイントに絞り解説を行います ○ よくある関数の羅列ではなく、ストーリじたてで紹介します ○ そのためあまり遠回りはしません ● Pysparkはバッチ処理もストリーミング処理もできますが ○ 本コースはバッチ処理のコースです
Slide 5
Slide 5 text
本コースを学ぶ意義 ● SparkはABC人材(AI,BigData,Cloud)な人材になるための必 須スキルと言っても過言ではありません ○ ABCはもう止められない流れ ● Sparkがスキルセットに存在しているだけで、企業のデータ活 用の人材として重宝されます ○ 年収も高めです
Slide 6
Slide 6 text
本コースに適する人 ● これからビッグデータの世界で大規模なデータと闘うABC人材 になりたい人 ○ AI BigData Cloudの頭文字をとった人材のこと ● Pythonを使ったプログラミングを強化したい人 ○ Pythonに分散処理というスパイスを加えたい人
Slide 7
Slide 7 text
本コースに適さない人 ● Pysparkの熟達者 ● Pysparkでストリーミング処理をやってみたい方 ○ 別のコースで作成予定 ● 機械学習のアルゴリズムを勉強したい方 ○ 難しいアルゴリズムは出てきません
Slide 8
Slide 8 text
自己紹介 ● データエンジニア ● 数PBクラスのデータレイクや データウェアハウスアーキテ クトを担当 ● データ処理(データラングリン グ、データ品質の可視化処 理などなど) ● 2021/12末くらいに拙書の データエンジニアリング書籍 が出ます
Slide 9
Slide 9 text
本コースの役割 ビッグデータ基盤 においてどこに対する データエンジニアリングなのか?
Slide 10
Slide 10 text
ファイル連 携 コレクティング レイヤ プロセシングレイヤ アクセスレイヤ ストレージレイヤ テンポラ リーゾー ン BIツール API ゴールドゾー ン ステー ジング ゾーン ローゾーン クオレンティーン ゾーン SSoT データ データ基盤 ストレー ジ アクセス データレイクへ蓄積 パブ リッ シュ バ ッ チ アーカイブ ラングリング ス ト リ ー ミ ン グ プロ ビ ジョ ニン グ プロビ ジョ ニング ETL ETL ワークフローエンジン データパイプラインオーケストレーション ETL ラングリ ング GUI データ品質 計算 メタ デ ータ 計 算 デ ータ 品 質 取 得 計 算 メタデータ 計算 データパイプラインオー ケストレーション データ利 用 BIツール メタデー タ登録 非構造 データ 構造デー タ 構造デー タ 構造デー タ メタデータストア テクニカルメ タデータ オペレーショナ ルメタデータ ビジネスメタ データ テーブ ル 定義 参照 テ ー ブ ル 定 義 参 照 カタログ 登録 メタデー タ利用 データ 参照 (SQLな ど) マスタデータ 利用 利用 利用 バック アップ 参照用 データ 暗 号 化 暗号化 メタ デ ー タ 計 算 結 果 格 納 デ ー タ 品 質 計 算 結 果 格 納 デ ー タ 利 用 メッセージ キュー デ ー タ 基 盤 へ の 操 作 パブリッシュ サ ブ ス ク ラ イ ブ メッ セージ キュー バ ッチ デ ー タ 受 け 渡 し データソース 不正 検知 ーソナ ライズ 機械 学習 等 不正 検知 ーソナ ライズ 機械 学習 等 データウェアハウス蓄積 ダッシュ ボード作 成・参照 サブスクラ イブ メタ データ 参照/ 操作 データ 基盤へ の操作 ユーザ
Slide 11
Slide 11 text
今回のコースはどこに当たる? コレクティン グレイヤ プロセシングレイヤ アクセス レイヤ ストレージレイヤ ユーザ データ ソース ETL(バッ チ) メタデータストア ビジネスメタ データ
Slide 12
Slide 12 text
Sparkの紹介とインス トール
Slide 13
Slide 13 text
目次
Slide 14
Slide 14 text
Pyspark Basics
Slide 15
Slide 15 text
Data(データ) Information(情報) Knowledge(知識) Wisdom(知恵) 手を加えていないデータ データの分類 ETL(データ ウェアハウ ス化)やラン グリング等 データマー ト 人による創出 データに関する事実 (パータンと関係) データ活用 知恵の 創出に 集中でき るように システム やデータ を整備 する
Slide 16
Slide 16 text
目次
Slide 17
Slide 17 text
Pyspark for SQL
Slide 18
Slide 18 text
目次
Slide 19
Slide 19 text
Pyspark in Production
Slide 20
Slide 20 text
目次