Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Pythonとsparkで学ぶpyspark 速習講座

Yuki
October 24, 2021

Pythonとsparkで学ぶpyspark 速習講座

Pythonとsparkで学ぶpy spark 速習講座

Udemyで公開しているPySpark講座の冒頭部分になります。
https://www.udemy.com/course/python-spark-pyspark/?referralCode=E67BF8B61F65866794EB

Yuki

October 24, 2021
Tweet

More Decks by Yuki

Other Decks in Programming

Transcript

  1. 本コースの概要 • Pysparkのバッチ講座になります ◦ Pysparkはストリーミング処理も可能ですがそれは別講座にて • 学べること ◦ ケーススタディで実務を例に取ったデータエンジニアリングの流れで紹介 ◦

    PySparkを使う上でハマりやすいチューニングポイントを知ることができま す ◦ 分散処理の基本を学ぶことができます • ソースコードはすべてgithubに公開しています ◦ https://github.com/yk-st/pyspark_batch
  2. ファイル連 携 コレクティング レイヤ プロセシングレイヤ アクセスレイヤ ストレージレイヤ テンポラ リーゾー ン

    BIツール API ゴールドゾー ン ステー ジング ゾーン ローゾーン クオレンティーン ゾーン SSoT データ データ基盤 ストレー ジ アクセス データレイクへ蓄積 パブ リッ シュ バ ッ チ アーカイブ ラングリング ス ト リ ー ミ ン グ プロ ビ ジョ ニン グ プロビ ジョ ニング ETL ETL ワークフローエンジン データパイプラインオーケストレーション ETL ラングリ ング GUI データ品質 計算 メタ デ ータ 計 算 デ ータ 品 質 取 得 計 算 メタデータ 計算 データパイプラインオー ケストレーション データ利 用 BIツール メタデー タ登録 非構造 データ 構造デー タ 構造デー タ 構造デー タ メタデータストア テクニカルメ タデータ オペレーショナ ルメタデータ ビジネスメタ データ テーブ ル 定義 参照 テ ー ブ ル 定 義 参 照 カタログ 登録 メタデー タ利用 データ 参照 (SQLな ど) マスタデータ 利用 利用 利用 バック アップ 参照用 データ 暗 号 化 暗号化 メタ デ ー タ 計 算 結 果 格 納 デ ー タ 品 質 計 算 結 果 格 納 デ ー タ 利 用 メッセージ キュー デ ー タ 基 盤 へ の 操 作 パブリッシュ サ ブ ス ク ラ イ ブ メッ セージ キュー バ ッチ デ ー タ 受 け 渡 し データソース 不正 検知 ーソナ ライズ 機械 学習 等 不正 検知 ーソナ ライズ 機械 学習 等 データウェアハウス蓄積 ダッシュ ボード作 成・参照 サブスクラ イブ メタ データ 参照/ 操作 データ 基盤へ の操作 ユーザ
  3. Data(データ)    Information(情報) Knowledge(知識) Wisdom(知恵) 手を加えていないデータ データの分類 ETL(データ ウェアハウ ス化)やラン グリング等

    データマー ト 人による創出 データに関する事実 (パータンと関係) データ活用 知恵の 創出に 集中でき るように システム やデータ を整備 する