Slide 3
Slide 3 text
©2024 Databricks Inc. — All rights reserved
Learning Spark 2nd Editionの翻訳 + αの内容となっています!
Apache Spark徹底入門
本書は、ビッグデータを主な対象としたデータ分析フレームワークである Apache Spark、MLflow、Delta
Lakeの中級入門書です。「動かしてみる」だけではなく、どのような仕組みになっているのか、
どうすれば効率的な実装が行えるかまで踏み込みつつ、データ AIの実装者が Apache Spark、MLflow
およびDelta Lakeを使いこなすための解説を行います。
● Python、SQL、Scala、またはJavaの高レベルの構造化 APIの学習
● Spark の操作とSQLエンジンの理解
● Spark 構成とSpark UIを使用したSpark操作の検査、調整、デバッグ
● JSON、Parquet、CSV、Avro、ORC、Hive、S3、またはKafkaといったデータソース
への接続
● 構造化ストリーミングを使用してバッチ データとストリーミング データの
分析を実施
● オープンソースのDelta LakeとSparkを使用して信頼性の高いデータ
パイプラインを構築
● MLlibを使用する機械学習パイプラインの開発、 MLflowを使用するモデルの
管理、本番化
● [日本語版オリジナルコンテンツ ]pandas dataframe、spark dataframeに関する各
種データフレームの使い分け
● [日本語版オリジナルコンテンツ ]LLMやEnglish SDK for SparkなどAIを活用
した新たなコーディングスタイル、 LLMの利用方法の実践