Slide 1

Slide 1 text

©2024 Databricks Inc. — All rights reserved Apache Spark 徹底入門のご紹介 2024/4/3 弥生 隆明

Slide 2

Slide 2 text

©2024 Databricks Inc. — All rights reserved 自己紹介 弥生 隆明 (やよい たかあき) Databricks アカウントSA部 部長 ▪ 2020年からデータブリックス ジャパンにお いて、プレセールス、POCに従事 ▪ 前職はコンサルティングファーム、 総合電機メーカーにてデータ分析・Web サービス構築などに従事。 インド赴任経験あり。 ▪ Qiitaでいろいろ書いています。 2 @taka_aki

Slide 3

Slide 3 text

©2024 Databricks Inc. — All rights reserved Apache Spark徹底入門 4/12発売! Learning Spark 2nd Editionの翻訳 + αの内容となっています! 本書は、ビッグデータを主な対象としたデータ分析フ レームワークであるApache Spark、MLflow、Delta Lakeの中級入門書です。 「動かしてみる」だけではなく、どのような 仕組みになっているのか、どうすれば効率的な実装 が行えるかまで踏み込みつつ、データAIの実装者が Apache Spark、MLflow、および Delta Lakeを使いこなすための解説を行います。

Slide 4

Slide 4 text

©2024 Databricks Inc. — All rights reserved Learning Spark 2nd Editionとは 2020/8にオライリーから出版されました 改訂版ではSpark 3.0を含めており、2nd Editionで は、データエンジニアとデータサイエンティストにとっ てSparkにおける構造化と統合が意味を持つのかを 説明します。特に、本書では シンプルなデータ分析、複雑なデータ分析や 機械学習アルゴリズムの適用をどのように行うのか を説明しています。

Slide 5

Slide 5 text

©2024 Databricks Inc. — All rights reserved どう言った経緯で? 発起人 有志 有志 2年前の2022年6月ごろ... Learning Spark 2nd Editonは今でも通用 する内容だから翻訳し ない? 有志 「Sparkは難しい」とい う声を結構聞くし日本 語の本あるといいよな あと、出版社から 本を出してみたい

Slide 6

Slide 6 text

©2024 Databricks Inc. — All rights reserved どう言った経緯で? チーム組成 オリジナル コンテンツ選定 原著者/出版社との調整 2022/6 2023/5 翻訳・オリジナル コンテンツ執筆 2023/11 校閲 2024/2に表紙が できてテンション ↑ 2024/3/25 校了! 足掛け2年のプロジェクトでした 夜鍋、週末を溶かす日々

Slide 7

Slide 7 text

©2024 Databricks Inc. — All rights reserved ハイライト Learning Spark 2nd Editionの翻訳 + αの内容となっています! Apache Sparkとは何か? ● Python、SQL、Scala、またはJavaの高レベルの構造化 APIの学習 ● Sparkの操作とSQLエンジンの理解 ● Spark構成とSpark UIを使用したSpark操作の検査、調整、デバッグ ● JSON、Parquet、CSV、Avro、ORC、Hive、S3、またはKafkaといったデータソースへの接続 ● 構造化ストリーミングを使用したバッチデータとストリーミングデータの分析の実施 Delta Lake ● オープンソースのDelta LakeとSparkを使用した信頼性の高いデータパイプラインの構築 MLlib / MLflow ● MLlibを使用する機械学習パイプラインの開発、 MLflowを使用するモデルの管理、本番化 オリジナルコンテンツ ● pandasデータフレーム、sparkデータフレームに関する各種データフレームの使い分け ● LLMやEnglish SDK for SparkなどAIを活用した新たなコーディングスタイル、 LLMの実践

Slide 8

Slide 8 text

©2024 Databricks Inc. — All rights reserved ハイライト:章立て Learning Spark 2nd Editionの翻訳 + αの内容となっています! 第1章: Apache Spark入門 第2章: Apache Sparkのダウンロードと入門 第3章: Apache Sparkの構造化API 第4章: Spark SQLとDataFrame: 組み込みデータソースの紹介 第5章: Spark SQLとDataFrame: 外部データソースとのインタラクション 第6章: Spark SQLと Dataset 第7章: Sparkアプリケーションの最適化およびチューニング 第8章: 構造化Streaming 第9章: Apache Sparkを用いた信頼性の高いデータレイクの構築 第10章: MLlibによる機械学習 第11章: Apache Sparkによる機械学習パイプラインの管理、デプロイおよびスケール 第12章: エピローグ:Apache Spark 3.x

Slide 9

Slide 9 text

©2024 Databricks Inc. — All rights reserved ハイライト: サンプルコード コメントも翻訳しています!そして、コード説明を 記事にまとめています。

Slide 10

Slide 10 text

©2024 Databricks Inc. — All rights reserved ハイライト: オリジナルコンテンツ English SDK for Apache Spark ● 英語(日本語)でSparkを操作 Pandas vs. Spark / English SDK for Apache Spark / Spark Connect / MLOps + LLMOpsなどをカバーしています

Slide 11

Slide 11 text

©2024 Databricks Inc. — All rights reserved 苦労したポイント 初の翻訳作業ということもあり、試行錯誤の日々でした 初回翻訳では生成AI(LLM)の力を借りましたが... ● 翻訳結果の確認は人手で行う必要があるので、ひたすらアウトプットを確認しました。 ● propertyが「不動産」だったりしてました。 どこまで翻訳するのか問題 ● Driver、Worker、Executor、DataFrameのようにSpark固有の用語は原文のままとしました ● Structured Streamingは構造化Streamingとしました。 長文入れるのか問題 ● 宗教問題になりそうですが、クエリ、パラメータなどに統一しています。

Slide 12

Slide 12 text

©2024 Databricks Inc. — All rights reserved Apache Spark徹底入門 4/12発売! Learning Spark 2nd Editionの翻訳 + αの内容となっています!是非ご一読ください!

Slide 13

Slide 13 text

©2024 Databricks Inc. — All rights reserved