Slide 1

Slide 1 text

Databricksの始め方 株式会社ジール 永田 亮磨 Twitter:@ryomaru0825 Linkedin:ryoma-nagata-0825 Qiita:qiita.com/ryoma-nagata

Slide 2

Slide 2 text

1. Spark、Databricks、レイクハウスについて 2. Databricksの始め方 1. 契約 2. 学習 3. Demo AGENDA

Slide 3

Slide 3 text

• Apache Spark • Hadoop を分析方面での様々な要求に対応できるよう進化させ たOSS並列分散処理フレームワーク • モチベーション記載資料 • http://spark.apache.org/talks/overview.pdf • Databricks • Apache Spark の開発チームによって 2013 年に設立された米 ユニコーン企業、および同社が提供するPaaS製品名 • Azure、AWS、Alibaba Cloudで提供 ※GCPはまだ • 独自の最適化がされており、 OSS Sparkに比べて50倍の性能改善 • 日本語サイト • https://databricks.com/jp/ キーワード整理

Slide 4

Slide 4 text

• DWH時代 • ニーズ:サイロ化の解消、エンタープライズBI • 問題:スキーマオンライト、MLの非効率性 データプラットフォームの時代の流れ • What is a Data Lakehouse? – Databricks

Slide 5

Slide 5 text

• データレイク時代 • ニーズ:柔軟性の確保、MLのためのオブジェクトストレージアクセス • 問題:サービス間ロードによるデータ鮮度の古さ、複雑さ、ファイル管理性、MLからのDWHアクセス非効率 性 データプラットフォームの時代の流れ • What is a Data Lakehouse? – Databricks

Slide 6

Slide 6 text

• レイクハウス時代の到来 • ニーズ:データレイク上のACIDトランザクション、SQL,MLからの透過的なアクセス • 主要OSS:Delta Lake(from Databricks) , Iceberg(from Netflix) , Hudi(from Uber) データプラットフォームの時代の流れ • What is a Data Lakehouse? – Databricks

Slide 7

Slide 7 text

• 大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/0… (slideshare.net) • Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics (databricks.com) 参考資料

Slide 8

Slide 8 text

• 有償 • Azureの場合:Azure Portalからデプロイ • クイック スタート - Azure portal を使用して Azure Databricks ワークスペースで Spark ジョブを 実行する | Microsoft Docs • AWSの場合:Databricksのサイトからアクセスしてアカウントを設定→AWS側で S3,EC2などをDatabricksから操作する許可設定などを行う • Try Databricks • 無償 • Databricksのサイトからアクセスしてアカウントを設定 • 無償のSpark実行環境であるDatabricks Community Editionの申し込み方法 - Qiita Databricksのはじめ方①契約

Slide 9

Slide 9 text

• ドキュメント • Azure Databricks のドキュメント | Microsoft Docs • データセットの Azure Databricks-Azure Databricks - Workspace | Microsoft Docs • Databricks documentation — Databricks Documentation • Get started with Databricks Workspace — Databricks Documentation • Databricks Academy • Get better faster with Databricks Academy - Databricks • 各種認定試験、ラボ、セルフペーストレーニングが購入可能 • 今なら無料で通常20万円相当のセルフペーストレーニングコンテンツが入手できます。 • Databricks Academyで、20万円相当のSelf Paced Trainingを無償で申し込む方法 – Qiita • Databricks AcademyにおけるFree Customer/Partner Introductory Learningの整理 – Qiita • Databricksもくもく会(次回未定) • Databricksハンズオンで学ぶ実践Data & AI – Book of Architectures (jixjia.com) Databricksのはじめ方②学習リソース

Slide 10

Slide 10 text

• デルタレイクのチュートリアル • 導入ノート-Azure Databricks - Workspace | Microsoft Docs • Power BIコネクタ • Power BI-Azure Databricks - SQL Analytics | Microsoft Docs Demo