$30 off During Our Annual Pro Sale. View Details »

Databricksの始め方

 Databricksの始め方

第38回 SQL Server 2019勉強会(オンライン)
2021/01/23(土)12:30 〜 18:00
登壇資料
https://sqlserver.connpass.com/event/197578/

Ryoma Nagata

January 23, 2021
Tweet

More Decks by Ryoma Nagata

Other Decks in Technology

Transcript

  1. Databricksの始め方 株式会社ジール 永田 亮磨 Twitter:@ryomaru0825 Linkedin:ryoma-nagata-0825 Qiita:qiita.com/ryoma-nagata

  2. 1. Spark、Databricks、レイクハウスについて 2. Databricksの始め方 1. 契約 2. 学習 3. Demo

    AGENDA
  3. • Apache Spark • Hadoop を分析方面での様々な要求に対応できるよう進化させ たOSS並列分散処理フレームワーク • モチベーション記載資料 •

    http://spark.apache.org/talks/overview.pdf • Databricks • Apache Spark の開発チームによって 2013 年に設立された米 ユニコーン企業、および同社が提供するPaaS製品名 • Azure、AWS、Alibaba Cloudで提供 ※GCPはまだ • 独自の最適化がされており、 OSS Sparkに比べて50倍の性能改善 • 日本語サイト • https://databricks.com/jp/ キーワード整理
  4. • DWH時代 • ニーズ:サイロ化の解消、エンタープライズBI • 問題:スキーマオンライト、MLの非効率性 データプラットフォームの時代の流れ • What is

    a Data Lakehouse? – Databricks
  5. • データレイク時代 • ニーズ:柔軟性の確保、MLのためのオブジェクトストレージアクセス • 問題:サービス間ロードによるデータ鮮度の古さ、複雑さ、ファイル管理性、MLからのDWHアクセス非効率 性 データプラットフォームの時代の流れ • What

    is a Data Lakehouse? – Databricks
  6. • レイクハウス時代の到来 • ニーズ:データレイク上のACIDトランザクション、SQL,MLからの透過的なアクセス • 主要OSS:Delta Lake(from Databricks) , Iceberg(from

    Netflix) , Hudi(from Uber) データプラットフォームの時代の流れ • What is a Data Lakehouse? – Databricks
  7. • 大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/0… (slideshare.net) • Lakehouse: A New

    Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics (databricks.com) 参考資料
  8. • 有償 • Azureの場合:Azure Portalからデプロイ • クイック スタート - Azure

    portal を使用して Azure Databricks ワークスペースで Spark ジョブを 実行する | Microsoft Docs • AWSの場合:Databricksのサイトからアクセスしてアカウントを設定→AWS側で S3,EC2などをDatabricksから操作する許可設定などを行う • Try Databricks • 無償 • Databricksのサイトからアクセスしてアカウントを設定 • 無償のSpark実行環境であるDatabricks Community Editionの申し込み方法 - Qiita Databricksのはじめ方①契約
  9. • ドキュメント • Azure Databricks のドキュメント | Microsoft Docs •

    データセットの Azure Databricks-Azure Databricks - Workspace | Microsoft Docs • Databricks documentation — Databricks Documentation • Get started with Databricks Workspace — Databricks Documentation • Databricks Academy • Get better faster with Databricks Academy - Databricks • 各種認定試験、ラボ、セルフペーストレーニングが購入可能 • 今なら無料で通常20万円相当のセルフペーストレーニングコンテンツが入手できます。 • Databricks Academyで、20万円相当のSelf Paced Trainingを無償で申し込む方法 – Qiita • Databricks AcademyにおけるFree Customer/Partner Introductory Learningの整理 – Qiita • Databricksもくもく会(次回未定) • Databricksハンズオンで学ぶ実践Data & AI – Book of Architectures (jixjia.com) Databricksのはじめ方②学習リソース
  10. • デルタレイクのチュートリアル • 導入ノート-Azure Databricks - Workspace | Microsoft Docs

    • Power BIコネクタ • Power BI-Azure Databricks - SQL Analytics | Microsoft Docs Demo