Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Databricksのご紹介
Search
Takaaki Yayoi
May 23, 2024
Technology
1
410
Databricksのご紹介
データ分析における課題、それに対するソリューション、機能紹介(ガバナンス、データエンジニアリング、データサイエンス、BI、生成AI)という流れでDatabricksの概要を説明しています。
Takaaki Yayoi
May 23, 2024
Tweet
Share
More Decks by Takaaki Yayoi
See All by Takaaki Yayoi
Databricks : 製造業AI統合プラットフォームのご紹介
taka_aki
1
74
DatabricksにおけるLLMOpsのベストプラクティス
taka_aki
4
1.8k
Databricksで構築する初めての複合AIシステム - ML15min
taka_aki
3
1.5k
Databricksワークショップ - 生成AIとDWH
taka_aki
3
4.6k
ハンズオンで学ぶDatabricks
taka_aki
1
110
Databricksハッカソン(Genie/AutoML)
taka_aki
0
82
Databricks勉強会:Databricksの高度な使い方(その2)
taka_aki
0
96
Databricks勉強会:Databricksの高度な使い方(その1)
taka_aki
0
210
Databricks勉強会:Databricksにおけるプログラミング
taka_aki
1
160
Other Decks in Technology
See All in Technology
Postman と API セキュリティ / Postman and API Security
yokawasa
0
200
re:Invent 2024 Innovation Talks(NET201)で語られた大切なこと
shotashiratori
0
310
Turing × atmaCup #18 - 1st Place Solution
hakubishin3
0
480
祝!Iceberg祭開幕!re:Invent 2024データレイク関連アップデート10分総ざらい
kniino
2
260
新機能VPCリソースエンドポイント機能検証から得られた考察
duelist2020jp
0
220
10分で学ぶKubernetesコンテナセキュリティ/10min-k8s-container-sec
mochizuki875
3
330
ガバメントクラウドのセキュリティ対策事例について
fujisawaryohei
0
530
NW-JAWS #14 re:Invent 2024(予選落ち含)で 発表された推しアップデートについて
nagisa53
0
260
GitHub Copilot のテクニック集/GitHub Copilot Techniques
rayuron
27
12k
スタートアップで取り組んでいるAzureとMicrosoft 365のセキュリティ対策/How to Improve Azure and Microsoft 365 Security at Startup
yuj1osm
0
210
LINEヤフーのフロントエンド組織・体制の紹介【24年12月】
lycorp_recruit_jp
0
530
Storage Browser for Amazon S3
miu_crescent
1
140
Featured
See All Featured
Done Done
chrislema
181
16k
Embracing the Ebb and Flow
colly
84
4.5k
How to Think Like a Performance Engineer
csswizardry
22
1.2k
VelocityConf: Rendering Performance Case Studies
addyosmani
326
24k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
29
2k
Into the Great Unknown - MozCon
thekraken
33
1.5k
Typedesign – Prime Four
hannesfritz
40
2.4k
Thoughts on Productivity
jonyablonski
67
4.4k
Rails Girls Zürich Keynote
gr2m
94
13k
Art, The Web, and Tiny UX
lynnandtonic
298
20k
Making Projects Easy
brettharned
116
5.9k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
365
25k
Transcript
©2024 Databricks Inc. — All rights reserved Databricksのご紹介 2024/5/24 Databricks
Japan 弥生 隆明 Databricksとは何か? 生成AIの活用と開発を促進する データインテリジェンスプラットフォーム
©2023 Databricks Inc. — All rights reserved 自己紹介 弥生 隆明
(やよい たかあき) Databricks アカウントSA部 部長 ▪ 2020年からデータブリックス ジャパンにお いて、プレセールス、POCに従事 ▪ 前職はコンサルティングファーム、 総合電機メーカーにてデータ分析・Web サービス構築などに従事。 インド赴任経験あり。 ▪ Qiitaでいろいろ書いています。 2 @taka_aki
©2024 Databricks Inc. — All rights reserved Learning Spark 2nd
Editionの翻訳 + αの内容となっています! Apache Spark徹底入門 本書は、ビッグデータを主な対象としたデータ分析フレームワークである Apache Spark、MLflow、Delta Lake の中級入門書です。「動かしてみる」だけではなく、どのような仕組みになっているのか、 どうすれば効率的な実装が行えるかまで踏み込みつつ、データ AIの実装者がApache Spark、MLflow およびDelta Lakeを使いこなすための解説を行います。 • Python、SQL、Scala、またはJavaの高レベルの構造化 APIの学習 • Spark の操作とSQLエンジンの理解 • Spark 構成とSpark UIを使用したSpark操作の検査、調整、デバッグ • JSON、Parquet、CSV、Avro、ORC、Hive、S3、またはKafkaといったデータソース への接続 • 構造化ストリーミングを使用してバッチ データとストリーミング データの 分析を実施 • オープンソースのDelta LakeとSparkを使用して信頼性の高いデータ パイプラインを構築 • MLlibを使用する機械学習パイプラインの開発、 MLflowを使用するモデルの 管理、本番化 • [日本語版オリジナルコンテンツ ]pandas dataframe、spark dataframeに関する各 種データフレームの使い分け • [日本語版オリジナルコンテンツ ]LLMやEnglish SDK for SparkなどAIを活用 した新たなコーディングスタイル、 LLMの利用方法の実践
アジェンダ • Databricksとは? • データ分析における課題 • Databricksのソリューション • 類似製品との違い •
デモ
©2024 Databricks Inc. — All rights reserved 6000+ の従業員 $1.5B+
の収益 $4B の投資 レイクハウスの発明者 & 生成AIのパイオニア Gartnerに認知されるリーダー Database Management Systems データ & AIカンパニー のクリエイター
©2024 Databricks Inc. — All rights reserved データ + AI
カンパニー がすべての業界で勝者に
©2024 Databricks Inc. — All rights reserved すべてのフライトのデジタルツ インをモデリングするためにAI を活用
オペレーション、メンテナンス、 カスタマーサービス横断で統合 された意思決定を提供 AIで182Mのワイアレス利用者と 15Mの家庭ブロードバンドを 保護 予測アプリケーションが 不正が起きる前に リアルタイムで80%の不正をス トップ AIでローンアプリケーション 体験をシンプルに パーソナライズされたアプリ ケーションを通じて40,000のス モールビジネスに対する$1.4B のローンを促進
©2024 Databricks Inc. — All rights reserved 多くの企業はこのビジョンの 実現に苦戦しています データレイク
オーケストレーショ ン & ETL データ ウェアハウス ガバナンス 機械学習 ストリーミング BI データサイエンス 生成 AI
©2024 Databricks Inc. — All rights reserved 多くの企業はこのビジョンの 実現に苦戦しています データレイク
オーケストレーショ ン & ETL データ ウェアハウス ガバナンス 機械学習 ストリーミング BI データサイエンス 生成 AI サイロ化された データ、AI ガバナンス AIがもたらすデータ プライバシー& コントロールの課題 高度に技術的な スタッフへの依存
©2024 Databricks Inc. — All rights reserved データレイクハウス すべてのデータに対するオープンで統合された基盤 統合セキュリティ、ガバナンス、カタログ
信頼性と共有のための統合データストレージ オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像) データ サイエンス & AI ETL & リアル タイム分析 オーケストレーショ ン データ ウェアハウス
©2024 Databricks Inc. — All rights reserved データレイクハウス すべてのデータに対するオープンで統合された基盤 オープンデータレイク
すべての生データ (ログ、テキスト、音声、動画、画像) Databricksが レイクハウス アーキテクチャを発明 2020 統合セキュリティ、ガバナンス、カタログ 信頼性と共有のための統合データストレージ ETL & リアルタイム分析 オーケストレーション データウェアハウス データサイエンス & AI Mosaic AI Delta Live Tables Workflows Databricks SQL Unity Catalog Delta Lake グローバル企業の 74% がレイクハウスを導 入 現在 MIT Technology Review Insights, 2023
©2024 Databricks Inc. — All rights reserved すべてのデータに対するオープンで 統合された基盤 データレイクハウス
データとAIを容易にスケール、活用 生成AI 皆様の組織全体のデータ + AIを民主化 データインテリジェンス プラットフォーム
©2024 Databricks Inc. — All rights reserved すべての生データ (ログ、テキスト、音声、動画、画像 )
ETL & リアルタイム分析 オーケストレーション データウェアハウス データサイエンス & AI Mosaic AI Delta Live Tables Workflows Databricks SQL 統合セキュリティ、ガバナンス、カタログ Unity Catalog 信頼性と共有のための統合データストレージ Delta Lake Databricksデータインテリジェンスプラットフォーム オープンデータレイク
©2024 Databricks Inc. — All rights reserved ETL & リアルタイム分析
オーケストレーション データウェアハウス データサイエンス & AI Mosaic AI Delta Live Tables Workflows Databricks SQL 統合セキュリティ、ガバナンス、カタログ Unity Catalog Databricksデータインテリジェンスプラットフォーム 信頼性と共有のための統合データストレージ Delta Lake あなたのデータのセマンティクスを理解するために生成AIを活用 データインテリジェンスエンジン オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像 )
©2024 Databricks Inc. — All rights reserved ETL & リアルタイム分析
オーケストレーション データウェアハウス データサイエンス & AI Databricks AI Delta Live Tables Workflows Databricks SQL 統合セキュリティ、ガバナンス、カタログ Unity Catalog Databricksデータインテリジェンスプラットフォーム 信頼性と共有のための統合データストレージ Delta Lake あなたのデータのセマンティクスを理解するために生成AIを活用 データインテリジェンスエンジン オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像) Unity Catalog 自然言語でセキュアに洞察を取得 Delta Lake 利用パターンに基づき自動でデータレイアウトを最適化 Databricks SQL テキストからSQL Workflows 過去の処理に基づく ジョブコストの最適化 Delta Live Tables データ品質の自動化 Mosaic AI カスタムLLMの作成チュー ニング、提供
©2024 Databricks Inc. — All rights reserved Databricksデータインテリジェンスプラットフォーム Databricks AI
生成AI • カスタムモデル • モデルサービング • RAG エンドツーエンドAI • MLOps (MLflow) • AutoML • モニタリング • ガバナンス あなたのデータのセマンティクスを理解するために生成AIを活用 データインテリジェンスエンジン オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像 ) Databricks SQL テキストからSQL Workflows 過去の処理に基づく ジョブコストの最適化 Delta Live Tables データ品質の自動化 Mosaic AI カスタムLLMの作成チュー ニング、提供 Unity Catalog 自然言語でセキュアに洞察を取得 Delta Lake 利用パターンに基づき自動でデータレイアウトを最適化
©2024 Databricks Inc. — All rights reserved Databricksデータインテリジェンスプラットフォーム あなたのデータのセマンティクスを理解するために データインテリジェンスエンジ
オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像 Workflo 過去の処理に ジョブコストの Delta Live Tables データ品質の自動化 Unity Catalog 自然言語でセキュアに洞察を取得 Delta Lake 利用パターンに基づき自動でデータレイアウト Mosaic AI カスタムLLMの作成チュー ニング、提供 オペレーション 財務 マーケティング カスタマー サービス どうすれば 組織の皆に データとAIを展開 できるのか? “Project Genie” 自然言語で誰でもデータや AIを活用
©2024 Databricks Inc. — All rights reserved データ分析における課題 18
データ分析における課題 • データを保存しているシステムがバラバラ ✔ データ分析においては、”多種多様な”データを一元的に分析する必要があります ✔ 例: 顧客データ(構造化データ) + 画像/動画/音声/IoT(非構造化データ) • データ量が増加することで、処理が追いつかない
& 質が低下する ✔ アウトプットには期限がありますが、サンプリングで対応すると、アウトプットの質が落ちてしまいます。 ✔ また、データの由来や説明が分からず、データの品質を保つことが困難となります。 • 迅速なデータ分析環境の構築 ✔ 分析テーマやフェーズによって対象となるデータセットやデータ量、必要な処理のサイズは大幅に変化します ✔ データの分析内容に適した計算資源を迅速に準備する必要があります • プロジェクトを進める上でチーム内の効率的な連携が難しい ✔ 分析データの用意(データエンジニアリング)、モデルの作成/検証(データサイエンス)、洞察の抽出(ビジネスアナリティクス) ✔ 異なるスキルセット、異なる言語、 異なるツールが混在する中で、同じゴールに向けて試行錯誤を共に反復する必要がある
データエンジニアが抱える課題 20 データエンジニア • データベースやテーブルが野放図に作成されており、管理できていない • データパイプラインの開発や運用に多大な工数を要している • データの処理に時間がかかってしまい、データサイエンティストが分析に 着手するのに時間を要する
• データサイエンティストが個別にAIモデルを構築しており、 ブラックボックス化している • データサイエンティストが構築するAIモデルを管理するための 仕組みがない データエンジニアはデータガバナンス、データパイプラインの開発・運用などに責任を持ちます
データサイエンティストが抱える課題 21 データサイエンティスト • 分析データが散在しており、どこに何があるかわからない • データを見つけたのは良いが、どのように準備されたのかが 分からず、分析に利用できない • 構造化データだけではなく、画像などの非構造化データも分析
したいが実現できていない • 分析環境の構築に時間を要する • 分析のロジックをレビューしてもらいたいが、リモートワーク 環境でのコミュニケーションが困難 • AIモデルのチューニングを繰り返した結果、どれがベストモデル か分からなくなってしまった • ベストモデルを本番環境にデプロイしたいが、人手での作業が 多くミスが起こりがち データサイエンティストはパフォーマンスの高い機械学習モデルの構築に責任を持ちます
ビジネスアナリストが抱える課題 22 ビジネスアナリスト • 分析データが散在しており、どこに何があるかわからない • 全てのデータから示唆を抽出したいが、機能面、性能面での制約 からサンプルデータに頼らざるを得ない • データエンジニア、データサイエンティスト、ビジネスアナリストがバラバラ
のツールを利用しておりガバナンス不足 • チーム間連携が難しく、手戻りが発生している プロジェクト全体に渡る課題 ビジネスアナリストはBI/DWHを用いてビジネス示唆を導出します
©2024 Databricks Inc. — All rights reserved Databricksのソリューション 23
©2024 Databricks Inc. — All rights reserved Databricksの提供価値 • データを保存しているシステムがバラバラ
✔ Unity Catalogによるデータの一元管理 ✔ レイクハウスフェデレーションによる外部データとの連携 • データ量が増加することで、処理が追いつかない & 質が低下する ✔ Delta Live TablesやSparkによるデータの高速処理 ✔ Unity CatalogによるデータとAIのガバナンスの実現 • 迅速なデータ分析環境の構築 ✔ SaaS型で提供される分析環境 ✔ 分析テーマに即した計算資源の迅速なセットアップ • プロジェクトを進める上でチーム内の効率的な連携が難しい ✔ 同一プラットフォームを活用したデータとAIのコラボレーション ✔ アクセス管理、監査ログなどによるセキュリティの確保
©2024 Databricks Inc. — All rights reserved ガバナンス 25
©2024 Databricks Inc. — All rights reserved Unity Catalog アクセス制御
リネージ データ共有 モニタリング 検索 監査 テーブル ファイル ダッシュボード/ ノートブック 他のデータ システム ユーザー アプリ モデル オープンAPI においては、統合されたガバナンス、セ キュリティ、コラボレーションが 基盤となります Databricks Unity Catalog データインテリジェンスプ ラットフォーム
©2024 Databricks Inc. — All rights reserved データとAIのアクセス制御 Unity Catalog
アクセス 制御 リネージ データ共有 モニタ リング 検索 監査 権限と監査を管理するための シンプルなインタフェース データとAIのエンドツーエンドガバ ナンスに対する唯一の ソリューション きめ細かいアクセス制御
©2024 Databricks Inc. — All rights reserved データ共有とコラボレーション Unity Catalog
アクセス 制御 リネージ データ共有 モニタ リング 検索 監査 企業、BU横断でテーブルや ファイル、ノートブック、 AIモデルを共有 Databricksマーケットプレースの サードパーティデータの活用 (オープンソースのDelta Sharingによ る)プラットフォーム横断の コラボレーション プライバシー保護のマルチ パーティコラボレーションの ためのクリーンルーム
©2024 Databricks Inc. — All rights reserved 集中管理された検索 すべてのデータとAI資産に対する 統合されたインテリジェント検索
AI提案のドキュメント、タグ、 利用に関する洞察 クエリーフェデレーションによるプ ラットフォーム横断の検索 Unity Catalog アクセス 制御 リネージ データ共有 モニタ リング 検索 監査
©2024 Databricks Inc. — All rights reserved リネージ リアルタイムで自動生成されるデータとAI資産に対する カラムレベルのリネージ
システムテーブル経由でのプログラムによるアクセスによって、インパクト分析 のようなキーユースケースを促進 Unity Catalog アクセス 制御 リネージ データ共有 モニタ リング 検索 監査 すべての言語と製品界面で捕捉。ジョブ、DLT、ノートブック、ML、 DBSQL…
©2024 Databricks Inc. — All rights reserved AIが支援するモニタリングと 観測可能性 詳細な監査とコスト按分のための
システムテーブル データやモデルの問題に対する プロアクティブな警告 課金、使用量、コンプライアンスに対 するエンドツーエンドの 観測可能性 Unity Catalog アクセス 制御 リネージ データ共有 モニタ リング 検索 監査
©2024 Databricks Inc. — All rights reserved レイクハウス フェデレーション 外部データソースに対するガバナンス
すべてのソースにわたるデータ アクセス、 きめ細かいアクセス制御、リネージおよび監査 • MySQL • PostgreSQL • Amazon Redshift • Snowflake • Microsoft SQL Server • Azure Synapse (SQL Data Warehouse) • Google BigQuery
©2024 Databricks Inc. — All rights reserved レイクハウスフェデレーションの動作原理 発見 外部データソースを
Unity カタログに登録 クエリ 単一のビューを取得して、す べてのユースケースの 最も完全なデータを安全に探 索します - 取り込みは必要ありません ガバナンス データリネージ、 洞察、監査、権限を すべて Unity カタログか ら取得します 本番利用化 必要に応じて マテリアライズド ビューを 使用するかパイプラインを 構築することで、 速度とパフォーマンスを 向上させます
©2024 Databricks Inc. — All rights reserved データエンジニアリング 34
©2024 Databricks Inc. — All rights reserved Databricksにおけるデータエンジニアリング • Databricksワークフローによる
データオーケストレーション • Delta Live Tablesによる完全なデータ パイプラインの管理 • Delta Lakeによるキュレーテッド データレイクアプローチを通じて データエンジニアリングをシンプルに
©2024 Databricks Inc. — All rights reserved Delta Live Tablesのご紹介
BRONZE SILVER GOLD 新鮮かつ高品質データを構築、管理するシンプルな方法 パイプラインの容易な開発、維持 データパイプライン(バッチ、ストリーミング)を構 築、管理するための記述ツール 自動テスト ビルトインの品質管理、データ品質モニタリング 簡素化されたオペレーション パイプラインオペレーションに対するディープな 可視化を通じた自動エラーハンドリング 36
©2024 Databricks Inc. — All rights reserved Databricksワークフローとは? すべてのクラウドで誰もが高信頼のデータ、分析、AIワークフローを構築できる 完全マネージドのレイクハウスオーケストレーションサービス
完全マネージド 完全マネージドのオーケストレー ションサービスによって運用オー バーヘッドを取り除くことで、イン フラストラクチャの管理ではなく ワークロード自身にフォーカス。 プラットフォームと密接に インテグレーション お使いのレイクハウスプラット フォーム向けに設計され組み込 まれているので、すべてのワー クフローに対する深いモニタリン グ機能と集中管理された観測能 力を提供。 何でもどこでも オーケストレーション すべてのクラウドで完全なデー タとAIのライフサイクルにおける 様々なワークロードを実行。 Delta Live Tables、SQL、 Spark、ノートブック、dbt、MLモ デルなどのジョブをオーケスト レーション。 シンプルなワークフロー作成 特殊スキルを持つ人に限らず データチームの誰でも活用でき る簡単なポイント&クリックの作 成体験。 データ、分析、AIのための高信頼オーケストレーション 立証された信頼性 AWS、Azure、GCPで日々実行 されている数千万のプロダクショ ンワークロードで立証された信 頼性に基づいて安心してワーク ロードを実行。 https://www.databricks.com/jp/product/workflows
©2024 Databricks Inc. — All rights reserved Databricksワークフロー - ワークフロージョブ
38 ▪ これは何? DAG(有効非巡回グラフ)による容易なコードの 作成、スケジュール、オーケストレーション ▪ キーとなる機能 ▪ シンプルさ: UIでの容易な作成とモニタリング ▪ ワークロードに合わせた多数のタスク タイプ ▪ Databricksに完全にインテグレーションされてお り、結果の調査とデバッグを迅速に ▪ 立証されたDatabricksスケジューラの信頼性 ▪ 容易にステータスをモニタリングする 観測可能性 ワーク フロー ジョブ タスクの DAG
©2024 Databricks Inc. — All rights reserved データサイエンス 39
©2024 Databricks Inc. — All rights reserved DatabricksにおけるML & データサイエンス
機械学習 • MLflow連携によるモデルレジストリ、再現 性、本格運用への投入 • 再現性確保にDelta Lakeを活用 • シチズンデータサイエンティストのための AutoML データサイエンス • インタラクティブ分析向けコラボレーティブ ノートブック、ダッシュボード • Python、R、SQL、Scalaのネイティブサ ポート • Delta Lakeデータのネイティブサポート
©2024 Databricks Inc. — All rights reserved DatabricksにおけるMLOpsとエンドツーエンドのリネージ Staging Production
Archived V2 V3 V1 モデルレジストリ Labels week 1 Requests + predictions week 1 モデルサービング Client / app モデルモニタリング Labels week 2 Requests + predictions week 2 Metric computation & logging Monitoring Alerting Request logging & label joining Powered by
©2024 Databricks Inc. — All rights reserved 専門レベルに合わせた機械学習の実現 多言語ノートブック Python,
R, Scala, SQL対応の共同編集ノートブック AutoMLによるローコードML ガラスボックスアプローチによるUIベースのML開発
©2024 Databricks Inc. — All rights reserved BI/DWH 43
©2024 Databricks Inc. — All rights reserved DatabricksにおけるSQLワークロード • Databricks
SQLでは、Delta Lakeに おけるBI、SQLワークロードの優れた性 能、同時実行性を実現 • 分析に適したネイティブSQLインタフェー ス • Delta Lakeの最新データに直接 クエリーすることによるBIツールの サポート
©2024 Databricks Inc. — All rights reserved Databricks SQLサーバレス 優れた生産性:
待ち時間を削減 することでより多 くのことを • より高速なウェアハウ スの起動 • 高速なオート スケーリング • アイドル状態の コスト削減 優れた セキュリティ: 複数レイヤーの 分離 セキュリティ分離 レイヤーを実装する ことでお客様の セキュリティを維持 優れた信頼性: 価値を生まないク ラウドタスクを排 除 • キャパシティ プランニング • ネットワーク設定 • etc. 多くの機能: サーバレスに 最適化された 機能 • マテリアライズド ビュー • キャッシュ • etc. シンプルかつ即時に利用できるマネージドな計算資源
©2024 Databricks Inc. — All rights reserved Lakeviewダッシュボード • 最終的にはDBSQL(とノートブック)のダッシュボードを置き換える次世代ダッシュ
ボード • 現時点ではDQSQLダッシュボードと並行稼働していますが、最終的には来年 以降にDBSQLダッシュボードを廃止します • ノートブックダッシュボードの置き換えはそれよりも少し後になります • キーとなる違い • 整理されたコンテンツモデル • モダンなビジュアライゼーションライブラリ & 設定体験 • 組織内 / ワークスペース外に配布する機能 • 検索、リネージ & アシスタントとのインテグレーション
©2024 Databricks Inc. — All rights reserved 47
©2024 Databricks Inc. — All rights reserved 48
©2024 Databricks Inc. — All rights reserved 生成AI 49
©2024 Databricks Inc. — All rights reserved ノートブック、SQLエディタ、 ファイルエディタでネイティブに 動作する文脈を解するAIアシスタント
コードやクエリーの生成、オートコンプリート 問題の説明と修正 企業の知識グラフを用いてお使いのデータ資産に適した文脈 考慮の結果を取得 50 Databricksアシスタント
©2024 Databricks Inc. — All rights reserved 51 LLMで強化されたQ&Aによってビ ジネスユーザーがデータを
操作できるように 自然言語で質問を行い、テキストと可視化の 回答を取得 カスタム指示によるデータセット固有体験のキュレー ション Powered by Databricks SQL & DatabricksIQ Genie Data Room
©2024 Databricks Inc. — All rights reserved 類似製品との違い 52
©2024 Databricks Inc. — All rights reserved Jupyter Notebookとの違い Jupyter
Notebook Databricks 計算リソース Juypter Notebookが稼働しているラップトップ、サー バーのリソースに制限を受けます。多くの 場合、pandasの利用が前提となるのでメモリーの制約 を受けます。 クラウドプロバイダー(AWS/Azure/GCP)が提供する リソースを理論上無制限に活用できます。 pandasに加えて Sparkも活用できるので、並列処理による恩恵を享受 することができます。 コラボレーション ラップトップで動作している Jupyter Notebookでの他 のユーザーとのコラボレーションは限定的であり、 JupyterHubを用いたとしてもその機能は 限定的です。 複数ユーザーによるコラボレーションを前提として おり、ノートブックやデータに対するアクセス制御やノートブック の同時参照、同時編集をサポートして います。 ガバナンス ラップトップで動作している Jupyter Notebookでは、個 人のデータサイエンティストによる管理しか行えず、企業 全体でのデータやコード、機械学習モデルの管理を統一 することができません。 MLOpsを前提としており、データ、コード、機械学習 モデルは全てUnity Catalogによって管理されます。 本格運用(Production) ラップトップ上で実験的にPythonを実行するには適して ますが、本格運用するためにジョブを組むには別のシス テムが必要となります。 Databricksにはワークフローの機能が搭載されているので、 実験・テストを経たロジックを簡単に本格運用に 移行することができます。また、 さまざまなAPIを公開 しているので、他のシステムとの連携も容易です。
©2024 Databricks Inc. — All rights reserved Databricksの使い方 54
©2024 Databricks Inc. — All rights reserved Databricksの使い方イメージ
©2024 Databricks Inc. — All rights reserved Databricksの使い方イメージ
©2024 Databricks Inc. — All rights reserved Databricksワークスペース
©2024 Databricks Inc. — All rights reserved Databricksノートブック
©2024 Databricks Inc. — All rights reserved Databricksクラスター
©2024 Databricks Inc. — All rights reserved ノートブックをクラスターにアタッチ
©2024 Databricks Inc. — All rights reserved プログラムの実行
©2024 Databricks Inc. — All rights reserved 参考資料 • Databricksドキュメント
| Databricks on AWS • はじめてのDatabricks #Databricks - Qiita • Databricksチュートリアル #Databricks - Qiita • Databricks記事のまとめページ(その1) #Databricks - Qiita
©2024 Databricks Inc. — All rights reserved