Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
クラスターのアクセスモードについて
Search
Databricks Japan
April 13, 2024
Technology
0
300
クラスターのアクセスモードについて
クラスターのアクセスモードについて説明します。
Databricks Japan
April 13, 2024
Tweet
Share
More Decks by Databricks Japan
See All by Databricks Japan
AIもデータも、もっと身近に。Databricksで広がる金融業界の可能性 / FDUA-Study
databricksjapan
0
47
OTFSG勉強会 / Introduction to the History of Delta Lake + Iceberg
databricksjapan
0
150
[2025年5月版] Azure Databricks最新機能アップデート / 202505 Azure Databricks Latest Updates
databricksjapan
0
190
DatabricksとPower BIの連携メリット / Databricks PowerBI Integration Merits
databricksjapan
1
200
[2025年4月版] Databricks Academy ラボ環境 利用開始手順 / Databricks Academy Labs Onboarding
databricksjapan
2
400
Lakeflow Connectのご紹介
databricksjapan
1
240
MLflowの現在と未来 / MLflow Present and Future
databricksjapan
1
670
Iceberg Meetup Japan #1 : Iceberg and Databricks
databricksjapan
0
850
JEDAI Meetup! Databricks AI/BI概要
databricksjapan
0
640
Other Decks in Technology
See All in Technology
American airlines ®️ USA Contact Numbers: Complete 2025 Support Guide
airhelpsupport
0
390
Beyond Kaniko: Navigating Unprivileged Container Image Creation
f30
0
130
KubeCon + CloudNativeCon Japan 2025 Recap by CA
ponkio_o
PRO
0
300
AI専用のリンターを作る #yumemi_patch
bengo4com
5
4.3k
スタートアップに選択肢を 〜生成AIを活用したセカンダリー事業への挑戦〜
nstock
0
210
成長し続けるアプリのためのテストと設計の関係、そして意思決定の記録。
sansantech
PRO
0
120
Model Mondays S2E04: AI Developer Experiences
nitya
0
140
データグループにおけるフロントエンド開発
lycorptech_jp
PRO
1
110
Getting to Know Your Legacy (System) with AI-Driven Software Archeology (WeAreDevelopers World Congress 2025)
feststelltaste
1
130
Claude Code に プロジェクト管理やらせたみた
unson
6
4.2k
ネットワーク保護はどう変わるのか?re:Inforce 2025最新アップデート解説
tokushun
0
210
OPENLOGI Company Profile for engineer
hr01
1
34k
Featured
See All Featured
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.7k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.4k
Build your cross-platform service in a week with App Engine
jlugia
231
18k
Optimizing for Happiness
mojombo
379
70k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
46
9.6k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
50k
StorybookのUI Testing Handbookを読んだ
zakiyama
30
5.9k
Practical Orchestrator
shlominoach
189
11k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
2.9k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
107
19k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
181
54k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Transcript
クラスターの アクセスモードについて Databricks Japan Mar 2024 1
Unity Catalog(UC)クラスター 2 これは何?なぜ気にする必要が? UCクラスター = UCでデータにアクセス可能 要件: 1. UCがワークスペースで有効化
2. ‘Shared’ あるいは ‘Single User’ アクセスモードの クラスター 3. レガシーの機能を選択していない (クレデンシャルパススルーなど) この他のクラスターはUCのデータにアクセスできません
UCクラスター 3 アクセスモードが重要です: SharedとSingle-userの違い クライ アント分離 Spark Driver Spark Executors
Spark Connect Spark Driver Spark Executors Client App - マルチユーザーを保護: ユーザーコードを 完全に分離 - 完全なUCのガバナンス - 宣言型のデータアクセス(Spark Connectを ベースとしたDataFrame API) - 使用しているマシンへの権限アクセスを持 つシングルユーザー - きめ細かいアクセスコントロールなし (現時 点) - 完全かつ制限なしのSpark API Shared アクセスモード Single-user アクセスモード
“ユーザー分離”とは? すべてのユーザーコード(Python, Scala)はクライアント、ドライバ、 エグゼキュータで常に完全に分離されて実行します -> 他のユーザーのデータ、背後のハードウェアなどへのアクセス不可 -> 計算資源をセキュアにユーザー間で共有 Client REPL
Local, Scala/Python Code (non-Spark) Spark Driver Spark Executors UDFs Spark Connect DataFrame API クライアント分 離 Driver分離 Executor分離
UCコンピュート 5 完全なユーザー分離の Shared アクセスモード ユーザー分離のない Single-user アクセスモード Sparkアーキテクチャが違います! クライアント
分離 Spark Driver Spark Executors Spark Connect Spark Driver Spark Executors Client App
共有クラスターの 新機能 6
クラスターセットアップ (DBR 13.3 LTS+) • Pythonクラスターライブラリ、jar、 initスクリプトのインストール • UCボリューム、クラウドストレージやワークス ペースファイル(Pythonクラスターライブラリ
のみ)からインストール • API、UI、クラスターポリシー経由 • jar & initスクリプトに対する許可リスト • 許可するパスの管理 • メタストア管理者による管理(デフォルト) • MANAGE_ALLOWLISTを用いてカスタマイズ
UDF: PySpark UDF (DBR 13.2+) PySpark UDFとは? • ノートブック/PySparkコードに 埋め込み
• セッションスコープ • PythonやPandasで記述 共有クラスターでのPySpark UDF: • Scalar Python と Pandas • UC ボリューム & FUSE • UDAF & applyInPandas は 間も無く提供 (Q1 ‘24, DBR 14.3+) Spark Executor 分離を活用
UDF: Python UDF in Unity Catalog UC Python UDFとは何か? •
完全に新しいコンセプト / API • UCでカタログ、管理 • ベストなPF UDF体験 使用方法: • UCシングル、共有クラスター、DLT、 DBSQLから作成/呼び出し (DBR 13.2+): CREATE FUNCTION my_fun(...) LANGUAGE PYTHON AS $$ # Python code goes here $$ df.withColumn(expr("jakob.main.my_udf")) Spark Executor 分離を活用
Scala & Scala UDF (DBR 14.3 LTS+) これは何? • 共有クラスターでPython
& SQLと Scalaワークロードを実行 • Scalar Scala UDF (DBR 14.3+) (ユーザー分離を持つ)完全なUCガバナ ンス • Spark Connectを用いたScala REPL/JVM分離 • 共有Sparkエンジン 今後: • foreach/foreachBatch (Q2 FY24+) クライアントREPL 分離を活用 Spark Executor 分離を活用
シングルユーザー クラスターの新機能 1
お客様からはどのような声が? GPUを使ったMLワークロードを 実行して分散トレーニング したい! RDDベースのライブラリを使っていま す (例 Sedona) シングルユーザーを 使用
あるいは Dataframe APIや UDFをベースにした ワークアラウンドを検 討 ユーザーのそれぞれにシングルユー ザークラスターは提供できません! 高すぎるし管理 できません。 これらのワークロードで シングルユーザークラスターを使 用 話しま しょう
SUクラスターがグループで共有できるとしたら? クラスター作成UI Current Target
グループ割り当てシングルユーザークラスター - 1つのグループにクラスターを 割り当て - クラスターを利用している全員が同じ データ権限を持ち、割り当てられているグ ループに「ダウンスコープ」 - シングルユーザーアクセスモードを
使用 - ML、GPU、RDDなどを実行可能 - 馴染みのあるクラスター作成 & 共有クラ スターと同じUX - パブリックプレビューでは名称変更 開発中
クラスター作成のUXをシンプルに クラスター作成でガイドされるデ フォルト値: MLRを実行? ⇉ Assigned to Group クラスター MLRは不要?
⇉ Shared クラスター
推奨事項 1
推奨事項 (1) 共有クラスターがデフォルトのコンピュートです (2) 共有クラスターが現在使えないのであれば、一時的な対策として シングルユーザークラスターを使います (3) 同じアクセスモードを用いて開発 & デプロイ
管理されたレイクハウスでセキュアに作業