Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
クラスターのアクセスモードについて
Search
Databricks Japan
April 13, 2024
Technology
0
390
クラスターのアクセスモードについて
クラスターのアクセスモードについて説明します。
Databricks Japan
April 13, 2024
Tweet
Share
More Decks by Databricks Japan
See All by Databricks Japan
DatabricksホストモデルでAIコーディング環境を構築する
databricksjapan
0
340
[Iceberg Meetup #4] ゼロからはじめる: Apache Icebergとはなにか? / Apache Iceberg for Beginners
databricksjapan
0
610
Microsoft Tech Brief : Microsoft Fabric × Databricks × Microsoft Foundry が切り拓く Agentic Analytics 革命 ― Microsoft Ignite & Databricks 社 主催 DATA+AI World Tour Tokyo 最新アップデート総括
databricksjapan
1
180
Money Forwardにおける Databricks利⽤の現状と今後の展望
databricksjapan
0
120
Databricks Lakeflow クイックワークショップ / lakeflow-workshop
databricksjapan
0
240
NEXT弥⽣を⽀えるAI‧データ基盤構想 とシルバー構築について
databricksjapan
0
72
世界をつなぐ、SEGAのグローバルデータメッシュ 〜Databricksで進化する基盤とゲーム運営〜
databricksjapan
0
200
JEDAI認定プログラム JEDAI Order 2026 エントリーのご案内 / JEDAI Order 2026 Entry
databricksjapan
0
300
評価駆動開発で不確実性を制御する - MLflow 3が支えるエージェント開発
databricksjapan
2
390
Other Decks in Technology
See All in Technology
Greatest Disaster Hits in Web Performance
guaca
0
270
Bill One急成長の舞台裏 開発組織が直面した失敗と教訓
sansantech
PRO
2
380
プロダクト成長を支える開発基盤とスケールに伴う課題
yuu26
4
1.3k
Agile Leadership Summit Keynote 2026
m_seki
1
650
SREが向き合う大規模リアーキテクチャ 〜信頼性とアジリティの両立〜
zepprix
0
460
[CV勉強会@関東 World Model 読み会] Orbis: Overcoming Challenges of Long-Horizon Prediction in Driving World Models (Mousakhan+, NeurIPS 2025)
abemii
0
140
StrandsとNeptuneを使ってナレッジグラフを構築する
yakumo
1
120
Bill One 開発エンジニア 紹介資料
sansan33
PRO
5
17k
量子クラウドサービスの裏側 〜Deep Dive into OQTOPUS〜
oqtopus
0
130
Digitization部 紹介資料
sansan33
PRO
1
6.8k
CDK対応したAWS DevOps Agentを試そう_20260201
masakiokuda
1
350
SREチームをどう作り、どう育てるか ― Findy横断SREのマネジメント
rvirus0817
0
320
Featured
See All Featured
Six Lessons from altMBA
skipperchong
29
4.2k
How to optimise 3,500 product descriptions for ecommerce in one day using ChatGPT
katarinadahlin
PRO
0
3.4k
Claude Code のすすめ
schroneko
67
210k
Money Talks: Using Revenue to Get Sh*t Done
nikkihalliwell
0
150
How Software Deployment tools have changed in the past 20 years
geshan
0
32k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
The agentic SEO stack - context over prompts
schlessera
0
640
What the history of the web can teach us about the future of AI
inesmontani
PRO
1
430
We Have a Design System, Now What?
morganepeng
54
8k
The Art of Programming - Codeland 2020
erikaheidi
57
14k
Darren the Foodie - Storyboard
khoart
PRO
2
2.4k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.4k
Transcript
クラスターの アクセスモードについて Databricks Japan Mar 2024 1
Unity Catalog(UC)クラスター 2 これは何?なぜ気にする必要が? UCクラスター = UCでデータにアクセス可能 要件: 1. UCがワークスペースで有効化
2. ‘Shared’ あるいは ‘Single User’ アクセスモードの クラスター 3. レガシーの機能を選択していない (クレデンシャルパススルーなど) この他のクラスターはUCのデータにアクセスできません
UCクラスター 3 アクセスモードが重要です: SharedとSingle-userの違い クライ アント分離 Spark Driver Spark Executors
Spark Connect Spark Driver Spark Executors Client App - マルチユーザーを保護: ユーザーコードを 完全に分離 - 完全なUCのガバナンス - 宣言型のデータアクセス(Spark Connectを ベースとしたDataFrame API) - 使用しているマシンへの権限アクセスを持 つシングルユーザー - きめ細かいアクセスコントロールなし (現時 点) - 完全かつ制限なしのSpark API Shared アクセスモード Single-user アクセスモード
“ユーザー分離”とは? すべてのユーザーコード(Python, Scala)はクライアント、ドライバ、 エグゼキュータで常に完全に分離されて実行します -> 他のユーザーのデータ、背後のハードウェアなどへのアクセス不可 -> 計算資源をセキュアにユーザー間で共有 Client REPL
Local, Scala/Python Code (non-Spark) Spark Driver Spark Executors UDFs Spark Connect DataFrame API クライアント分 離 Driver分離 Executor分離
UCコンピュート 5 完全なユーザー分離の Shared アクセスモード ユーザー分離のない Single-user アクセスモード Sparkアーキテクチャが違います! クライアント
分離 Spark Driver Spark Executors Spark Connect Spark Driver Spark Executors Client App
共有クラスターの 新機能 6
クラスターセットアップ (DBR 13.3 LTS+) • Pythonクラスターライブラリ、jar、 initスクリプトのインストール • UCボリューム、クラウドストレージやワークス ペースファイル(Pythonクラスターライブラリ
のみ)からインストール • API、UI、クラスターポリシー経由 • jar & initスクリプトに対する許可リスト • 許可するパスの管理 • メタストア管理者による管理(デフォルト) • MANAGE_ALLOWLISTを用いてカスタマイズ
UDF: PySpark UDF (DBR 13.2+) PySpark UDFとは? • ノートブック/PySparkコードに 埋め込み
• セッションスコープ • PythonやPandasで記述 共有クラスターでのPySpark UDF: • Scalar Python と Pandas • UC ボリューム & FUSE • UDAF & applyInPandas は 間も無く提供 (Q1 ‘24, DBR 14.3+) Spark Executor 分離を活用
UDF: Python UDF in Unity Catalog UC Python UDFとは何か? •
完全に新しいコンセプト / API • UCでカタログ、管理 • ベストなPF UDF体験 使用方法: • UCシングル、共有クラスター、DLT、 DBSQLから作成/呼び出し (DBR 13.2+): CREATE FUNCTION my_fun(...) LANGUAGE PYTHON AS $$ # Python code goes here $$ df.withColumn(expr("jakob.main.my_udf")) Spark Executor 分離を活用
Scala & Scala UDF (DBR 14.3 LTS+) これは何? • 共有クラスターでPython
& SQLと Scalaワークロードを実行 • Scalar Scala UDF (DBR 14.3+) (ユーザー分離を持つ)完全なUCガバナ ンス • Spark Connectを用いたScala REPL/JVM分離 • 共有Sparkエンジン 今後: • foreach/foreachBatch (Q2 FY24+) クライアントREPL 分離を活用 Spark Executor 分離を活用
シングルユーザー クラスターの新機能 1
お客様からはどのような声が? GPUを使ったMLワークロードを 実行して分散トレーニング したい! RDDベースのライブラリを使っていま す (例 Sedona) シングルユーザーを 使用
あるいは Dataframe APIや UDFをベースにした ワークアラウンドを検 討 ユーザーのそれぞれにシングルユー ザークラスターは提供できません! 高すぎるし管理 できません。 これらのワークロードで シングルユーザークラスターを使 用 話しま しょう
SUクラスターがグループで共有できるとしたら? クラスター作成UI Current Target
グループ割り当てシングルユーザークラスター - 1つのグループにクラスターを 割り当て - クラスターを利用している全員が同じ データ権限を持ち、割り当てられているグ ループに「ダウンスコープ」 - シングルユーザーアクセスモードを
使用 - ML、GPU、RDDなどを実行可能 - 馴染みのあるクラスター作成 & 共有クラ スターと同じUX - パブリックプレビューでは名称変更 開発中
クラスター作成のUXをシンプルに クラスター作成でガイドされるデ フォルト値: MLRを実行? ⇉ Assigned to Group クラスター MLRは不要?
⇉ Shared クラスター
推奨事項 1
推奨事項 (1) 共有クラスターがデフォルトのコンピュートです (2) 共有クラスターが現在使えないのであれば、一時的な対策として シングルユーザークラスターを使います (3) 同じアクセスモードを用いて開発 & デプロイ
管理されたレイクハウスでセキュアに作業