Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
クラスターのアクセスモードについて
Search
Databricks Japan
April 13, 2024
Technology
0
340
クラスターのアクセスモードについて
クラスターのアクセスモードについて説明します。
Databricks Japan
April 13, 2024
Tweet
Share
More Decks by Databricks Japan
See All by Databricks Japan
動画データのポテンシャルを引き出す! Databricks と AI活用への奮闘記(現在進行形)
databricksjapan
0
150
RedshiftからDatabricksに引っ越してみたら、 想像以上に良かった話
databricksjapan
0
150
Azure SynapseからAzure Databricksへ 移行してわかった新時代のコスト問題!?
databricksjapan
0
150
Databricks連携で実現する DWHモダナイゼーション
databricksjapan
0
150
[2025年7月版] AI/BI 最新機能アップデート / AIBI update on July
databricksjapan
0
170
AIもデータも、もっと身近に。Databricksで広がる金融業界の可能性 / FDUA-Study
databricksjapan
0
250
OTFSG勉強会 / Introduction to the History of Delta Lake + Iceberg
databricksjapan
0
260
[2025年5月版] Azure Databricks最新機能アップデート / 202505 Azure Databricks Latest Updates
databricksjapan
0
290
DatabricksとPower BIの連携メリット / Databricks PowerBI Integration Merits
databricksjapan
1
380
Other Decks in Technology
See All in Technology
Exadata Database Service on Dedicated Infrastructure(ExaDB-D) UI スクリーン・キャプチャ集
oracle4engineer
PRO
2
5.5k
Function calling機能をPLaMo2に実装するには / PFN LLMセミナー
pfn
PRO
0
970
データエンジニアがこの先生きのこるには...?
10xinc
0
450
定期的な価値提供だけじゃない、スクラムが導くチームの共創化 / 20251004 Naoki Takahashi
shift_evolve
PRO
3
330
Shirankedo NOCで見えてきたeduroam/OpenRoaming運用ノウハウと課題 - BAKUCHIKU BANBAN #2
marokiki
0
150
小学4年生夏休みの自由研究「ぼくと Copilot エージェント」
taichinakamura
0
500
GA technologiesでのAI-Readyの取り組み@DataOps Night
yuto16
0
280
AI ReadyなData PlatformとしてのAutonomous Databaseアップデート
oracle4engineer
PRO
0
210
GopherCon Tour 概略
logica0419
2
190
AWS Top Engineer、浮いてませんか? / As an AWS Top Engineer, Are You Out of Place?
yuj1osm
2
120
AWSにおけるTrend Vision Oneの効果について
shimak
0
130
OCI Network Firewall 概要
oracle4engineer
PRO
1
7.8k
Featured
See All Featured
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
15k
Agile that works and the tools we love
rasmusluckow
331
21k
Scaling GitHub
holman
463
140k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
What’s in a name? Adding method to the madness
productmarketing
PRO
23
3.7k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
The Invisible Side of Design
smashingmag
301
51k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
45
2.5k
Become a Pro
speakerdeck
PRO
29
5.5k
Testing 201, or: Great Expectations
jmmastey
45
7.7k
Rails Girls Zürich Keynote
gr2m
95
14k
Building a Modern Day E-commerce SEO Strategy
aleyda
43
7.7k
Transcript
クラスターの アクセスモードについて Databricks Japan Mar 2024 1
Unity Catalog(UC)クラスター 2 これは何?なぜ気にする必要が? UCクラスター = UCでデータにアクセス可能 要件: 1. UCがワークスペースで有効化
2. ‘Shared’ あるいは ‘Single User’ アクセスモードの クラスター 3. レガシーの機能を選択していない (クレデンシャルパススルーなど) この他のクラスターはUCのデータにアクセスできません
UCクラスター 3 アクセスモードが重要です: SharedとSingle-userの違い クライ アント分離 Spark Driver Spark Executors
Spark Connect Spark Driver Spark Executors Client App - マルチユーザーを保護: ユーザーコードを 完全に分離 - 完全なUCのガバナンス - 宣言型のデータアクセス(Spark Connectを ベースとしたDataFrame API) - 使用しているマシンへの権限アクセスを持 つシングルユーザー - きめ細かいアクセスコントロールなし (現時 点) - 完全かつ制限なしのSpark API Shared アクセスモード Single-user アクセスモード
“ユーザー分離”とは? すべてのユーザーコード(Python, Scala)はクライアント、ドライバ、 エグゼキュータで常に完全に分離されて実行します -> 他のユーザーのデータ、背後のハードウェアなどへのアクセス不可 -> 計算資源をセキュアにユーザー間で共有 Client REPL
Local, Scala/Python Code (non-Spark) Spark Driver Spark Executors UDFs Spark Connect DataFrame API クライアント分 離 Driver分離 Executor分離
UCコンピュート 5 完全なユーザー分離の Shared アクセスモード ユーザー分離のない Single-user アクセスモード Sparkアーキテクチャが違います! クライアント
分離 Spark Driver Spark Executors Spark Connect Spark Driver Spark Executors Client App
共有クラスターの 新機能 6
クラスターセットアップ (DBR 13.3 LTS+) • Pythonクラスターライブラリ、jar、 initスクリプトのインストール • UCボリューム、クラウドストレージやワークス ペースファイル(Pythonクラスターライブラリ
のみ)からインストール • API、UI、クラスターポリシー経由 • jar & initスクリプトに対する許可リスト • 許可するパスの管理 • メタストア管理者による管理(デフォルト) • MANAGE_ALLOWLISTを用いてカスタマイズ
UDF: PySpark UDF (DBR 13.2+) PySpark UDFとは? • ノートブック/PySparkコードに 埋め込み
• セッションスコープ • PythonやPandasで記述 共有クラスターでのPySpark UDF: • Scalar Python と Pandas • UC ボリューム & FUSE • UDAF & applyInPandas は 間も無く提供 (Q1 ‘24, DBR 14.3+) Spark Executor 分離を活用
UDF: Python UDF in Unity Catalog UC Python UDFとは何か? •
完全に新しいコンセプト / API • UCでカタログ、管理 • ベストなPF UDF体験 使用方法: • UCシングル、共有クラスター、DLT、 DBSQLから作成/呼び出し (DBR 13.2+): CREATE FUNCTION my_fun(...) LANGUAGE PYTHON AS $$ # Python code goes here $$ df.withColumn(expr("jakob.main.my_udf")) Spark Executor 分離を活用
Scala & Scala UDF (DBR 14.3 LTS+) これは何? • 共有クラスターでPython
& SQLと Scalaワークロードを実行 • Scalar Scala UDF (DBR 14.3+) (ユーザー分離を持つ)完全なUCガバナ ンス • Spark Connectを用いたScala REPL/JVM分離 • 共有Sparkエンジン 今後: • foreach/foreachBatch (Q2 FY24+) クライアントREPL 分離を活用 Spark Executor 分離を活用
シングルユーザー クラスターの新機能 1
お客様からはどのような声が? GPUを使ったMLワークロードを 実行して分散トレーニング したい! RDDベースのライブラリを使っていま す (例 Sedona) シングルユーザーを 使用
あるいは Dataframe APIや UDFをベースにした ワークアラウンドを検 討 ユーザーのそれぞれにシングルユー ザークラスターは提供できません! 高すぎるし管理 できません。 これらのワークロードで シングルユーザークラスターを使 用 話しま しょう
SUクラスターがグループで共有できるとしたら? クラスター作成UI Current Target
グループ割り当てシングルユーザークラスター - 1つのグループにクラスターを 割り当て - クラスターを利用している全員が同じ データ権限を持ち、割り当てられているグ ループに「ダウンスコープ」 - シングルユーザーアクセスモードを
使用 - ML、GPU、RDDなどを実行可能 - 馴染みのあるクラスター作成 & 共有クラ スターと同じUX - パブリックプレビューでは名称変更 開発中
クラスター作成のUXをシンプルに クラスター作成でガイドされるデ フォルト値: MLRを実行? ⇉ Assigned to Group クラスター MLRは不要?
⇉ Shared クラスター
推奨事項 1
推奨事項 (1) 共有クラスターがデフォルトのコンピュートです (2) 共有クラスターが現在使えないのであれば、一時的な対策として シングルユーザークラスターを使います (3) 同じアクセスモードを用いて開発 & デプロイ
管理されたレイクハウスでセキュアに作業