Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
クラスターのアクセスモードについて
Search
Databricks Japan
April 13, 2024
Technology
0
220
クラスターのアクセスモードについて
クラスターのアクセスモードについて説明します。
Databricks Japan
April 13, 2024
Tweet
Share
More Decks by Databricks Japan
See All by Databricks Japan
Iceberg Meetup Japan #1 : Iceberg and Databricks
databricksjapan
0
60
JEDAI Meetup! Databricks AI/BI概要
databricksjapan
0
250
Databricks AI/BIクイックワークショップ 環境セットアップガイド
databricksjapan
1
64
Databricks AI/BIクイックワークショップ
databricksjapan
1
420
[2024年10月版] Notebook 2.0のご紹介 / Notebook2.0
databricksjapan
1
1.8k
Databricksによるデータサイエンスと機械学習 / Data Science With Databricks
databricksjapan
2
99
Databricksで挑む!SEGAのデータ活用の次なる一歩
databricksjapan
2
420
Azure Databricksアカウント & Unity Catalogメタストア概要 / Azure Databricks Account and Unity Catalog Metastore Overview
databricksjapan
0
100
[2024年12月版] Unity Catalogセットアップガイド / Unity Catalog Setup Guide
databricksjapan
0
420
Other Decks in Technology
See All in Technology
Windows の新しい管理者保護モード
murachiakira
0
150
運用しているアプリケーションのDBのリプレイスをやってみた
miura55
1
800
Autonomous Database Serverless 技術詳細 / adb-s_technical_detail_jp
oracle4engineer
PRO
17
45k
エンジニアのためのドキュメント力基礎講座〜構造化思考から始めよう〜(2025/02/15jbug広島#15発表資料)
yasuoyasuo
18
7k
深層学習と古典的画像アルゴリズムを組み合わせた類似画像検索内製化
shutotakahashi
1
200
株式会社EventHub・エンジニア採用資料
eventhub
0
4.3k
急成長する企業で作った、エンジニアが輝ける制度/ 20250214 Rinto Ikenoue
shift_evolve
3
1.7k
Visualize, Visualize, Visualize and rclone
tomoaki0705
7
21k
2024.02.19 W&B AIエージェントLT会 / AIエージェントが業務を代行するための計画と実行 / Algomatic 宮脇
smiyawaki0820
14
3.9k
PHPカンファレンス名古屋-テックリードの経験から学んだ設計の教訓
hayatokudou
2
480
あれは良かった、あれは苦労したB2B2C型SaaSの新規開発におけるCloud Spanner
hirohito1108
2
720
デスクトップだけじゃないUbuntu
mtyshibata
0
470
Featured
See All Featured
Art, The Web, and Tiny UX
lynnandtonic
298
20k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
356
29k
Optimising Largest Contentful Paint
csswizardry
34
3.1k
Writing Fast Ruby
sferik
628
61k
Scaling GitHub
holman
459
140k
Practical Orchestrator
shlominoach
186
10k
It's Worth the Effort
3n
184
28k
Reflections from 52 weeks, 52 projects
jeffersonlam
348
20k
Gamification - CAS2011
davidbonilla
80
5.1k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
330
21k
Producing Creativity
orderedlist
PRO
344
39k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
49
2.3k
Transcript
クラスターの アクセスモードについて Databricks Japan Mar 2024 1
Unity Catalog(UC)クラスター 2 これは何?なぜ気にする必要が? UCクラスター = UCでデータにアクセス可能 要件: 1. UCがワークスペースで有効化
2. ‘Shared’ あるいは ‘Single User’ アクセスモードの クラスター 3. レガシーの機能を選択していない (クレデンシャルパススルーなど) この他のクラスターはUCのデータにアクセスできません
UCクラスター 3 アクセスモードが重要です: SharedとSingle-userの違い クライ アント分離 Spark Driver Spark Executors
Spark Connect Spark Driver Spark Executors Client App - マルチユーザーを保護: ユーザーコードを 完全に分離 - 完全なUCのガバナンス - 宣言型のデータアクセス(Spark Connectを ベースとしたDataFrame API) - 使用しているマシンへの権限アクセスを持 つシングルユーザー - きめ細かいアクセスコントロールなし (現時 点) - 完全かつ制限なしのSpark API Shared アクセスモード Single-user アクセスモード
“ユーザー分離”とは? すべてのユーザーコード(Python, Scala)はクライアント、ドライバ、 エグゼキュータで常に完全に分離されて実行します -> 他のユーザーのデータ、背後のハードウェアなどへのアクセス不可 -> 計算資源をセキュアにユーザー間で共有 Client REPL
Local, Scala/Python Code (non-Spark) Spark Driver Spark Executors UDFs Spark Connect DataFrame API クライアント分 離 Driver分離 Executor分離
UCコンピュート 5 完全なユーザー分離の Shared アクセスモード ユーザー分離のない Single-user アクセスモード Sparkアーキテクチャが違います! クライアント
分離 Spark Driver Spark Executors Spark Connect Spark Driver Spark Executors Client App
共有クラスターの 新機能 6
クラスターセットアップ (DBR 13.3 LTS+) • Pythonクラスターライブラリ、jar、 initスクリプトのインストール • UCボリューム、クラウドストレージやワークス ペースファイル(Pythonクラスターライブラリ
のみ)からインストール • API、UI、クラスターポリシー経由 • jar & initスクリプトに対する許可リスト • 許可するパスの管理 • メタストア管理者による管理(デフォルト) • MANAGE_ALLOWLISTを用いてカスタマイズ
UDF: PySpark UDF (DBR 13.2+) PySpark UDFとは? • ノートブック/PySparkコードに 埋め込み
• セッションスコープ • PythonやPandasで記述 共有クラスターでのPySpark UDF: • Scalar Python と Pandas • UC ボリューム & FUSE • UDAF & applyInPandas は 間も無く提供 (Q1 ‘24, DBR 14.3+) Spark Executor 分離を活用
UDF: Python UDF in Unity Catalog UC Python UDFとは何か? •
完全に新しいコンセプト / API • UCでカタログ、管理 • ベストなPF UDF体験 使用方法: • UCシングル、共有クラスター、DLT、 DBSQLから作成/呼び出し (DBR 13.2+): CREATE FUNCTION my_fun(...) LANGUAGE PYTHON AS $$ # Python code goes here $$ df.withColumn(expr("jakob.main.my_udf")) Spark Executor 分離を活用
Scala & Scala UDF (DBR 14.3 LTS+) これは何? • 共有クラスターでPython
& SQLと Scalaワークロードを実行 • Scalar Scala UDF (DBR 14.3+) (ユーザー分離を持つ)完全なUCガバナ ンス • Spark Connectを用いたScala REPL/JVM分離 • 共有Sparkエンジン 今後: • foreach/foreachBatch (Q2 FY24+) クライアントREPL 分離を活用 Spark Executor 分離を活用
シングルユーザー クラスターの新機能 1
お客様からはどのような声が? GPUを使ったMLワークロードを 実行して分散トレーニング したい! RDDベースのライブラリを使っていま す (例 Sedona) シングルユーザーを 使用
あるいは Dataframe APIや UDFをベースにした ワークアラウンドを検 討 ユーザーのそれぞれにシングルユー ザークラスターは提供できません! 高すぎるし管理 できません。 これらのワークロードで シングルユーザークラスターを使 用 話しま しょう
SUクラスターがグループで共有できるとしたら? クラスター作成UI Current Target
グループ割り当てシングルユーザークラスター - 1つのグループにクラスターを 割り当て - クラスターを利用している全員が同じ データ権限を持ち、割り当てられているグ ループに「ダウンスコープ」 - シングルユーザーアクセスモードを
使用 - ML、GPU、RDDなどを実行可能 - 馴染みのあるクラスター作成 & 共有クラ スターと同じUX - パブリックプレビューでは名称変更 開発中
クラスター作成のUXをシンプルに クラスター作成でガイドされるデ フォルト値: MLRを実行? ⇉ Assigned to Group クラスター MLRは不要?
⇉ Shared クラスター
推奨事項 1
推奨事項 (1) 共有クラスターがデフォルトのコンピュートです (2) 共有クラスターが現在使えないのであれば、一時的な対策として シングルユーザークラスターを使います (3) 同じアクセスモードを用いて開発 & デプロイ
管理されたレイクハウスでセキュアに作業