これが知りたいDatabricks！よくある質問に答えます！？

Databricks 勉強会 Satoshi Udagawa @ Databricks

自己紹介 - About Me 2 Name : 宇田川聡 (うだがわ
さとし) Role : Solution Architect, Databricks Career : Sier x 2 -> Cyberagent -> Akamai -> Splunk Speciality : Spark / CDN / DE / Infra全般 / DSはじめました Personal : FF14(お休み中) / 線形代数(お勉強中 - 難しい) 主にメディア・ゲーム系のお客様を担当させていただいております。 Software Design 5月号の連載を書かせていただきました。ご興味あるかたはZehi!!

Generalな話 3

よく聞く話 #1 4 Databricksの機能は完全に理解したが、機能が多すぎてこんなにいらないしオーバスペックだよ

BI Tools Operat. DBs Batch & Streaming Data Collaboration Databricks
Data Intelligence Platform 5 Storage Data Science & Gen AI Processing, ETL, Real-time Analytics Orchestration Data and AI Governance Batch & Streaming Data Warehousing Data Intelligence Engine Data Intelligence Platform Federation ETL AI Apps 3rd party Business Apps Integration Ingest Transform Analysis Source Serve Query and Process Dashboards Spark / Photon Delta Live Tables Databricks SQL Workﬂows Auto loader Market place Assistant Data Rooms Lakeview Lakehouse Monitoring Hugging Face OpenAI ID Provider Governance AI Services Model Serving Vector Search ML Modeling Mosaic AI Catalog & Lineage Access Control Unity Catalog MLOps Gen AI Feature Serving … Domain Key capability Key Models / Features DatabricksIQ Sensors and IoT (unstructured) RDBMS (structured) Business Apps (structured) Media (unstructured) Other clouds Biz App Files / Logs (semi-structured) ID Provider Enterprise Catalog Cloud Storage AI App RDBMS (structured) Ingest tool Event Streaming RDBMs, KV store Data Consumer BI Tool Delta Lake Delta Sharing bronze silver gold

否！基本すべて従量課金で使いたいコンポーネントだけ使ってください(にっこり 6

Databricksの主なコンポーネント 7 課金の種類 - 基本はこの8つ - 全て従量課金 - 使うComponentで違う料金 All
Purpose - Notebookを使ってEDAとかやるときに使うCluster (Adhoc分析用途) - AutoMLとかML回す時も SQL Warehouse - BI用途に使う。SQL書いて分析したり、Dashboardをみる時に - Fivetranやdbtなどの処理を回す時も使える - serverlessあり。 Job Cluster - 定期的に処理を実行してワークフローを回す時とかに使う - Serverless予定 Delta Live Tables - ELT pipelineをSQLやPythonで宣言的に書きたいとき - Pipelineの可視化、エラーハンドリングなども任せてしまいたい時 - Serverless予定固定費はWorkspaceでのS3(DBFS)、VPC、IGWなどの料金

Databricksの主なコンポーネント 8 Model Serving (CPU / GPU) - ML modelのREST
Serving Endpointのサービス - 同時実行数、GPUの種類(A10, 100など） Vector Search - Vector DBのManaged Service - RAGや類似検索で利用可能 - Unitあたりの次元数 x 時間課金 Foundation Model Serving - DBRX、Llama2、MPTなどのモデルを簡単に数クリックでServing可能(Llama3もでます) - Ondemand(token課金) or Provisioned Throughput(時間課金)の2種類 Mosaic ML PreTraining - 基盤モデルの生成Platform Service - 大量のGPUを使ってMulti Cloud上で安価に超高速にできるサービス - 費用はお問い合わせベース(いまのところ

よく聞く話 #2 9 Planと課金がよくわからないけどどう計算するといいの ?

お金の考え方 10 Databricks Calculator • 金額はPlan / Region / Product/Instance
Type によって全て異なります • 表記は1時間単価ですが、秒単位で計算されます • Severless以外はこの金額 + VM のinstance feeが別途かかります

All Purposeで考えてみると 11 EDAやML用途ここに1時間あたりの金額が出てます AWS Tokyo Regionの場合 12DBU *
0.55(DBU) = $6.6 (hour) 　　　　　+ 0.732 * 2 (i3.2xlarge) = $1.464(hour)

Planについて - Platform PlanはStandard / Premium / Enterpriseの3種類 (AWSの場合) ※Standardは廃止予定
• 選択肢としてはPremiumかEnterprise • 主な違いはSecurityの機能 • Planで各コンポーネントの金額が変わる (Enterpriseが一番高い) 12

Planについて - Job(workflow) Compute OR Compute with Photon • Job(workflow)については
Compute or Photonの2択 • Photonで多くのWorkloadは高速化できるので、おすすめ (処理が早く終わる -> DBUもInstance feeも安くなる) • Shared Clusterを使うことで workflowで単一Cluster利用可能 • SQLのみのWorkloadであれば Serverless SQL利用可 (instance起動が数秒なので、EC2の起動を待つ必要なし) 13

Planについて - Delta Live Tables Core / Pro / Advanced
• Data Validation使いたい場合のみ Advanced • CDC / SCDをやりたい場合はPro以上 • SimpleなワークロードならCoreで十分 • 出力はDelta tableのみなので他の形式で Outputしたい場合はworkﬂowと組み合わせ 14

もうちょっとUsecaseよりな話 15

よく聞く話 #3 16 S3にjsonが吐かれるんだけどよしなに取り込みたい

AutoLoader + Delta Live Tables 17 • Autoloaderは特定のbucketにファイルが置かれたら読み込んでくれる •
Checkpointを使うことでファイルをどこまで読んだか管理 • Trigger.AvaliableNowを使うことでバッチ処理として扱える • DLTと組み合わせることでincremental なpipelineを作れる Trigger.AvailableNowが便利 #DLT Source def hoge_table(): return ( spark.readStream.format("cloudFiles") .option("cloudFiles.format", "csv") .load("/databricks-datasets/retail-org /customers/") )

よく聞く話 #4 18 Streaming Workloadの場合って Workﬂow?それともDLT?

Workﬂow or DLT? 19 • Streamingのworkloadの場合は Auto scale非推奨(固定台数でセットすべき) • Scale
Down時に処理を切ってしまったりするため • DLTのAutoscalingは独自Scalingメソッドで利用状況を常にMonitoringしてDrain可能 Autoscale次第 Streaming source Spark executors No/Small backlog & low utilization Backlog monitoring Utilization monitoring Scale down

よく聞く話 #5 20 SQL WarehouseのSizingってどうしたらいい？

SQL Warehouseのサイジング 21 - StartはSサイズぐらいから (いきなりでかいやつはNG) - 基本はSeverlessの方がworkloadの処理効率化とかがあるのでおすすめ -
Lakehouse Federation使う場合は Pro or Serverless - Serverlessの場合はPrivate link必要 - (Azureはリリース済み、AWS開発中) - 1clusterでの並列度は10 - 必要に応じてClusterを拡張できるようにしておく - 24時間常時起動のusecaseはClassicの方が安くみえるがservelessの起動が10秒くらいなので Serverlessでも十分安くできる Sizingは難しい

よく聞く話 #6 22 BQや他のシステムと連動したいんだけどできるの?

他のDatasourceとの連携 23 - Defaultで用意されているDatasourceとのコネクタを使うのが簡単 - JDBC / ODBC -
Redshift / BQ / Snowﬂake - Kafka / Kinesis / Pubsub などなど - Lakehouse Federationだとデータを取り込まずにQuery実行可能 + カタログに登録できる(権限管理も SparkのConnectorとLakehouse Federation

よく聞く話 #7 24 Mlﬂowだけ使いたいんだけど OK牧場？

Mlﬂowだけ使いたい 25 - 技術的には可能だが、仕組みがサイロ化するのでおすすめはしない - NotebookとのExperimentの記録、Unity CatalogのGovernanceや Feature Storeとの連動を考えるとAll
in Oneで使っていただくほうが Better

よく聞く話 #8 26 DatabricksってCloudのNativeサービス組み合わせれば同じようなことできるよね？

DatabricksはCloudサービス組み合わせればできるよね？ 27 - Yesです。それぞれのCloudサービスを組み合わせれば似たようなことはできます。 - ただ、Cloudサービスのそれぞれの特性や運用を考えたときに管理や運用コストは高いと考えています。 -
MultiCloud戦略を考えた時に、それぞれのCloudごとのスキル・管理運用コストが必要。どのCloudでも同じ仕組みで生産性を高められます - 運用管理も大事ですがデータエンジニアリング、サイエンスを活用して省力化してビジネスに価値を産むことが優先すべき https://proceedings.neurips.cc/paper_ﬁles/paper/2015/ﬁle/86df 7dcfd896fcaf2674f757a2463eba-Paper.pdf 現実のMLシステムでは、MLコードで構成される部分はごくわずかです。一方で必要な周辺インフラは膨大かつ複雑です。   “Hidden Technical Debt in Machine Learning Systems,” Google NIPS 2015  

Summary 28 - Productは複数あるけど、すべて利用料課金ベース - 必要に応じて、必要なコンポーネントだけを使うのでOK - あとで使いたかったら使えばよし - 最新の機能は基本
US Regionが先行して展開。Regionの制約なければ USで試すがおすすめです - Tipsについては他にもたくさんあるので、DatabricksのSAに気軽にご相談を

ご清聴ありがとうございました 29

これが知りたいDatabricks！よくある質問に答えます！？

これが知りたいDatabricks！よくある質問に答えます！？

Databricks Japan

More Decks by Databricks Japan

Featured

Transcript

Databricks 勉強会 Satoshi Udagawa @ Databricks

自己紹介 - About Me 2 Name : 宇田川聡 (うだがわ

Generalな話 3

よく聞く話 #1 4 Databricksの機能は完全に理解したが、機能が多すぎてこんなにいらないしオーバスペックだよ

BI Tools Operat. DBs Batch & Streaming Data Collaboration Databricks

否！基本すべて従量課金で使いたいコンポーネントだけ使ってください(にっこり 6

Databricksの主なコンポーネント 7 課金の種類 - 基本はこの8つ - 全て従量課金 - 使うComponentで違う料金 All

Databricksの主なコンポーネント 8 Model Serving (CPU / GPU) - ML modelのREST

よく聞く話 #2 9 Planと課金がよくわからないけどどう計算するといいの ?

お金の考え方 10 Databricks Calculator • 金額はPlan / Region / Product/Instance

All Purposeで考えてみると 11 EDAやML用途ここに1時間あたりの金額が出てます AWS Tokyo Regionの場合 12DBU *

Planについて - Platform PlanはStandard / Premium / Enterpriseの3種類 (AWSの場合) ※Standardは廃止予定

Planについて - Job(workﬂow) Compute OR Compute with Photon • Job(workﬂow)については

Planについて - Delta Live Tables Core / Pro / Advanced

もうちょっとUsecaseよりな話 15

よく聞く話 #3 16 S3にjsonが吐かれるんだけどよしなに取り込みたい

AutoLoader + Delta Live Tables 17 • Autoloaderは特定のbucketにファイルが置かれたら読み込んでくれる •

よく聞く話 #4 18 Streaming Workloadの場合って Workﬂow?それともDLT?

Workﬂow or DLT? 19 • Streamingのworkloadの場合は Auto scale非推奨(固定台数でセットすべき) • Scale

よく聞く話 #5 20 SQL WarehouseのSizingってどうしたらいい？

SQL Warehouseのサイジング 21 - StartはSサイズぐらいから (いきなりでかいやつはNG) - 基本はSeverlessの方がworkloadの処理効率化とかがあるのでおすすめ -

よく聞く話 #6 22 BQや他のシステムと連動したいんだけどできるの?

他のDatasourceとの連携 23 - Defaultで用意されているDatasourceとのコネクタを使うのが簡単 - JDBC / ODBC -

よく聞く話 #7 24 Mlﬂowだけ使いたいんだけど OK牧場？

Mlﬂowだけ使いたい 25 - 技術的には可能だが、仕組みがサイロ化するのでおすすめはしない - NotebookとのExperimentの記録、Unity CatalogのGovernanceや Feature Storeとの連動を考えるとAll

よく聞く話 #8 26 DatabricksってCloudのNativeサービス組み合わせれば同じようなことできるよね？

Summary 28 - Productは複数あるけど、すべて利用料課金ベース - 必要に応じて、必要なコンポーネントだけを使うのでOK - あとで使いたかったら使えばよし - 最新の機能は基本

ご清聴ありがとうございました 29