Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Databricks勉強会:Databricksのベストプラクティス
Search
Takaaki Yayoi
June 05, 2024
Technology
1
200
Databricks勉強会:Databricksのベストプラクティス
Databricksのベストプラクティスをカバーしています。
・Databricksワークスペースの使い方のウォークスルー
・ノートブックやクラスターのベストプラクティス
Takaaki Yayoi
June 05, 2024
Tweet
Share
More Decks by Takaaki Yayoi
See All by Takaaki Yayoi
ハンズオンで学ぶ Databricks - Databricksにおけるデータエンジニアリング
taka_aki
1
2.2k
ハンズオンで学ぶ Databricks - Databricksにおける機械学習、画像処理
taka_aki
2
63
Databricks : 製造業AI統合プラットフォームのご紹介
taka_aki
1
94
DatabricksにおけるLLMOpsのベストプラクティス
taka_aki
4
2k
Databricksで構築する初めての複合AIシステム - ML15min
taka_aki
3
1.6k
Databricksワークショップ - 生成AIとDWH
taka_aki
3
4.8k
ハンズオンで学ぶDatabricks
taka_aki
1
200
Databricksハッカソン(Genie/AutoML)
taka_aki
0
99
Databricks勉強会:Databricksの高度な使い方(その2)
taka_aki
0
120
Other Decks in Technology
See All in Technology
Ask! NIKKEI RAG検索技術の深層
hotchpotch
13
2.8k
事業継続を支える自動テストの考え方
tsuemura
0
300
ビジネスと現場活動をつなぐソフトウェアエンジニアリング~とあるスタートアッププロダクトの成長記録より~
mizunori
0
210
7日間でハッキングをはじめる本をはじめてみませんか?_ITエンジニア本大賞2025
nomizone
2
1.4k
Platform Engineeringは自由のめまい
nwiizo
4
1.9k
エンジニアの育成を支える爆速フィードバック文化
sansantech
PRO
3
660
バックエンドエンジニアのためのフロントエンド入門 #devsumiC
panda_program
16
6.5k
君はPostScriptなウィンドウシステム 「NeWS」をご存知か?/sunnews
koyhoge
0
720
SA Night #2 FinatextのSA思想/SA Night #2 Finatext session
satoshiimai
1
100
管理者しか知らないOutlookの裏側のAIを覗く#AzureTravelers
hirotomotaguchi
1
240
Moved to https://speakerdeck.com/toshihue/presales-engineer-career-bridging-tech-biz-ja
toshihue
2
550
これからSREになる人と、これからもSREをやっていく人へ
masayoshi
6
4.1k
Featured
See All Featured
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
44
9.4k
Navigating Team Friction
lara
183
15k
Building a Scalable Design System with Sketch
lauravandoore
460
33k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
27
1.9k
Side Projects
sachag
452
42k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
Practical Orchestrator
shlominoach
186
10k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
366
25k
Imperfection Machines: The Place of Print at Facebook
scottboms
267
13k
How to Ace a Technical Interview
jacobian
276
23k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
330
21k
Reflections from 52 weeks, 52 projects
jeffersonlam
348
20k
Transcript
©2024 Databricks Inc. — All rights reserved Databricks勉強会 2024/6/5 Databricksのベストプラクティス
©2024 Databricks Inc. — All rights reserved 自己紹介 弥生 隆明
(やよい たかあき) Databricksソリューションアーキテクト ▪ 2020年からデータブリックス ジャパンにお いて、プレセールス、POCに従事 ▪ 前職はコンサルティングファーム、 総合電機メーカーにてデータ分析・Web サービス構築などに従事。 インド赴任経験あり。 ▪ Qiitaでいろいろ書いています。 2 @taka_aki
©2024 Databricks Inc. — All rights reserved 勉強会アジェンダ # アジェンダ
時間枠 説明 1 Databricksの ベストプラクティス 2時間 • 座学+ハンズオン • Databricksワークスペースの使い方のウォークスルー • ノートブックやクラスターのベストプラクティス 2 Databricksにおける プログラミング 2時間 • 座学+ハンズオン • SQL基礎 • PySpark基礎 3 Databricksの高度な使い方 (その1) 2時間 • Unity Catalog詳細 • Databricksワークフロー(ジョブ)詳細 • Databricks Asset Bundlesによるインフラ管理 4 Databricksの高度な使い方 (その2) 2時間 • LLM関連機能のウォークスルー • サードパーティツールとの連携
アジェンダ • Databricksの使い方 • Databricksのベストプラクティス ◦ ユーザー設定 ◦ 検索機能 ◦
ノートブックの活用 ◦ コラボレーション ◦ Databricksアシスタントの活用
©2024 Databricks Inc. — All rights reserved Databricksの使い方 5
©2024 Databricks Inc. — All rights reserved Databricksの使い方イメージ
©2024 Databricks Inc. — All rights reserved Databricksの使い方イメージ
©2024 Databricks Inc. — All rights reserved Databricksワークスペース ユーザーアイコン ユーザー設定
サイドメニュー
©2024 Databricks Inc. — All rights reserved Databricksノートブック
©2024 Databricks Inc. — All rights reserved Databricksクラスター Best Practice
Databricksにおける一番無駄なコストは「使っていな いクラスターを起動しておく」ことです。 自動停止の設定を活用しましょう。
©2024 Databricks Inc. — All rights reserved ノートブックをクラスターにアタッチ Best Practice
プログラムを実行する際にのみクラスターが必要とな ります。プログラムの修正を行う際はクラスターは不 要です。
©2024 Databricks Inc. — All rights reserved プログラムの実行
©2024 Databricks Inc. — All rights reserved Databricksのベストプラクティス ユーザー設定 13
©2024 Databricks Inc. — All rights reserved ユーザー設定 GUIの言語設定 GUIの言語設定を変更します
©2024 Databricks Inc. — All rights reserved ユーザー設定
©2024 Databricks Inc. — All rights reserved ユーザー設定
©2024 Databricks Inc. — All rights reserved ユーザー設定
©2024 Databricks Inc. — All rights reserved ユーザー設定 便利なオート コンプリート
新しい ホームページ Best Practice 結構な頻度で実験的な機能は追加されていきます。定 期的にチェックしてみてください。
©2024 Databricks Inc. — All rights reserved Databricksのベストプラクティス 検索機能 19
©2024 Databricks Inc. — All rights reserved ページ全体の検索画面
©2024 Databricks Inc. — All rights reserved ページ全体の検索画面
©2024 Databricks Inc. — All rights reserved ページ全体の検索画面
©2024 Databricks Inc. — All rights reserved Databricksのベストプラクティス ノートブックの活用 23
©2024 Databricks Inc. — All rights reserved ノートブック お気に入り セル番号:
セルタイトル 言語 削除 アシスタント フォーカスモード セルメニュー セルの並び替え セルの折り畳み セルの実行 実行メニュー
©2024 Databricks Inc. — All rights reserved お気に入り 後からクイックにアクセスできるようになります Best
Practice お気に入りはノートブック以外のフォルダ、データベー ス、テーブル、モデルなどでも設定できます。
©2024 Databricks Inc. — All rights reserved 並び替え ドラッグ&ドロップでセルの位置を変更できます
©2024 Databricks Inc. — All rights reserved 折り畳み マークダウンの見出しに基づいたセクションを折り畳みできます
©2024 Databricks Inc. — All rights reserved レイアウト変更 中央揃え・全幅レイアウトを変更できます
©2024 Databricks Inc. — All rights reserved フォーカスモード Best Practice
特定のセルにフォーカスできるので、複雑な ロジックに集中したい場合には活用しましょう 特定のセルとのその出力のみを表示します
©2024 Databricks Inc. — All rights reserved マークダウン Best Practice
セルの先頭に%mdを記述、あるいは言語 セレクターでマークダウンを記述できます。 他の方がロジックを理解できる様に説明文を記載します
©2024 Databricks Inc. — All rights reserved 目次 マークダウンの見出しに基づいた目次が生成されます
©2024 Databricks Inc. — All rights reserved セルタイトル Best Practice
セルタイトルの隣のアシスタントボタンでタイトルを自動 生成できます。
©2024 Databricks Inc. — All rights reserved セルメニュー
©2024 Databricks Inc. — All rights reserved 実行メニュー
©2024 Databricks Inc. — All rights reserved バージョン管理 過去のバージョンに遡ることができます
©2024 Databricks Inc. — All rights reserved ワークスペースエクスプローラ 他のノートブックやファイルにクイックにアクセスできます
©2024 Databricks Inc. — All rights reserved カタログエクスプローラ データベースやテーブルにクイックにアクセスできます
©2024 Databricks Inc. — All rights reserved AIアシスタント コーディングの手助けをしてくれます
©2024 Databricks Inc. — All rights reserved 変数エクスプローラ 定義済みの変数を確認できます。目のマークをクリックするとデータを確認できま す。
©2024 Databricks Inc. — All rights reserved コードのフォーマット Python/SQLのフォーマットを整形することができます
©2024 Databricks Inc. — All rights reserved ターミナル クイックにシェルコマンドを実行できます。
©2024 Databricks Inc. — All rights reserved マジックコマンド セルからでもクイックにシェルコマンドを実行できます。
©2024 Databricks Inc. — All rights reserved 可視化 データフレームにdisplay()を適用しましょう
©2024 Databricks Inc. — All rights reserved Databricksのベストプラクティス コラボレーション 44
©2024 Databricks Inc. — All rights reserved アクセス権の設定 Databricksのワークスペースの資産は、アクセス権を適切に設定することで容易 に他のユーザーに共有することができます。
©2024 Databricks Inc. — All rights reserved アクセス権の設定
©2024 Databricks Inc. — All rights reserved アクセス権の設定
©2024 Databricks Inc. — All rights reserved オンラインでのコミュニケーション 共有されたノートブックは同時に参照、(権限が付与されていれば)編集を 行うことができます。
サイドメニューのワークスペースにアクセスし、画面右上の3点リーダーをクリック し、インポートを選択します。 49 ノートブックのインポート
URLを選択し、URLのボックスに以下のURLを貼り付けます。 50 ノートブックのインポート https://sajpstorage.blob.core.windows.net/yayoi/20240527/COVID-19%E6%84%9F%E6%9F%93%E8%80% 85%E6%95%B0%E5%88%86%E6%9E%90.html
©2024 Databricks Inc. — All rights reserved Databricksのベストプラクティス Databricksアシスタントの活用 51
ノートブック、SQLエディタ、 ファイルエディタにネイティブで 組み込まれた、あなたのデータの文脈 を理解するAIアシスタント コードやクエリーの生成、オートコンプリート 問題の説明や修正 Unity Catalogと連携することで、 あなたのデータ資産の文脈に適した結果を提示 52
Databricksアシスタント
最新機能を利用できるように設定を行います。ワークスペース右上の ユーザーアイコンをクリックし、設定を選択します。 53 事前準備
ユーザー > 開発者の新しいAssistantのUIをオンにします。 54 事前準備
アシスタントにアクセスするにはアイコン をクリックします。 55 Databricksアシスタントへのアクセス
アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらはワークスペースで動作します。 56 Databricksアシスタントへのアクセス
アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらはワークスペースで動作します。 57 Databricksアシスタントへのアクセス
アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらはワークスペースで動作します。 58 Databricksアシスタントへのアクセス
アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらはワークスペースで動作します。 59 Databricksアシスタントへのアクセス
アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらは当該セルを対象に動作します。 60 Databricksアシスタントへのアクセス
アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらは当該セルを対象に動作します。 61 Databricksアシスタントへのアクセス
日本語でアシスタントに問い合わせます。 62 Databricksアシスタントへ問い合わせ
アシスタントで以下の問い合わせを行いましょう。ノートブックを作成し、稼働してい るクラスターにアタッチしてください。 63 Databricksアシスタントへ問い合わせ こちらが我々のデータセットのTitleカラムの例です: 1. The Shawshank Redemption (1994)
タイトル名 は数とカッコの間です。公開日はカッコの間です。公開 日とタイトル名を抽出する関数を書いてください。
コードが表示される場合には、ショートカットボタンが表示されます。 64 Databricksアシスタントへ問い合わせ 差分表示 コードの実行 選択しているセルに コードを挿入 コードをコピー
すでにコードが入力されている場合には、文脈を解して回答します。 65 Databricksアシスタントへ問い合わせ PySpark DataFrameをPandas DataFrameに変換し、fare_amount列に基づいてdfから最も高価な10件の トリップを選択するためのPandasコードを生成してください。
ノートブックのセルに以下を記入し、セルが選択されている状態にします。 66 Databricksアシスタントへ問い合わせ セルが選択されている状態でアシスタントに以下の問い合わせを行います。 import pandas as pd # テーブル
"samples.nyctaxi.trips" からデータを読み込む df = spark.read.table("samples.nyctaxi.trips") PySpark DataFrameをPandas DataFrameに変換し、fare_amount列に基づい てdfから最も高価な10件のトリップを選択して表示するためのPandasコードを生成し てください。
エラーが発生した際には、診断エラーボタンが表示されます。 67 アシスタントにエラーを修正させる
以下のセルを実行してエラーを起こし、アシスタントに助けてもらいましょう。 68 アシスタントにエラーを修正させる string[::-1]
コードを説明してとお願いします。 69 アシスタントにコードを説明させる
• できるだけ具体的に指示してください。テーブルを指定し、データが どのようなものであるかを示す例を提供してください。 • Databricks アシスタントは、テーブルと列のスキーマとメタデータを 認識します。これにより、自然言語を使用して非常に正確なクエリーを生成す ることができます。たとえば、テーブルに列 userID と
State がある場合、 Databricks アシスタントにワシントンに住むユーザーの リストを生成するよう依頼できます。 • Databricks アシスタントはテーブルと列のメタデータにのみアクセスでき、行 レベルのデータにはアクセスできません。そのため、実際の データがユニークな形式をしている場合、クエリーを正しく記述できない場合 があります。 • Databricks アシスタントは会話の履歴を考慮するため、会話を進めながら質 問を改善していくことができます。 70 アシスタントに問い合わせる際の注意点 https://docs.databricks.com/ja/notebooks/databricks-assistant-faq.html
その他の機能: メタデータの提案
参考資料 • Databricksノートブックでコードを開発する | Databricks on AWS • Databricksベストプラクティス:ノートブックのモジュール化 •
Databricksアシスタントの新機能を試す • Databricksのインタラクティブデバッガー • プロの様にDatabricksをナビゲートする
©2024 Databricks Inc. — All rights reserved