Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Databricks勉強会:Databricksのベストプラクティス
Search
Takaaki Yayoi
June 05, 2024
Technology
1
140
Databricks勉強会:Databricksのベストプラクティス
Databricksのベストプラクティスをカバーしています。
・Databricksワークスペースの使い方のウォークスルー
・ノートブックやクラスターのベストプラクティス
Takaaki Yayoi
June 05, 2024
Tweet
Share
More Decks by Takaaki Yayoi
See All by Takaaki Yayoi
DatabricksにおけるLLMOpsのベストプラクティス
taka_aki
4
1.7k
Databricksで構築する初めての複合AIシステム - ML15min
taka_aki
2
1.4k
Databricksワークショップ - 生成AIとDWH
taka_aki
2
4.5k
ハンズオンで学ぶDatabricks
taka_aki
1
78
Databricksハッカソン(Genie/AutoML)
taka_aki
0
76
Databricks勉強会:Databricksの高度な使い方(その2)
taka_aki
0
77
Databricks勉強会:Databricksの高度な使い方(その1)
taka_aki
0
190
Databricks勉強会:Databricksにおけるプログラミング
taka_aki
1
150
コアコンセプトとノートブックサンプルを通じたDatabricksのご紹介
taka_aki
1
88
Other Decks in Technology
See All in Technology
これまでの計測・開発・デプロイ方法全部見せます! / Findy ISUCON 2024-11-14
tohutohu
3
370
AIチャットボット開発への生成AI活用
ryomrt
0
170
Introduction to Works of ML Engineer in LY Corporation
lycorp_recruit_jp
0
120
マルチプロダクトな開発組織で 「開発生産性」に向き合うために試みたこと / Improving Multi-Product Dev Productivity
sugamasao
1
300
Terraform未経験の御様に対してどの ように導⼊を進めていったか
tkikuchi
2
430
Engineer Career Talk
lycorp_recruit_jp
0
170
OCI Network Firewall 概要
oracle4engineer
PRO
0
4.1k
フルカイテン株式会社 採用資料
fullkaiten
0
40k
Evangelismo técnico: ¿qué, cómo y por qué?
trishagee
0
360
いざ、BSC討伐の旅
nikinusu
2
780
100 名超が参加した日経グループ横断の競技型 AWS 学習イベント「Nikkei Group AWS GameDay」の紹介/mediajaws202411
nikkei_engineer_recruiting
1
170
【令和最新版】AWS Direct Connectと愉快なGWたちのおさらい
minorun365
PRO
5
750
Featured
See All Featured
Bootstrapping a Software Product
garrettdimon
PRO
305
110k
Making Projects Easy
brettharned
115
5.9k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
47
2.1k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
6
410
How to Think Like a Performance Engineer
csswizardry
20
1.1k
No one is an island. Learnings from fostering a developers community.
thoeni
19
3k
The MySQL Ecosystem @ GitHub 2015
samlambert
250
12k
Gamification - CAS2011
davidbonilla
80
5k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.1k
We Have a Design System, Now What?
morganepeng
50
7.2k
Bash Introduction
62gerente
608
210k
Building a Scalable Design System with Sketch
lauravandoore
459
33k
Transcript
©2024 Databricks Inc. — All rights reserved Databricks勉強会 2024/6/5 Databricksのベストプラクティス
©2024 Databricks Inc. — All rights reserved 自己紹介 弥生 隆明
(やよい たかあき) Databricksソリューションアーキテクト ▪ 2020年からデータブリックス ジャパンにお いて、プレセールス、POCに従事 ▪ 前職はコンサルティングファーム、 総合電機メーカーにてデータ分析・Web サービス構築などに従事。 インド赴任経験あり。 ▪ Qiitaでいろいろ書いています。 2 @taka_aki
©2024 Databricks Inc. — All rights reserved 勉強会アジェンダ # アジェンダ
時間枠 説明 1 Databricksの ベストプラクティス 2時間 • 座学+ハンズオン • Databricksワークスペースの使い方のウォークスルー • ノートブックやクラスターのベストプラクティス 2 Databricksにおける プログラミング 2時間 • 座学+ハンズオン • SQL基礎 • PySpark基礎 3 Databricksの高度な使い方 (その1) 2時間 • Unity Catalog詳細 • Databricksワークフロー(ジョブ)詳細 • Databricks Asset Bundlesによるインフラ管理 4 Databricksの高度な使い方 (その2) 2時間 • LLM関連機能のウォークスルー • サードパーティツールとの連携
アジェンダ • Databricksの使い方 • Databricksのベストプラクティス ◦ ユーザー設定 ◦ 検索機能 ◦
ノートブックの活用 ◦ コラボレーション ◦ Databricksアシスタントの活用
©2024 Databricks Inc. — All rights reserved Databricksの使い方 5
©2024 Databricks Inc. — All rights reserved Databricksの使い方イメージ
©2024 Databricks Inc. — All rights reserved Databricksの使い方イメージ
©2024 Databricks Inc. — All rights reserved Databricksワークスペース ユーザーアイコン ユーザー設定
サイドメニュー
©2024 Databricks Inc. — All rights reserved Databricksノートブック
©2024 Databricks Inc. — All rights reserved Databricksクラスター Best Practice
Databricksにおける一番無駄なコストは「使っていな いクラスターを起動しておく」ことです。 自動停止の設定を活用しましょう。
©2024 Databricks Inc. — All rights reserved ノートブックをクラスターにアタッチ Best Practice
プログラムを実行する際にのみクラスターが必要とな ります。プログラムの修正を行う際はクラスターは不 要です。
©2024 Databricks Inc. — All rights reserved プログラムの実行
©2024 Databricks Inc. — All rights reserved Databricksのベストプラクティス ユーザー設定 13
©2024 Databricks Inc. — All rights reserved ユーザー設定 GUIの言語設定 GUIの言語設定を変更します
©2024 Databricks Inc. — All rights reserved ユーザー設定
©2024 Databricks Inc. — All rights reserved ユーザー設定
©2024 Databricks Inc. — All rights reserved ユーザー設定
©2024 Databricks Inc. — All rights reserved ユーザー設定 便利なオート コンプリート
新しい ホームページ Best Practice 結構な頻度で実験的な機能は追加されていきます。定 期的にチェックしてみてください。
©2024 Databricks Inc. — All rights reserved Databricksのベストプラクティス 検索機能 19
©2024 Databricks Inc. — All rights reserved ページ全体の検索画面
©2024 Databricks Inc. — All rights reserved ページ全体の検索画面
©2024 Databricks Inc. — All rights reserved ページ全体の検索画面
©2024 Databricks Inc. — All rights reserved Databricksのベストプラクティス ノートブックの活用 23
©2024 Databricks Inc. — All rights reserved ノートブック お気に入り セル番号:
セルタイトル 言語 削除 アシスタント フォーカスモード セルメニュー セルの並び替え セルの折り畳み セルの実行 実行メニュー
©2024 Databricks Inc. — All rights reserved お気に入り 後からクイックにアクセスできるようになります Best
Practice お気に入りはノートブック以外のフォルダ、データベー ス、テーブル、モデルなどでも設定できます。
©2024 Databricks Inc. — All rights reserved 並び替え ドラッグ&ドロップでセルの位置を変更できます
©2024 Databricks Inc. — All rights reserved 折り畳み マークダウンの見出しに基づいたセクションを折り畳みできます
©2024 Databricks Inc. — All rights reserved レイアウト変更 中央揃え・全幅レイアウトを変更できます
©2024 Databricks Inc. — All rights reserved フォーカスモード Best Practice
特定のセルにフォーカスできるので、複雑な ロジックに集中したい場合には活用しましょう 特定のセルとのその出力のみを表示します
©2024 Databricks Inc. — All rights reserved マークダウン Best Practice
セルの先頭に%mdを記述、あるいは言語 セレクターでマークダウンを記述できます。 他の方がロジックを理解できる様に説明文を記載します
©2024 Databricks Inc. — All rights reserved 目次 マークダウンの見出しに基づいた目次が生成されます
©2024 Databricks Inc. — All rights reserved セルタイトル Best Practice
セルタイトルの隣のアシスタントボタンでタイトルを自動 生成できます。
©2024 Databricks Inc. — All rights reserved セルメニュー
©2024 Databricks Inc. — All rights reserved 実行メニュー
©2024 Databricks Inc. — All rights reserved バージョン管理 過去のバージョンに遡ることができます
©2024 Databricks Inc. — All rights reserved ワークスペースエクスプローラ 他のノートブックやファイルにクイックにアクセスできます
©2024 Databricks Inc. — All rights reserved カタログエクスプローラ データベースやテーブルにクイックにアクセスできます
©2024 Databricks Inc. — All rights reserved AIアシスタント コーディングの手助けをしてくれます
©2024 Databricks Inc. — All rights reserved 変数エクスプローラ 定義済みの変数を確認できます。目のマークをクリックするとデータを確認できま す。
©2024 Databricks Inc. — All rights reserved コードのフォーマット Python/SQLのフォーマットを整形することができます
©2024 Databricks Inc. — All rights reserved ターミナル クイックにシェルコマンドを実行できます。
©2024 Databricks Inc. — All rights reserved マジックコマンド セルからでもクイックにシェルコマンドを実行できます。
©2024 Databricks Inc. — All rights reserved 可視化 データフレームにdisplay()を適用しましょう
©2024 Databricks Inc. — All rights reserved Databricksのベストプラクティス コラボレーション 44
©2024 Databricks Inc. — All rights reserved アクセス権の設定 Databricksのワークスペースの資産は、アクセス権を適切に設定することで容易 に他のユーザーに共有することができます。
©2024 Databricks Inc. — All rights reserved アクセス権の設定
©2024 Databricks Inc. — All rights reserved アクセス権の設定
©2024 Databricks Inc. — All rights reserved オンラインでのコミュニケーション 共有されたノートブックは同時に参照、(権限が付与されていれば)編集を 行うことができます。
サイドメニューのワークスペースにアクセスし、画面右上の3点リーダーをクリック し、インポートを選択します。 49 ノートブックのインポート
URLを選択し、URLのボックスに以下のURLを貼り付けます。 50 ノートブックのインポート https://sajpstorage.blob.core.windows.net/yayoi/20240527/COVID-19%E6%84%9F%E6%9F%93%E8%80% 85%E6%95%B0%E5%88%86%E6%9E%90.html
©2024 Databricks Inc. — All rights reserved Databricksのベストプラクティス Databricksアシスタントの活用 51
ノートブック、SQLエディタ、 ファイルエディタにネイティブで 組み込まれた、あなたのデータの文脈 を理解するAIアシスタント コードやクエリーの生成、オートコンプリート 問題の説明や修正 Unity Catalogと連携することで、 あなたのデータ資産の文脈に適した結果を提示 52
Databricksアシスタント
最新機能を利用できるように設定を行います。ワークスペース右上の ユーザーアイコンをクリックし、設定を選択します。 53 事前準備
ユーザー > 開発者の新しいAssistantのUIをオンにします。 54 事前準備
アシスタントにアクセスするにはアイコン をクリックします。 55 Databricksアシスタントへのアクセス
アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらはワークスペースで動作します。 56 Databricksアシスタントへのアクセス
アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらはワークスペースで動作します。 57 Databricksアシスタントへのアクセス
アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらはワークスペースで動作します。 58 Databricksアシスタントへのアクセス
アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらはワークスペースで動作します。 59 Databricksアシスタントへのアクセス
アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらは当該セルを対象に動作します。 60 Databricksアシスタントへのアクセス
アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらは当該セルを対象に動作します。 61 Databricksアシスタントへのアクセス
日本語でアシスタントに問い合わせます。 62 Databricksアシスタントへ問い合わせ
アシスタントで以下の問い合わせを行いましょう。ノートブックを作成し、稼働してい るクラスターにアタッチしてください。 63 Databricksアシスタントへ問い合わせ こちらが我々のデータセットのTitleカラムの例です: 1. The Shawshank Redemption (1994)
タイトル名 は数とカッコの間です。公開日はカッコの間です。公開 日とタイトル名を抽出する関数を書いてください。
コードが表示される場合には、ショートカットボタンが表示されます。 64 Databricksアシスタントへ問い合わせ 差分表示 コードの実行 選択しているセルに コードを挿入 コードをコピー
すでにコードが入力されている場合には、文脈を解して回答します。 65 Databricksアシスタントへ問い合わせ PySpark DataFrameをPandas DataFrameに変換し、fare_amount列に基づいてdfから最も高価な10件の トリップを選択するためのPandasコードを生成してください。
ノートブックのセルに以下を記入し、セルが選択されている状態にします。 66 Databricksアシスタントへ問い合わせ セルが選択されている状態でアシスタントに以下の問い合わせを行います。 import pandas as pd # テーブル
"samples.nyctaxi.trips" からデータを読み込む df = spark.read.table("samples.nyctaxi.trips") PySpark DataFrameをPandas DataFrameに変換し、fare_amount列に基づい てdfから最も高価な10件のトリップを選択して表示するためのPandasコードを生成し てください。
エラーが発生した際には、診断エラーボタンが表示されます。 67 アシスタントにエラーを修正させる
以下のセルを実行してエラーを起こし、アシスタントに助けてもらいましょう。 68 アシスタントにエラーを修正させる string[::-1]
コードを説明してとお願いします。 69 アシスタントにコードを説明させる
• できるだけ具体的に指示してください。テーブルを指定し、データが どのようなものであるかを示す例を提供してください。 • Databricks アシスタントは、テーブルと列のスキーマとメタデータを 認識します。これにより、自然言語を使用して非常に正確なクエリーを生成す ることができます。たとえば、テーブルに列 userID と
State がある場合、 Databricks アシスタントにワシントンに住むユーザーの リストを生成するよう依頼できます。 • Databricks アシスタントはテーブルと列のメタデータにのみアクセスでき、行 レベルのデータにはアクセスできません。そのため、実際の データがユニークな形式をしている場合、クエリーを正しく記述できない場合 があります。 • Databricks アシスタントは会話の履歴を考慮するため、会話を進めながら質 問を改善していくことができます。 70 アシスタントに問い合わせる際の注意点 https://docs.databricks.com/ja/notebooks/databricks-assistant-faq.html
その他の機能: メタデータの提案
参考資料 • Databricksノートブックでコードを開発する | Databricks on AWS • Databricksベストプラクティス:ノートブックのモジュール化 •
Databricksアシスタントの新機能を試す • Databricksのインタラクティブデバッガー • プロの様にDatabricksをナビゲートする
©2024 Databricks Inc. — All rights reserved