Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Databricks勉強会:Databricksのベストプラクティス
Search
Takaaki Yayoi
June 05, 2024
Technology
1
410
Databricks勉強会:Databricksのベストプラクティス
Databricksのベストプラクティスをカバーしています。
・Databricksワークスペースの使い方のウォークスルー
・ノートブックやクラスターのベストプラクティス
Takaaki Yayoi
June 05, 2024
Tweet
Share
More Decks by Takaaki Yayoi
See All by Takaaki Yayoi
生成AI時代におけるグローバル戦略思考
taka_aki
0
190
初めてのDatabricks AI/BI Genie
taka_aki
0
170
Databricks実習を終えた皆様へ - データサイエンスと生成AIの未来
taka_aki
0
82
Databricksによるエージェント構築
taka_aki
1
170
生成AIによる データサイエンスの進化 - バイブデータサイエンスがもたらす新しい未来
taka_aki
0
130
データとAIで未来を創るDatabricks - 君の可能性を加速させるプラットフォーム
taka_aki
0
130
Databricks Free Editionで始めるMLflow
taka_aki
0
1.5k
初めてのDatabricks Apps開発
taka_aki
3
990
日本語で指示するだけ!AIで業務効率化を実現する 〜90分で体感する実践ワークショップ〜
taka_aki
0
1.8k
Other Decks in Technology
See All in Technology
Power of Kiro : あなたの㌔はパワステ搭載ですか?
r3_yamauchi
PRO
0
150
MapKitとオープンデータで実現する地図情報の拡張と可視化
zozotech
PRO
1
140
re:Invent2025 コンテナ系アップデート振り返り(+CloudWatchログのアップデート紹介)
masukawa
0
370
年間40件以上の登壇を続けて見えた「本当の発信力」/ 20251213 Masaki Okuda
shift_evolve
PRO
1
130
re:Invent 2025 ふりかえり 生成AI版
takaakikakei
1
210
MLflowダイエット大作戦
lycorptech_jp
PRO
1
130
今年のデータ・ML系アップデートと気になるアプデのご紹介
nayuts
1
400
Lessons from Migrating to OpenSearch: Shard Design, Log Ingestion, and UI Decisions
sansantech
PRO
1
130
30分であなたをOmniのファンにしてみせます~分析画面のクリック操作をそのままコード化できるAI-ReadyなBIツール~
sagara
0
150
Databricks向けJupyter Kernelでデータサイエンティストの開発環境をAI-Readyにする / Data+AI World Tour Tokyo After Party
genda
1
120
Haskell を武器にして挑む競技プログラミング ─ 操作的思考から意味モデル思考へ
naoya
6
1.5k
Gemini でコードレビュー知見を見える化
zozotech
PRO
1
260
Featured
See All Featured
Rebuilding a faster, lazier Slack
samanthasiow
84
9.3k
Making Projects Easy
brettharned
120
6.5k
Making the Leap to Tech Lead
cromwellryan
135
9.7k
A better future with KSS
kneath
240
18k
Build The Right Thing And Hit Your Dates
maggiecrowley
38
3k
Bash Introduction
62gerente
615
210k
Building Applications with DynamoDB
mza
96
6.8k
Optimizing for Happiness
mojombo
379
70k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.1k
Designing Experiences People Love
moore
143
24k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
285
14k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
196
70k
Transcript
©2024 Databricks Inc. — All rights reserved Databricks勉強会 2024/6/5 Databricksのベストプラクティス
©2024 Databricks Inc. — All rights reserved 自己紹介 弥生 隆明
(やよい たかあき) Databricksソリューションアーキテクト ▪ 2020年からデータブリックス ジャパンにお いて、プレセールス、POCに従事 ▪ 前職はコンサルティングファーム、 総合電機メーカーにてデータ分析・Web サービス構築などに従事。 インド赴任経験あり。 ▪ Qiitaでいろいろ書いています。 2 @taka_aki
©2024 Databricks Inc. — All rights reserved 勉強会アジェンダ # アジェンダ
時間枠 説明 1 Databricksの ベストプラクティス 2時間 • 座学+ハンズオン • Databricksワークスペースの使い方のウォークスルー • ノートブックやクラスターのベストプラクティス 2 Databricksにおける プログラミング 2時間 • 座学+ハンズオン • SQL基礎 • PySpark基礎 3 Databricksの高度な使い方 (その1) 2時間 • Unity Catalog詳細 • Databricksワークフロー(ジョブ)詳細 • Databricks Asset Bundlesによるインフラ管理 4 Databricksの高度な使い方 (その2) 2時間 • LLM関連機能のウォークスルー • サードパーティツールとの連携
アジェンダ • Databricksの使い方 • Databricksのベストプラクティス ◦ ユーザー設定 ◦ 検索機能 ◦
ノートブックの活用 ◦ コラボレーション ◦ Databricksアシスタントの活用
©2024 Databricks Inc. — All rights reserved Databricksの使い方 5
©2024 Databricks Inc. — All rights reserved Databricksの使い方イメージ
©2024 Databricks Inc. — All rights reserved Databricksの使い方イメージ
©2024 Databricks Inc. — All rights reserved Databricksワークスペース ユーザーアイコン ユーザー設定
サイドメニュー
©2024 Databricks Inc. — All rights reserved Databricksノートブック
©2024 Databricks Inc. — All rights reserved Databricksクラスター Best Practice
Databricksにおける一番無駄なコストは「使っていな いクラスターを起動しておく」ことです。 自動停止の設定を活用しましょう。
©2024 Databricks Inc. — All rights reserved ノートブックをクラスターにアタッチ Best Practice
プログラムを実行する際にのみクラスターが必要とな ります。プログラムの修正を行う際はクラスターは不 要です。
©2024 Databricks Inc. — All rights reserved プログラムの実行
©2024 Databricks Inc. — All rights reserved Databricksのベストプラクティス ユーザー設定 13
©2024 Databricks Inc. — All rights reserved ユーザー設定 GUIの言語設定 GUIの言語設定を変更します
©2024 Databricks Inc. — All rights reserved ユーザー設定
©2024 Databricks Inc. — All rights reserved ユーザー設定
©2024 Databricks Inc. — All rights reserved ユーザー設定
©2024 Databricks Inc. — All rights reserved ユーザー設定 便利なオート コンプリート
新しい ホームページ Best Practice 結構な頻度で実験的な機能は追加されていきます。定 期的にチェックしてみてください。
©2024 Databricks Inc. — All rights reserved Databricksのベストプラクティス 検索機能 19
©2024 Databricks Inc. — All rights reserved ページ全体の検索画面
©2024 Databricks Inc. — All rights reserved ページ全体の検索画面
©2024 Databricks Inc. — All rights reserved ページ全体の検索画面
©2024 Databricks Inc. — All rights reserved Databricksのベストプラクティス ノートブックの活用 23
©2024 Databricks Inc. — All rights reserved ノートブック お気に入り セル番号:
セルタイトル 言語 削除 アシスタント フォーカスモード セルメニュー セルの並び替え セルの折り畳み セルの実行 実行メニュー
©2024 Databricks Inc. — All rights reserved お気に入り 後からクイックにアクセスできるようになります Best
Practice お気に入りはノートブック以外のフォルダ、データベー ス、テーブル、モデルなどでも設定できます。
©2024 Databricks Inc. — All rights reserved 並び替え ドラッグ&ドロップでセルの位置を変更できます
©2024 Databricks Inc. — All rights reserved 折り畳み マークダウンの見出しに基づいたセクションを折り畳みできます
©2024 Databricks Inc. — All rights reserved レイアウト変更 中央揃え・全幅レイアウトを変更できます
©2024 Databricks Inc. — All rights reserved フォーカスモード Best Practice
特定のセルにフォーカスできるので、複雑な ロジックに集中したい場合には活用しましょう 特定のセルとのその出力のみを表示します
©2024 Databricks Inc. — All rights reserved マークダウン Best Practice
セルの先頭に%mdを記述、あるいは言語 セレクターでマークダウンを記述できます。 他の方がロジックを理解できる様に説明文を記載します
©2024 Databricks Inc. — All rights reserved 目次 マークダウンの見出しに基づいた目次が生成されます
©2024 Databricks Inc. — All rights reserved セルタイトル Best Practice
セルタイトルの隣のアシスタントボタンでタイトルを自動 生成できます。
©2024 Databricks Inc. — All rights reserved セルメニュー
©2024 Databricks Inc. — All rights reserved 実行メニュー
©2024 Databricks Inc. — All rights reserved バージョン管理 過去のバージョンに遡ることができます
©2024 Databricks Inc. — All rights reserved ワークスペースエクスプローラ 他のノートブックやファイルにクイックにアクセスできます
©2024 Databricks Inc. — All rights reserved カタログエクスプローラ データベースやテーブルにクイックにアクセスできます
©2024 Databricks Inc. — All rights reserved AIアシスタント コーディングの手助けをしてくれます
©2024 Databricks Inc. — All rights reserved 変数エクスプローラ 定義済みの変数を確認できます。目のマークをクリックするとデータを確認できま す。
©2024 Databricks Inc. — All rights reserved コードのフォーマット Python/SQLのフォーマットを整形することができます
©2024 Databricks Inc. — All rights reserved ターミナル クイックにシェルコマンドを実行できます。
©2024 Databricks Inc. — All rights reserved マジックコマンド セルからでもクイックにシェルコマンドを実行できます。
©2024 Databricks Inc. — All rights reserved 可視化 データフレームにdisplay()を適用しましょう
©2024 Databricks Inc. — All rights reserved Databricksのベストプラクティス コラボレーション 44
©2024 Databricks Inc. — All rights reserved アクセス権の設定 Databricksのワークスペースの資産は、アクセス権を適切に設定することで容易 に他のユーザーに共有することができます。
©2024 Databricks Inc. — All rights reserved アクセス権の設定
©2024 Databricks Inc. — All rights reserved アクセス権の設定
©2024 Databricks Inc. — All rights reserved オンラインでのコミュニケーション 共有されたノートブックは同時に参照、(権限が付与されていれば)編集を 行うことができます。
サイドメニューのワークスペースにアクセスし、画面右上の3点リーダーをクリック し、インポートを選択します。 49 ノートブックのインポート
URLを選択し、URLのボックスに以下のURLを貼り付けます。 50 ノートブックのインポート https://sajpstorage.blob.core.windows.net/yayoi/20240527/COVID-19%E6%84%9F%E6%9F%93%E8%80% 85%E6%95%B0%E5%88%86%E6%9E%90.html
©2024 Databricks Inc. — All rights reserved Databricksのベストプラクティス Databricksアシスタントの活用 51
ノートブック、SQLエディタ、 ファイルエディタにネイティブで 組み込まれた、あなたのデータの文脈 を理解するAIアシスタント コードやクエリーの生成、オートコンプリート 問題の説明や修正 Unity Catalogと連携することで、 あなたのデータ資産の文脈に適した結果を提示 52
Databricksアシスタント
最新機能を利用できるように設定を行います。ワークスペース右上の ユーザーアイコンをクリックし、設定を選択します。 53 事前準備
ユーザー > 開発者の新しいAssistantのUIをオンにします。 54 事前準備
アシスタントにアクセスするにはアイコン をクリックします。 55 Databricksアシスタントへのアクセス
アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらはワークスペースで動作します。 56 Databricksアシスタントへのアクセス
アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらはワークスペースで動作します。 57 Databricksアシスタントへのアクセス
アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらはワークスペースで動作します。 58 Databricksアシスタントへのアクセス
アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらはワークスペースで動作します。 59 Databricksアシスタントへのアクセス
アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらは当該セルを対象に動作します。 60 Databricksアシスタントへのアクセス
アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらは当該セルを対象に動作します。 61 Databricksアシスタントへのアクセス
日本語でアシスタントに問い合わせます。 62 Databricksアシスタントへ問い合わせ
アシスタントで以下の問い合わせを行いましょう。ノートブックを作成し、稼働してい るクラスターにアタッチしてください。 63 Databricksアシスタントへ問い合わせ こちらが我々のデータセットのTitleカラムの例です: 1. The Shawshank Redemption (1994)
タイトル名 は数とカッコの間です。公開日はカッコの間です。公開 日とタイトル名を抽出する関数を書いてください。
コードが表示される場合には、ショートカットボタンが表示されます。 64 Databricksアシスタントへ問い合わせ 差分表示 コードの実行 選択しているセルに コードを挿入 コードをコピー
すでにコードが入力されている場合には、文脈を解して回答します。 65 Databricksアシスタントへ問い合わせ PySpark DataFrameをPandas DataFrameに変換し、fare_amount列に基づいてdfから最も高価な10件の トリップを選択するためのPandasコードを生成してください。
ノートブックのセルに以下を記入し、セルが選択されている状態にします。 66 Databricksアシスタントへ問い合わせ セルが選択されている状態でアシスタントに以下の問い合わせを行います。 import pandas as pd # テーブル
"samples.nyctaxi.trips" からデータを読み込む df = spark.read.table("samples.nyctaxi.trips") PySpark DataFrameをPandas DataFrameに変換し、fare_amount列に基づい てdfから最も高価な10件のトリップを選択して表示するためのPandasコードを生成し てください。
エラーが発生した際には、診断エラーボタンが表示されます。 67 アシスタントにエラーを修正させる
以下のセルを実行してエラーを起こし、アシスタントに助けてもらいましょう。 68 アシスタントにエラーを修正させる string[::-1]
コードを説明してとお願いします。 69 アシスタントにコードを説明させる
• できるだけ具体的に指示してください。テーブルを指定し、データが どのようなものであるかを示す例を提供してください。 • Databricks アシスタントは、テーブルと列のスキーマとメタデータを 認識します。これにより、自然言語を使用して非常に正確なクエリーを生成す ることができます。たとえば、テーブルに列 userID と
State がある場合、 Databricks アシスタントにワシントンに住むユーザーの リストを生成するよう依頼できます。 • Databricks アシスタントはテーブルと列のメタデータにのみアクセスでき、行 レベルのデータにはアクセスできません。そのため、実際の データがユニークな形式をしている場合、クエリーを正しく記述できない場合 があります。 • Databricks アシスタントは会話の履歴を考慮するため、会話を進めながら質 問を改善していくことができます。 70 アシスタントに問い合わせる際の注意点 https://docs.databricks.com/ja/notebooks/databricks-assistant-faq.html
その他の機能: メタデータの提案
参考資料 • Databricksノートブックでコードを開発する | Databricks on AWS • Databricksベストプラクティス:ノートブックのモジュール化 •
Databricksアシスタントの新機能を試す • Databricksのインタラクティブデバッガー • プロの様にDatabricksをナビゲートする
©2024 Databricks Inc. — All rights reserved