Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Databricks勉強会:Databricksのベストプラクティス
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
Takaaki Yayoi
June 05, 2024
Technology
740
1
Share
Databricks勉強会:Databricksのベストプラクティス
Databricksのベストプラクティスをカバーしています。
・Databricksワークスペースの使い方のウォークスルー
・ノートブックやクラスターのベストプラクティス
Takaaki Yayoi
June 05, 2024
More Decks by Takaaki Yayoi
See All by Takaaki Yayoi
[2026年4月版] 生成AIによる情報システムへのインパクト
taka_aki
1
83
JEDAI in Osaka 2026イントロ
taka_aki
0
390
Databricksアシスタントが自分で考えて動く時代に! エージェントモード体験もくもく会
taka_aki
0
1.2k
Claude Code × Databricks Apps ワークショップ
taka_aki
0
190
【2026年版】生成AIによる情報システムへのインパクト
taka_aki
0
300
Databricks Free Edition講座 データサイエンス編
taka_aki
0
750
Databricks Free Edition講座 データエンジニアリング編
taka_aki
0
3.5k
Databricks Free Editionで始めるLakeflow SDP
taka_aki
0
1.3k
生成AI時代におけるグローバル戦略思考
taka_aki
0
300
Other Decks in Technology
See All in Technology
SLI/SLO、「完全に理解した」から「チョットデキル」へ
maruloop
5
480
(きっとたぶん)人材育成や教育のような何かの話
sejima
0
740
「強制アップデート」か「チームの自律」か?エンタープライズが辿り着いたプラットフォームのハイブリッド運用/cloudnative-kaigi-hybrid-platform-operations
mhrtech
0
200
Oracle Exadata Database Service on Cloud@Customer X11M (ExaDB-C@C) サービス概要
oracle4engineer
PRO
2
8k
20260516_SecJAWS_Days
takuyay0ne
2
410
Purview 勉強会報告 Microsoft Purview 入門しようとしてみた
masakichixo
1
410
Sociotechnical Architecture Reviews: Understanding Teams, not just Artefacts
ewolff
1
170
いつの間にかデータエンジニア以外の業務も増えていたけど、意外と経験が役に立ってる
zozotech
PRO
0
580
PdM・Eng・QAで進めるAI駆動開発の現在地/aidd-with-pdm-eng-qa
shota_kusaba
0
230
マンション備え付けのネットワークとLTE回線を組み合わせた ネットワークの安定化の考案
harutiro
1
130
セキュリティ対策、何からはじめる? CloudNative環境の脅威モデリングと リスク評価実践入門 #cloudnativekaigi
varu3
5
900
サンプリングは「作る」のか「使う」のか? 分散トレースのコストと運用を両立する実践的戦略 / Why you need the tail sampling and why you don't want it
ymotongpoo
4
180
Featured
See All Featured
Building AI with AI
inesmontani
PRO
1
980
Measuring & Analyzing Core Web Vitals
bluesmoon
9
820
SEO for Brand Visibility & Recognition
aleyda
0
4.5k
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
118
110k
Visual Storytelling: How to be a Superhuman Communicator
reverentgeek
2
530
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.7k
brightonSEO & MeasureFest 2025 - Christian Goodrich - Winning strategies for Black Friday CRO & PPC
cargoodrich
3
690
Are puppies a ranking factor?
jonoalderson
1
3.4k
The #1 spot is gone: here's how to win anyway
tamaranovitovic
2
1k
Evolving SEO for Evolving Search Engines
ryanjones
0
190
Game over? The fight for quality and originality in the time of robots
wayneb77
1
170
Transcript
©2024 Databricks Inc. — All rights reserved Databricks勉強会 2024/6/5 Databricksのベストプラクティス
©2024 Databricks Inc. — All rights reserved 自己紹介 弥生 隆明
(やよい たかあき) Databricksソリューションアーキテクト ▪ 2020年からデータブリックス ジャパンにお いて、プレセールス、POCに従事 ▪ 前職はコンサルティングファーム、 総合電機メーカーにてデータ分析・Web サービス構築などに従事。 インド赴任経験あり。 ▪ Qiitaでいろいろ書いています。 2 @taka_aki
©2024 Databricks Inc. — All rights reserved 勉強会アジェンダ # アジェンダ
時間枠 説明 1 Databricksの ベストプラクティス 2時間 • 座学+ハンズオン • Databricksワークスペースの使い方のウォークスルー • ノートブックやクラスターのベストプラクティス 2 Databricksにおける プログラミング 2時間 • 座学+ハンズオン • SQL基礎 • PySpark基礎 3 Databricksの高度な使い方 (その1) 2時間 • Unity Catalog詳細 • Databricksワークフロー(ジョブ)詳細 • Databricks Asset Bundlesによるインフラ管理 4 Databricksの高度な使い方 (その2) 2時間 • LLM関連機能のウォークスルー • サードパーティツールとの連携
アジェンダ • Databricksの使い方 • Databricksのベストプラクティス ◦ ユーザー設定 ◦ 検索機能 ◦
ノートブックの活用 ◦ コラボレーション ◦ Databricksアシスタントの活用
©2024 Databricks Inc. — All rights reserved Databricksの使い方 5
©2024 Databricks Inc. — All rights reserved Databricksの使い方イメージ
©2024 Databricks Inc. — All rights reserved Databricksの使い方イメージ
©2024 Databricks Inc. — All rights reserved Databricksワークスペース ユーザーアイコン ユーザー設定
サイドメニュー
©2024 Databricks Inc. — All rights reserved Databricksノートブック
©2024 Databricks Inc. — All rights reserved Databricksクラスター Best Practice
Databricksにおける一番無駄なコストは「使っていな いクラスターを起動しておく」ことです。 自動停止の設定を活用しましょう。
©2024 Databricks Inc. — All rights reserved ノートブックをクラスターにアタッチ Best Practice
プログラムを実行する際にのみクラスターが必要とな ります。プログラムの修正を行う際はクラスターは不 要です。
©2024 Databricks Inc. — All rights reserved プログラムの実行
©2024 Databricks Inc. — All rights reserved Databricksのベストプラクティス ユーザー設定 13
©2024 Databricks Inc. — All rights reserved ユーザー設定 GUIの言語設定 GUIの言語設定を変更します
©2024 Databricks Inc. — All rights reserved ユーザー設定
©2024 Databricks Inc. — All rights reserved ユーザー設定
©2024 Databricks Inc. — All rights reserved ユーザー設定
©2024 Databricks Inc. — All rights reserved ユーザー設定 便利なオート コンプリート
新しい ホームページ Best Practice 結構な頻度で実験的な機能は追加されていきます。定 期的にチェックしてみてください。
©2024 Databricks Inc. — All rights reserved Databricksのベストプラクティス 検索機能 19
©2024 Databricks Inc. — All rights reserved ページ全体の検索画面
©2024 Databricks Inc. — All rights reserved ページ全体の検索画面
©2024 Databricks Inc. — All rights reserved ページ全体の検索画面
©2024 Databricks Inc. — All rights reserved Databricksのベストプラクティス ノートブックの活用 23
©2024 Databricks Inc. — All rights reserved ノートブック お気に入り セル番号:
セルタイトル 言語 削除 アシスタント フォーカスモード セルメニュー セルの並び替え セルの折り畳み セルの実行 実行メニュー
©2024 Databricks Inc. — All rights reserved お気に入り 後からクイックにアクセスできるようになります Best
Practice お気に入りはノートブック以外のフォルダ、データベー ス、テーブル、モデルなどでも設定できます。
©2024 Databricks Inc. — All rights reserved 並び替え ドラッグ&ドロップでセルの位置を変更できます
©2024 Databricks Inc. — All rights reserved 折り畳み マークダウンの見出しに基づいたセクションを折り畳みできます
©2024 Databricks Inc. — All rights reserved レイアウト変更 中央揃え・全幅レイアウトを変更できます
©2024 Databricks Inc. — All rights reserved フォーカスモード Best Practice
特定のセルにフォーカスできるので、複雑な ロジックに集中したい場合には活用しましょう 特定のセルとのその出力のみを表示します
©2024 Databricks Inc. — All rights reserved マークダウン Best Practice
セルの先頭に%mdを記述、あるいは言語 セレクターでマークダウンを記述できます。 他の方がロジックを理解できる様に説明文を記載します
©2024 Databricks Inc. — All rights reserved 目次 マークダウンの見出しに基づいた目次が生成されます
©2024 Databricks Inc. — All rights reserved セルタイトル Best Practice
セルタイトルの隣のアシスタントボタンでタイトルを自動 生成できます。
©2024 Databricks Inc. — All rights reserved セルメニュー
©2024 Databricks Inc. — All rights reserved 実行メニュー
©2024 Databricks Inc. — All rights reserved バージョン管理 過去のバージョンに遡ることができます
©2024 Databricks Inc. — All rights reserved ワークスペースエクスプローラ 他のノートブックやファイルにクイックにアクセスできます
©2024 Databricks Inc. — All rights reserved カタログエクスプローラ データベースやテーブルにクイックにアクセスできます
©2024 Databricks Inc. — All rights reserved AIアシスタント コーディングの手助けをしてくれます
©2024 Databricks Inc. — All rights reserved 変数エクスプローラ 定義済みの変数を確認できます。目のマークをクリックするとデータを確認できま す。
©2024 Databricks Inc. — All rights reserved コードのフォーマット Python/SQLのフォーマットを整形することができます
©2024 Databricks Inc. — All rights reserved ターミナル クイックにシェルコマンドを実行できます。
©2024 Databricks Inc. — All rights reserved マジックコマンド セルからでもクイックにシェルコマンドを実行できます。
©2024 Databricks Inc. — All rights reserved 可視化 データフレームにdisplay()を適用しましょう
©2024 Databricks Inc. — All rights reserved Databricksのベストプラクティス コラボレーション 44
©2024 Databricks Inc. — All rights reserved アクセス権の設定 Databricksのワークスペースの資産は、アクセス権を適切に設定することで容易 に他のユーザーに共有することができます。
©2024 Databricks Inc. — All rights reserved アクセス権の設定
©2024 Databricks Inc. — All rights reserved アクセス権の設定
©2024 Databricks Inc. — All rights reserved オンラインでのコミュニケーション 共有されたノートブックは同時に参照、(権限が付与されていれば)編集を 行うことができます。
サイドメニューのワークスペースにアクセスし、画面右上の3点リーダーをクリック し、インポートを選択します。 49 ノートブックのインポート
URLを選択し、URLのボックスに以下のURLを貼り付けます。 50 ノートブックのインポート https://sajpstorage.blob.core.windows.net/yayoi/20240527/COVID-19%E6%84%9F%E6%9F%93%E8%80% 85%E6%95%B0%E5%88%86%E6%9E%90.html
©2024 Databricks Inc. — All rights reserved Databricksのベストプラクティス Databricksアシスタントの活用 51
ノートブック、SQLエディタ、 ファイルエディタにネイティブで 組み込まれた、あなたのデータの文脈 を理解するAIアシスタント コードやクエリーの生成、オートコンプリート 問題の説明や修正 Unity Catalogと連携することで、 あなたのデータ資産の文脈に適した結果を提示 52
Databricksアシスタント
最新機能を利用できるように設定を行います。ワークスペース右上の ユーザーアイコンをクリックし、設定を選択します。 53 事前準備
ユーザー > 開発者の新しいAssistantのUIをオンにします。 54 事前準備
アシスタントにアクセスするにはアイコン をクリックします。 55 Databricksアシスタントへのアクセス
アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらはワークスペースで動作します。 56 Databricksアシスタントへのアクセス
アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらはワークスペースで動作します。 57 Databricksアシスタントへのアクセス
アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらはワークスペースで動作します。 58 Databricksアシスタントへのアクセス
アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらはワークスペースで動作します。 59 Databricksアシスタントへのアクセス
アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらは当該セルを対象に動作します。 60 Databricksアシスタントへのアクセス
アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらは当該セルを対象に動作します。 61 Databricksアシスタントへのアクセス
日本語でアシスタントに問い合わせます。 62 Databricksアシスタントへ問い合わせ
アシスタントで以下の問い合わせを行いましょう。ノートブックを作成し、稼働してい るクラスターにアタッチしてください。 63 Databricksアシスタントへ問い合わせ こちらが我々のデータセットのTitleカラムの例です: 1. The Shawshank Redemption (1994)
タイトル名 は数とカッコの間です。公開日はカッコの間です。公開 日とタイトル名を抽出する関数を書いてください。
コードが表示される場合には、ショートカットボタンが表示されます。 64 Databricksアシスタントへ問い合わせ 差分表示 コードの実行 選択しているセルに コードを挿入 コードをコピー
すでにコードが入力されている場合には、文脈を解して回答します。 65 Databricksアシスタントへ問い合わせ PySpark DataFrameをPandas DataFrameに変換し、fare_amount列に基づいてdfから最も高価な10件の トリップを選択するためのPandasコードを生成してください。
ノートブックのセルに以下を記入し、セルが選択されている状態にします。 66 Databricksアシスタントへ問い合わせ セルが選択されている状態でアシスタントに以下の問い合わせを行います。 import pandas as pd # テーブル
"samples.nyctaxi.trips" からデータを読み込む df = spark.read.table("samples.nyctaxi.trips") PySpark DataFrameをPandas DataFrameに変換し、fare_amount列に基づい てdfから最も高価な10件のトリップを選択して表示するためのPandasコードを生成し てください。
エラーが発生した際には、診断エラーボタンが表示されます。 67 アシスタントにエラーを修正させる
以下のセルを実行してエラーを起こし、アシスタントに助けてもらいましょう。 68 アシスタントにエラーを修正させる string[::-1]
コードを説明してとお願いします。 69 アシスタントにコードを説明させる
• できるだけ具体的に指示してください。テーブルを指定し、データが どのようなものであるかを示す例を提供してください。 • Databricks アシスタントは、テーブルと列のスキーマとメタデータを 認識します。これにより、自然言語を使用して非常に正確なクエリーを生成す ることができます。たとえば、テーブルに列 userID と
State がある場合、 Databricks アシスタントにワシントンに住むユーザーの リストを生成するよう依頼できます。 • Databricks アシスタントはテーブルと列のメタデータにのみアクセスでき、行 レベルのデータにはアクセスできません。そのため、実際の データがユニークな形式をしている場合、クエリーを正しく記述できない場合 があります。 • Databricks アシスタントは会話の履歴を考慮するため、会話を進めながら質 問を改善していくことができます。 70 アシスタントに問い合わせる際の注意点 https://docs.databricks.com/ja/notebooks/databricks-assistant-faq.html
その他の機能: メタデータの提案
参考資料 • Databricksノートブックでコードを開発する | Databricks on AWS • Databricksベストプラクティス:ノートブックのモジュール化 •
Databricksアシスタントの新機能を試す • Databricksのインタラクティブデバッガー • プロの様にDatabricksをナビゲートする
©2024 Databricks Inc. — All rights reserved