Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Databricks勉強会:Databricksのベストプラクティス
Search
Takaaki Yayoi
June 05, 2024
Technology
1
330
Databricks勉強会:Databricksのベストプラクティス
Databricksのベストプラクティスをカバーしています。
・Databricksワークスペースの使い方のウォークスルー
・ノートブックやクラスターのベストプラクティス
Takaaki Yayoi
June 05, 2024
Tweet
Share
More Decks by Takaaki Yayoi
See All by Takaaki Yayoi
Apache Spark もくもく会
taka_aki
0
140
はじめてのDatabricks (2025年7月版)
taka_aki
0
77
生成AIによるデータサイエンスの変革
taka_aki
0
3.1k
生成AIによる情報システムへのインパクト
taka_aki
1
290
JEDAI Databricks Free Editionもくもく会
taka_aki
1
200
15分で作るDatabricksと生成AIエージェント
taka_aki
1
160
MLflowはどのようにLLMOpsの課題を解決するのか
taka_aki
1
350
ハンズオンで学ぶ Databricks - はじめてのDatabricks
taka_aki
1
940
DeepSeekとは?何がいいの? - Databricksと学ぶDeepSeek! 〜これからのLLMに備えよ!〜
taka_aki
2
320
Other Decks in Technology
See All in Technology
MagicPod導入から半年、オープンロジQAチームで実際にやったこと
tjoko
0
110
これでもう迷わない!Jetpack Composeの書き方実践ガイド
zozotech
PRO
0
1.1k
人工衛星のファームウェアをRustで書く理由
koba789
15
8.3k
S3アクセス制御の設計ポイント
tommy0124
3
210
AI時代を生き抜くエンジニアキャリアの築き方 (AI-Native 時代、エンジニアという道は 「最大の挑戦の場」となる) / Building an Engineering Career to Thrive in the Age of AI (In the AI-Native Era, the Path of Engineering Becomes the Ultimate Arena of Challenge)
jeongjaesoon
0
250
Oracle Base Database Service 技術詳細
oracle4engineer
PRO
10
75k
今日から始めるAWSセキュリティ対策 3ステップでわかる実践ガイド
yoshidatakeshi1994
0
120
スクラムガイドに載っていないスクラムのはじめかた - チームでスクラムをはじめるときに知っておきたい勘所を集めてみました! - / How to start Scrum that is not written in the Scrum Guide 2nd
takaking22
2
200
2つのフロントエンドと状態管理
mixi_engineers
PRO
3
160
react-callを使ってダイヤログをいろんなとこで再利用しよう!
shinaps
2
270
バイブスに「型」を!Kent Beckに学ぶ、AI時代のテスト駆動開発
amixedcolor
2
590
Generative AI Japan 第一回生成AI実践研究会「AI駆動開発の現在地──ブレイクスルーの鍵を握るのはデータ領域」
shisyu_gaku
0
330
Featured
See All Featured
Scaling GitHub
holman
463
140k
Product Roadmaps are Hard
iamctodd
PRO
54
11k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
50k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
252
21k
Why You Should Never Use an ORM
jnunemaker
PRO
59
9.5k
Code Reviewing Like a Champion
maltzj
525
40k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
Being A Developer After 40
akosma
90
590k
Building a Scalable Design System with Sketch
lauravandoore
462
33k
Statistics for Hackers
jakevdp
799
220k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3k
How GitHub (no longer) Works
holman
315
140k
Transcript
©2024 Databricks Inc. — All rights reserved Databricks勉強会 2024/6/5 Databricksのベストプラクティス
©2024 Databricks Inc. — All rights reserved 自己紹介 弥生 隆明
(やよい たかあき) Databricksソリューションアーキテクト ▪ 2020年からデータブリックス ジャパンにお いて、プレセールス、POCに従事 ▪ 前職はコンサルティングファーム、 総合電機メーカーにてデータ分析・Web サービス構築などに従事。 インド赴任経験あり。 ▪ Qiitaでいろいろ書いています。 2 @taka_aki
©2024 Databricks Inc. — All rights reserved 勉強会アジェンダ # アジェンダ
時間枠 説明 1 Databricksの ベストプラクティス 2時間 • 座学+ハンズオン • Databricksワークスペースの使い方のウォークスルー • ノートブックやクラスターのベストプラクティス 2 Databricksにおける プログラミング 2時間 • 座学+ハンズオン • SQL基礎 • PySpark基礎 3 Databricksの高度な使い方 (その1) 2時間 • Unity Catalog詳細 • Databricksワークフロー(ジョブ)詳細 • Databricks Asset Bundlesによるインフラ管理 4 Databricksの高度な使い方 (その2) 2時間 • LLM関連機能のウォークスルー • サードパーティツールとの連携
アジェンダ • Databricksの使い方 • Databricksのベストプラクティス ◦ ユーザー設定 ◦ 検索機能 ◦
ノートブックの活用 ◦ コラボレーション ◦ Databricksアシスタントの活用
©2024 Databricks Inc. — All rights reserved Databricksの使い方 5
©2024 Databricks Inc. — All rights reserved Databricksの使い方イメージ
©2024 Databricks Inc. — All rights reserved Databricksの使い方イメージ
©2024 Databricks Inc. — All rights reserved Databricksワークスペース ユーザーアイコン ユーザー設定
サイドメニュー
©2024 Databricks Inc. — All rights reserved Databricksノートブック
©2024 Databricks Inc. — All rights reserved Databricksクラスター Best Practice
Databricksにおける一番無駄なコストは「使っていな いクラスターを起動しておく」ことです。 自動停止の設定を活用しましょう。
©2024 Databricks Inc. — All rights reserved ノートブックをクラスターにアタッチ Best Practice
プログラムを実行する際にのみクラスターが必要とな ります。プログラムの修正を行う際はクラスターは不 要です。
©2024 Databricks Inc. — All rights reserved プログラムの実行
©2024 Databricks Inc. — All rights reserved Databricksのベストプラクティス ユーザー設定 13
©2024 Databricks Inc. — All rights reserved ユーザー設定 GUIの言語設定 GUIの言語設定を変更します
©2024 Databricks Inc. — All rights reserved ユーザー設定
©2024 Databricks Inc. — All rights reserved ユーザー設定
©2024 Databricks Inc. — All rights reserved ユーザー設定
©2024 Databricks Inc. — All rights reserved ユーザー設定 便利なオート コンプリート
新しい ホームページ Best Practice 結構な頻度で実験的な機能は追加されていきます。定 期的にチェックしてみてください。
©2024 Databricks Inc. — All rights reserved Databricksのベストプラクティス 検索機能 19
©2024 Databricks Inc. — All rights reserved ページ全体の検索画面
©2024 Databricks Inc. — All rights reserved ページ全体の検索画面
©2024 Databricks Inc. — All rights reserved ページ全体の検索画面
©2024 Databricks Inc. — All rights reserved Databricksのベストプラクティス ノートブックの活用 23
©2024 Databricks Inc. — All rights reserved ノートブック お気に入り セル番号:
セルタイトル 言語 削除 アシスタント フォーカスモード セルメニュー セルの並び替え セルの折り畳み セルの実行 実行メニュー
©2024 Databricks Inc. — All rights reserved お気に入り 後からクイックにアクセスできるようになります Best
Practice お気に入りはノートブック以外のフォルダ、データベー ス、テーブル、モデルなどでも設定できます。
©2024 Databricks Inc. — All rights reserved 並び替え ドラッグ&ドロップでセルの位置を変更できます
©2024 Databricks Inc. — All rights reserved 折り畳み マークダウンの見出しに基づいたセクションを折り畳みできます
©2024 Databricks Inc. — All rights reserved レイアウト変更 中央揃え・全幅レイアウトを変更できます
©2024 Databricks Inc. — All rights reserved フォーカスモード Best Practice
特定のセルにフォーカスできるので、複雑な ロジックに集中したい場合には活用しましょう 特定のセルとのその出力のみを表示します
©2024 Databricks Inc. — All rights reserved マークダウン Best Practice
セルの先頭に%mdを記述、あるいは言語 セレクターでマークダウンを記述できます。 他の方がロジックを理解できる様に説明文を記載します
©2024 Databricks Inc. — All rights reserved 目次 マークダウンの見出しに基づいた目次が生成されます
©2024 Databricks Inc. — All rights reserved セルタイトル Best Practice
セルタイトルの隣のアシスタントボタンでタイトルを自動 生成できます。
©2024 Databricks Inc. — All rights reserved セルメニュー
©2024 Databricks Inc. — All rights reserved 実行メニュー
©2024 Databricks Inc. — All rights reserved バージョン管理 過去のバージョンに遡ることができます
©2024 Databricks Inc. — All rights reserved ワークスペースエクスプローラ 他のノートブックやファイルにクイックにアクセスできます
©2024 Databricks Inc. — All rights reserved カタログエクスプローラ データベースやテーブルにクイックにアクセスできます
©2024 Databricks Inc. — All rights reserved AIアシスタント コーディングの手助けをしてくれます
©2024 Databricks Inc. — All rights reserved 変数エクスプローラ 定義済みの変数を確認できます。目のマークをクリックするとデータを確認できま す。
©2024 Databricks Inc. — All rights reserved コードのフォーマット Python/SQLのフォーマットを整形することができます
©2024 Databricks Inc. — All rights reserved ターミナル クイックにシェルコマンドを実行できます。
©2024 Databricks Inc. — All rights reserved マジックコマンド セルからでもクイックにシェルコマンドを実行できます。
©2024 Databricks Inc. — All rights reserved 可視化 データフレームにdisplay()を適用しましょう
©2024 Databricks Inc. — All rights reserved Databricksのベストプラクティス コラボレーション 44
©2024 Databricks Inc. — All rights reserved アクセス権の設定 Databricksのワークスペースの資産は、アクセス権を適切に設定することで容易 に他のユーザーに共有することができます。
©2024 Databricks Inc. — All rights reserved アクセス権の設定
©2024 Databricks Inc. — All rights reserved アクセス権の設定
©2024 Databricks Inc. — All rights reserved オンラインでのコミュニケーション 共有されたノートブックは同時に参照、(権限が付与されていれば)編集を 行うことができます。
サイドメニューのワークスペースにアクセスし、画面右上の3点リーダーをクリック し、インポートを選択します。 49 ノートブックのインポート
URLを選択し、URLのボックスに以下のURLを貼り付けます。 50 ノートブックのインポート https://sajpstorage.blob.core.windows.net/yayoi/20240527/COVID-19%E6%84%9F%E6%9F%93%E8%80% 85%E6%95%B0%E5%88%86%E6%9E%90.html
©2024 Databricks Inc. — All rights reserved Databricksのベストプラクティス Databricksアシスタントの活用 51
ノートブック、SQLエディタ、 ファイルエディタにネイティブで 組み込まれた、あなたのデータの文脈 を理解するAIアシスタント コードやクエリーの生成、オートコンプリート 問題の説明や修正 Unity Catalogと連携することで、 あなたのデータ資産の文脈に適した結果を提示 52
Databricksアシスタント
最新機能を利用できるように設定を行います。ワークスペース右上の ユーザーアイコンをクリックし、設定を選択します。 53 事前準備
ユーザー > 開発者の新しいAssistantのUIをオンにします。 54 事前準備
アシスタントにアクセスするにはアイコン をクリックします。 55 Databricksアシスタントへのアクセス
アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらはワークスペースで動作します。 56 Databricksアシスタントへのアクセス
アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらはワークスペースで動作します。 57 Databricksアシスタントへのアクセス
アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらはワークスペースで動作します。 58 Databricksアシスタントへのアクセス
アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらはワークスペースで動作します。 59 Databricksアシスタントへのアクセス
アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらは当該セルを対象に動作します。 60 Databricksアシスタントへのアクセス
アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらは当該セルを対象に動作します。 61 Databricksアシスタントへのアクセス
日本語でアシスタントに問い合わせます。 62 Databricksアシスタントへ問い合わせ
アシスタントで以下の問い合わせを行いましょう。ノートブックを作成し、稼働してい るクラスターにアタッチしてください。 63 Databricksアシスタントへ問い合わせ こちらが我々のデータセットのTitleカラムの例です: 1. The Shawshank Redemption (1994)
タイトル名 は数とカッコの間です。公開日はカッコの間です。公開 日とタイトル名を抽出する関数を書いてください。
コードが表示される場合には、ショートカットボタンが表示されます。 64 Databricksアシスタントへ問い合わせ 差分表示 コードの実行 選択しているセルに コードを挿入 コードをコピー
すでにコードが入力されている場合には、文脈を解して回答します。 65 Databricksアシスタントへ問い合わせ PySpark DataFrameをPandas DataFrameに変換し、fare_amount列に基づいてdfから最も高価な10件の トリップを選択するためのPandasコードを生成してください。
ノートブックのセルに以下を記入し、セルが選択されている状態にします。 66 Databricksアシスタントへ問い合わせ セルが選択されている状態でアシスタントに以下の問い合わせを行います。 import pandas as pd # テーブル
"samples.nyctaxi.trips" からデータを読み込む df = spark.read.table("samples.nyctaxi.trips") PySpark DataFrameをPandas DataFrameに変換し、fare_amount列に基づい てdfから最も高価な10件のトリップを選択して表示するためのPandasコードを生成し てください。
エラーが発生した際には、診断エラーボタンが表示されます。 67 アシスタントにエラーを修正させる
以下のセルを実行してエラーを起こし、アシスタントに助けてもらいましょう。 68 アシスタントにエラーを修正させる string[::-1]
コードを説明してとお願いします。 69 アシスタントにコードを説明させる
• できるだけ具体的に指示してください。テーブルを指定し、データが どのようなものであるかを示す例を提供してください。 • Databricks アシスタントは、テーブルと列のスキーマとメタデータを 認識します。これにより、自然言語を使用して非常に正確なクエリーを生成す ることができます。たとえば、テーブルに列 userID と
State がある場合、 Databricks アシスタントにワシントンに住むユーザーの リストを生成するよう依頼できます。 • Databricks アシスタントはテーブルと列のメタデータにのみアクセスでき、行 レベルのデータにはアクセスできません。そのため、実際の データがユニークな形式をしている場合、クエリーを正しく記述できない場合 があります。 • Databricks アシスタントは会話の履歴を考慮するため、会話を進めながら質 問を改善していくことができます。 70 アシスタントに問い合わせる際の注意点 https://docs.databricks.com/ja/notebooks/databricks-assistant-faq.html
その他の機能: メタデータの提案
参考資料 • Databricksノートブックでコードを開発する | Databricks on AWS • Databricksベストプラクティス:ノートブックのモジュール化 •
Databricksアシスタントの新機能を試す • Databricksのインタラクティブデバッガー • プロの様にDatabricksをナビゲートする
©2024 Databricks Inc. — All rights reserved