Slide 1

Slide 1 text

©2024 Databricks Inc. — All rights reserved Databricks勉強会 2024/6/5 Databricksのベストプラクティス

Slide 2

Slide 2 text

©2024 Databricks Inc. — All rights reserved 自己紹介 弥生 隆明 (やよい たかあき) Databricksソリューションアーキテクト ▪ 2020年からデータブリックス ジャパンにお いて、プレセールス、POCに従事 ▪ 前職はコンサルティングファーム、 総合電機メーカーにてデータ分析・Web サービス構築などに従事。 インド赴任経験あり。 ▪ Qiitaでいろいろ書いています。 2 @taka_aki

Slide 3

Slide 3 text

©2024 Databricks Inc. — All rights reserved 勉強会アジェンダ # アジェンダ 時間枠 説明 1 Databricksの ベストプラクティス 2時間 ● 座学+ハンズオン ● Databricksワークスペースの使い方のウォークスルー ● ノートブックやクラスターのベストプラクティス 2 Databricksにおける プログラミング 2時間 ● 座学+ハンズオン ● SQL基礎 ● PySpark基礎 3 Databricksの高度な使い方 (その1) 2時間 ● Unity Catalog詳細 ● Databricksワークフロー(ジョブ)詳細 ● Databricks Asset Bundlesによるインフラ管理 4 Databricksの高度な使い方 (その2) 2時間 ● LLM関連機能のウォークスルー ● サードパーティツールとの連携

Slide 4

Slide 4 text

アジェンダ ● Databricksの使い方 ● Databricksのベストプラクティス ○ ユーザー設定 ○ 検索機能 ○ ノートブックの活用 ○ コラボレーション ○ Databricksアシスタントの活用

Slide 5

Slide 5 text

©2024 Databricks Inc. — All rights reserved Databricksの使い方 5

Slide 6

Slide 6 text

©2024 Databricks Inc. — All rights reserved Databricksの使い方イメージ

Slide 7

Slide 7 text

©2024 Databricks Inc. — All rights reserved Databricksの使い方イメージ

Slide 8

Slide 8 text

©2024 Databricks Inc. — All rights reserved Databricksワークスペース ユーザーアイコン ユーザー設定 サイドメニュー

Slide 9

Slide 9 text

©2024 Databricks Inc. — All rights reserved Databricksノートブック

Slide 10

Slide 10 text

©2024 Databricks Inc. — All rights reserved Databricksクラスター Best Practice Databricksにおける一番無駄なコストは「使っていな いクラスターを起動しておく」ことです。 自動停止の設定を活用しましょう。

Slide 11

Slide 11 text

©2024 Databricks Inc. — All rights reserved ノートブックをクラスターにアタッチ Best Practice プログラムを実行する際にのみクラスターが必要とな ります。プログラムの修正を行う際はクラスターは不 要です。

Slide 12

Slide 12 text

©2024 Databricks Inc. — All rights reserved プログラムの実行

Slide 13

Slide 13 text

©2024 Databricks Inc. — All rights reserved Databricksのベストプラクティス ユーザー設定 13

Slide 14

Slide 14 text

©2024 Databricks Inc. — All rights reserved ユーザー設定 GUIの言語設定 GUIの言語設定を変更します

Slide 15

Slide 15 text

©2024 Databricks Inc. — All rights reserved ユーザー設定

Slide 16

Slide 16 text

©2024 Databricks Inc. — All rights reserved ユーザー設定

Slide 17

Slide 17 text

©2024 Databricks Inc. — All rights reserved ユーザー設定

Slide 18

Slide 18 text

©2024 Databricks Inc. — All rights reserved ユーザー設定 便利なオート コンプリート 新しい ホームページ Best Practice 結構な頻度で実験的な機能は追加されていきます。定 期的にチェックしてみてください。

Slide 19

Slide 19 text

©2024 Databricks Inc. — All rights reserved Databricksのベストプラクティス 検索機能 19

Slide 20

Slide 20 text

©2024 Databricks Inc. — All rights reserved ページ全体の検索画面

Slide 21

Slide 21 text

©2024 Databricks Inc. — All rights reserved ページ全体の検索画面

Slide 22

Slide 22 text

©2024 Databricks Inc. — All rights reserved ページ全体の検索画面

Slide 23

Slide 23 text

©2024 Databricks Inc. — All rights reserved Databricksのベストプラクティス ノートブックの活用 23

Slide 24

Slide 24 text

©2024 Databricks Inc. — All rights reserved ノートブック お気に入り セル番号: セルタイトル 言語 削除 アシスタント フォーカスモード セルメニュー セルの並び替え セルの折り畳み セルの実行 実行メニュー

Slide 25

Slide 25 text

©2024 Databricks Inc. — All rights reserved お気に入り 後からクイックにアクセスできるようになります Best Practice お気に入りはノートブック以外のフォルダ、データベー ス、テーブル、モデルなどでも設定できます。

Slide 26

Slide 26 text

©2024 Databricks Inc. — All rights reserved 並び替え ドラッグ&ドロップでセルの位置を変更できます

Slide 27

Slide 27 text

©2024 Databricks Inc. — All rights reserved 折り畳み マークダウンの見出しに基づいたセクションを折り畳みできます

Slide 28

Slide 28 text

©2024 Databricks Inc. — All rights reserved レイアウト変更 中央揃え・全幅レイアウトを変更できます

Slide 29

Slide 29 text

©2024 Databricks Inc. — All rights reserved フォーカスモード Best Practice 特定のセルにフォーカスできるので、複雑な ロジックに集中したい場合には活用しましょう 特定のセルとのその出力のみを表示します

Slide 30

Slide 30 text

©2024 Databricks Inc. — All rights reserved マークダウン Best Practice セルの先頭に%mdを記述、あるいは言語 セレクターでマークダウンを記述できます。 他の方がロジックを理解できる様に説明文を記載します

Slide 31

Slide 31 text

©2024 Databricks Inc. — All rights reserved 目次 マークダウンの見出しに基づいた目次が生成されます

Slide 32

Slide 32 text

©2024 Databricks Inc. — All rights reserved セルタイトル Best Practice セルタイトルの隣のアシスタントボタンでタイトルを自動 生成できます。

Slide 33

Slide 33 text

©2024 Databricks Inc. — All rights reserved セルメニュー

Slide 34

Slide 34 text

©2024 Databricks Inc. — All rights reserved 実行メニュー

Slide 35

Slide 35 text

©2024 Databricks Inc. — All rights reserved バージョン管理 過去のバージョンに遡ることができます

Slide 36

Slide 36 text

©2024 Databricks Inc. — All rights reserved ワークスペースエクスプローラ 他のノートブックやファイルにクイックにアクセスできます

Slide 37

Slide 37 text

©2024 Databricks Inc. — All rights reserved カタログエクスプローラ データベースやテーブルにクイックにアクセスできます

Slide 38

Slide 38 text

©2024 Databricks Inc. — All rights reserved AIアシスタント コーディングの手助けをしてくれます

Slide 39

Slide 39 text

©2024 Databricks Inc. — All rights reserved 変数エクスプローラ 定義済みの変数を確認できます。目のマークをクリックするとデータを確認できま す。

Slide 40

Slide 40 text

©2024 Databricks Inc. — All rights reserved コードのフォーマット Python/SQLのフォーマットを整形することができます

Slide 41

Slide 41 text

©2024 Databricks Inc. — All rights reserved ターミナル クイックにシェルコマンドを実行できます。

Slide 42

Slide 42 text

©2024 Databricks Inc. — All rights reserved マジックコマンド セルからでもクイックにシェルコマンドを実行できます。

Slide 43

Slide 43 text

©2024 Databricks Inc. — All rights reserved 可視化 データフレームにdisplay()を適用しましょう

Slide 44

Slide 44 text

©2024 Databricks Inc. — All rights reserved Databricksのベストプラクティス コラボレーション 44

Slide 45

Slide 45 text

©2024 Databricks Inc. — All rights reserved アクセス権の設定 Databricksのワークスペースの資産は、アクセス権を適切に設定することで容易 に他のユーザーに共有することができます。

Slide 46

Slide 46 text

©2024 Databricks Inc. — All rights reserved アクセス権の設定

Slide 47

Slide 47 text

©2024 Databricks Inc. — All rights reserved アクセス権の設定

Slide 48

Slide 48 text

©2024 Databricks Inc. — All rights reserved オンラインでのコミュニケーション 共有されたノートブックは同時に参照、(権限が付与されていれば)編集を 行うことができます。

Slide 49

Slide 49 text

サイドメニューのワークスペースにアクセスし、画面右上の3点リーダーをクリック し、インポートを選択します。 49 ノートブックのインポート

Slide 50

Slide 50 text

URLを選択し、URLのボックスに以下のURLを貼り付けます。 50 ノートブックのインポート https://sajpstorage.blob.core.windows.net/yayoi/20240527/COVID-19%E6%84%9F%E6%9F%93%E8%80% 85%E6%95%B0%E5%88%86%E6%9E%90.html

Slide 51

Slide 51 text

©2024 Databricks Inc. — All rights reserved Databricksのベストプラクティス Databricksアシスタントの活用 51

Slide 52

Slide 52 text

ノートブック、SQLエディタ、 ファイルエディタにネイティブで 組み込まれた、あなたのデータの文脈 を理解するAIアシスタント コードやクエリーの生成、オートコンプリート 問題の説明や修正 Unity Catalogと連携することで、 あなたのデータ資産の文脈に適した結果を提示 52 Databricksアシスタント

Slide 53

Slide 53 text

最新機能を利用できるように設定を行います。ワークスペース右上の ユーザーアイコンをクリックし、設定を選択します。 53 事前準備

Slide 54

Slide 54 text

ユーザー > 開発者の新しいAssistantのUIをオンにします。 54 事前準備

Slide 55

Slide 55 text

アシスタントにアクセスするにはアイコン をクリックします。 55 Databricksアシスタントへのアクセス

Slide 56

Slide 56 text

アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらはワークスペースで動作します。 56 Databricksアシスタントへのアクセス

Slide 57

Slide 57 text

アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらはワークスペースで動作します。 57 Databricksアシスタントへのアクセス

Slide 58

Slide 58 text

アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらはワークスペースで動作します。 58 Databricksアシスタントへのアクセス

Slide 59

Slide 59 text

アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらはワークスペースで動作します。 59 Databricksアシスタントへのアクセス

Slide 60

Slide 60 text

アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらは当該セルを対象に動作します。 60 Databricksアシスタントへのアクセス

Slide 61

Slide 61 text

アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらは当該セルを対象に動作します。 61 Databricksアシスタントへのアクセス

Slide 62

Slide 62 text

日本語でアシスタントに問い合わせます。 62 Databricksアシスタントへ問い合わせ

Slide 63

Slide 63 text

アシスタントで以下の問い合わせを行いましょう。ノートブックを作成し、稼働してい るクラスターにアタッチしてください。 63 Databricksアシスタントへ問い合わせ こちらが我々のデータセットのTitleカラムの例です: 1. The Shawshank Redemption (1994) タイトル名 は数とカッコの間です。公開日はカッコの間です。公開 日とタイトル名を抽出する関数を書いてください。

Slide 64

Slide 64 text

コードが表示される場合には、ショートカットボタンが表示されます。 64 Databricksアシスタントへ問い合わせ 差分表示 コードの実行 選択しているセルに コードを挿入 コードをコピー

Slide 65

Slide 65 text

すでにコードが入力されている場合には、文脈を解して回答します。 65 Databricksアシスタントへ問い合わせ PySpark DataFrameをPandas DataFrameに変換し、fare_amount列に基づいてdfから最も高価な10件の トリップを選択するためのPandasコードを生成してください。

Slide 66

Slide 66 text

ノートブックのセルに以下を記入し、セルが選択されている状態にします。 66 Databricksアシスタントへ問い合わせ セルが選択されている状態でアシスタントに以下の問い合わせを行います。 import pandas as pd # テーブル "samples.nyctaxi.trips" からデータを読み込む df = spark.read.table("samples.nyctaxi.trips") PySpark DataFrameをPandas DataFrameに変換し、fare_amount列に基づい てdfから最も高価な10件のトリップを選択して表示するためのPandasコードを生成し てください。

Slide 67

Slide 67 text

エラーが発生した際には、診断エラーボタンが表示されます。 67 アシスタントにエラーを修正させる

Slide 68

Slide 68 text

以下のセルを実行してエラーを起こし、アシスタントに助けてもらいましょう。 68 アシスタントにエラーを修正させる string[::-1]

Slide 69

Slide 69 text

コードを説明してとお願いします。 69 アシスタントにコードを説明させる

Slide 70

Slide 70 text

● できるだけ具体的に指示してください。テーブルを指定し、データが どのようなものであるかを示す例を提供してください。 ● Databricks アシスタントは、テーブルと列のスキーマとメタデータを 認識します。これにより、自然言語を使用して非常に正確なクエリーを生成す ることができます。たとえば、テーブルに列 userID と State がある場合、 Databricks アシスタントにワシントンに住むユーザーの リストを生成するよう依頼できます。 ● Databricks アシスタントはテーブルと列のメタデータにのみアクセスでき、行 レベルのデータにはアクセスできません。そのため、実際の データがユニークな形式をしている場合、クエリーを正しく記述できない場合 があります。 ● Databricks アシスタントは会話の履歴を考慮するため、会話を進めながら質 問を改善していくことができます。 70 アシスタントに問い合わせる際の注意点 https://docs.databricks.com/ja/notebooks/databricks-assistant-faq.html

Slide 71

Slide 71 text

その他の機能: メタデータの提案

Slide 72

Slide 72 text

参考資料 ● Databricksノートブックでコードを開発する | Databricks on AWS ● Databricksベストプラクティス:ノートブックのモジュール化 ● Databricksアシスタントの新機能を試す ● Databricksのインタラクティブデバッガー ● プロの様にDatabricksをナビゲートする

Slide 73

Slide 73 text

©2024 Databricks Inc. — All rights reserved