Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Databricks勉強会:Databricksのベストプラクティス

 Databricks勉強会:Databricksのベストプラクティス

Databricksのベストプラクティスをカバーしています。

・Databricksワークスペースの使い方のウォークスルー
・ノートブックやクラスターのベストプラクティス

Takaaki Yayoi

June 05, 2024
Tweet

More Decks by Takaaki Yayoi

Other Decks in Technology

Transcript

  1. ©2024 Databricks Inc. — All rights reserved 自己紹介 弥生 隆明

    (やよい たかあき) Databricksソリューションアーキテクト ▪ 2020年からデータブリックス ジャパンにお いて、プレセールス、POCに従事 ▪ 前職はコンサルティングファーム、 総合電機メーカーにてデータ分析・Web サービス構築などに従事。 インド赴任経験あり。 ▪ Qiitaでいろいろ書いています。 2 @taka_aki
  2. ©2024 Databricks Inc. — All rights reserved 勉強会アジェンダ # アジェンダ

    時間枠 説明 1 Databricksの ベストプラクティス 2時間 • 座学+ハンズオン • Databricksワークスペースの使い方のウォークスルー • ノートブックやクラスターのベストプラクティス 2 Databricksにおける プログラミング 2時間 • 座学+ハンズオン • SQL基礎 • PySpark基礎 3 Databricksの高度な使い方 (その1) 2時間 • Unity Catalog詳細 • Databricksワークフロー(ジョブ)詳細 • Databricks Asset Bundlesによるインフラ管理 4 Databricksの高度な使い方 (その2) 2時間 • LLM関連機能のウォークスルー • サードパーティツールとの連携
  3. アジェンダ • Databricksの使い方 • Databricksのベストプラクティス ◦ ユーザー設定 ◦ 検索機能 ◦

    ノートブックの活用 ◦ コラボレーション ◦ Databricksアシスタントの活用
  4. ©2024 Databricks Inc. — All rights reserved Databricksクラスター Best Practice

    Databricksにおける一番無駄なコストは「使っていな いクラスターを起動しておく」ことです。 自動停止の設定を活用しましょう。
  5. ©2024 Databricks Inc. — All rights reserved ノートブックをクラスターにアタッチ Best Practice

    プログラムを実行する際にのみクラスターが必要とな ります。プログラムの修正を行う際はクラスターは不 要です。
  6. ©2024 Databricks Inc. — All rights reserved ユーザー設定 便利なオート コンプリート

    新しい ホームページ Best Practice 結構な頻度で実験的な機能は追加されていきます。定 期的にチェックしてみてください。
  7. ©2024 Databricks Inc. — All rights reserved ノートブック お気に入り セル番号:

    セルタイトル 言語 削除 アシスタント フォーカスモード セルメニュー セルの並び替え セルの折り畳み セルの実行 実行メニュー
  8. ©2024 Databricks Inc. — All rights reserved お気に入り 後からクイックにアクセスできるようになります Best

    Practice お気に入りはノートブック以外のフォルダ、データベー ス、テーブル、モデルなどでも設定できます。
  9. ©2024 Databricks Inc. — All rights reserved フォーカスモード Best Practice

    特定のセルにフォーカスできるので、複雑な ロジックに集中したい場合には活用しましょう 特定のセルとのその出力のみを表示します
  10. ©2024 Databricks Inc. — All rights reserved マークダウン Best Practice

    セルの先頭に%mdを記述、あるいは言語 セレクターでマークダウンを記述できます。 他の方がロジックを理解できる様に説明文を記載します
  11. ©2024 Databricks Inc. — All rights reserved セルタイトル Best Practice

    セルタイトルの隣のアシスタントボタンでタイトルを自動 生成できます。
  12. ノートブックのセルに以下を記入し、セルが選択されている状態にします。 66 Databricksアシスタントへ問い合わせ セルが選択されている状態でアシスタントに以下の問い合わせを行います。 import pandas as pd # テーブル

    "samples.nyctaxi.trips" からデータを読み込む df = spark.read.table("samples.nyctaxi.trips") PySpark DataFrameをPandas DataFrameに変換し、fare_amount列に基づい てdfから最も高価な10件のトリップを選択して表示するためのPandasコードを生成し てください。
  13. • できるだけ具体的に指示してください。テーブルを指定し、データが どのようなものであるかを示す例を提供してください。 • Databricks アシスタントは、テーブルと列のスキーマとメタデータを 認識します。これにより、自然言語を使用して非常に正確なクエリーを生成す ることができます。たとえば、テーブルに列 userID と

    State がある場合、 Databricks アシスタントにワシントンに住むユーザーの リストを生成するよう依頼できます。 • Databricks アシスタントはテーブルと列のメタデータにのみアクセスでき、行 レベルのデータにはアクセスできません。そのため、実際の データがユニークな形式をしている場合、クエリーを正しく記述できない場合 があります。 • Databricks アシスタントは会話の履歴を考慮するため、会話を進めながら質 問を改善していくことができます。 70 アシスタントに問い合わせる際の注意点 https://docs.databricks.com/ja/notebooks/databricks-assistant-faq.html
  14. 参考資料 • Databricksノートブックでコードを開発する | Databricks on AWS • Databricksベストプラクティス:ノートブックのモジュール化 •

    Databricksアシスタントの新機能を試す • Databricksのインタラクティブデバッガー • プロの様にDatabricksをナビゲートする