Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

ハンズオンで学ぶDatabricks

 ハンズオンで学ぶDatabricks

Databricksのハンズオンの資料です。

- Databricksの使い方
- Databricksノートブックの活用
- MLflowによる機械学習モデルの管理
- 生成AIを活用した機能
- ハンズオン(Databricksアシスタント、機械学習モデルのトレーニング、AI/BI Genieスペース、AI/BIダッシュボード)

Takaaki Yayoi

August 21, 2024
Tweet

More Decks by Takaaki Yayoi

Other Decks in Technology

Transcript

  1. ©2024 Databricks Inc. — All rights reserved 自己紹介 弥生 隆明

    (やよい たかあき) Databricksソリューションアーキテクト ▪ 2020年からデータブリックス ジャパンにお いて、プレセールス、POCに従事 ▪ 前職はコンサルティングファーム、 総合電機メーカーにてデータ分析・Web サービス構築などに従事。 インド赴任経験あり。 ▪ Qiitaでいろいろ書いています。 2 @taka_aki
  2. ©2024 Databricks Inc. — All rights reserved Learning Spark 2nd

    Editionの翻訳 + αの内容となっています! Apache Spark徹底入門 本書は、ビッグデータを主な対象としたデータ分析フレームワークである Apache Spark、MLflow、Delta Lakeの中級入門書です。「動かしてみる」だけではなく、どのような仕組みになっているのか、 どうすれば効率的な実装が行えるかまで踏み込みつつ、データ AIの実装者が Apache Spark、MLflow およびDelta Lakeを使いこなすための解説を行います。 • Python、SQL、Scala、またはJavaの高レベルの構造化 APIの学習 • Spark の操作とSQLエンジンの理解 • Spark 構成とSpark UIを使用したSpark操作の検査、調整、デバッグ • JSON、Parquet、CSV、Avro、ORC、Hive、S3、またはKafkaといったデータソース への接続 • 構造化ストリーミングを使用してバッチ データとストリーミング データの 分析を実施 • オープンソースのDelta LakeとSparkを使用して信頼性の高いデータ パイプラインを構築 • MLlibを使用する機械学習パイプラインの開発、 MLflowを使用するモデルの 管理、本番化 • [日本語版オリジナルコンテンツ ]pandas dataframe、spark dataframeに関する各 種データフレームの使い分け • [日本語版オリジナルコンテンツ ]LLMやEnglish SDK for SparkなどAIを活用 した新たなコーディングスタイル、 LLMの利用方法の実践
  3. アジェンダ • Databricksの使い方 • Databricksノートブックの活用 • MLflowによる機械学習モデルの管理 • 生成AIを活用した機能 •

    ハンズオン ◦ Databricksアシスタント ◦ 機械学習モデルのトレーニング ◦ AI/BI Genieスペース ◦ AI/BIダッシュボード
  4. ©2024 Databricks Inc. — All rights reserved Databricksクラスター Best Practice

    Databricksにおける一番無駄なコストは「使っていな いクラスターを起動しておく」ことです。 自動停止の設定を活用しましょう。
  5. ©2024 Databricks Inc. — All rights reserved ノートブックをクラスターにアタッチ Best Practice

    プログラムを実行する際にのみクラスターが必要とな ります。プログラムの修正を行う際はクラスターは不 要です。
  6. ©2024 Databricks Inc. — All rights reserved ノートブック お気に入り セル番号:

    セルタイトル 言語 削除 アシスタント フォーカスモード セルメニュー セルの並び替え セルの折り畳み セルの実行 実行メニュー
  7. ©2024 Databricks Inc. — All rights reserved お気に入り 後からクイックにアクセスできるようになります Best

    Practice お気に入りはノートブック以外のフォルダ、データベー ス、テーブル、モデルなどでも設定できます。
  8. ©2024 Databricks Inc. — All rights reserved フォーカスモード Best Practice

    特定のセルにフォーカスできるので、複雑な ロジックに集中したい場合には活用しましょう 特定のセルとのその出力のみを表示します
  9. ©2024 Databricks Inc. — All rights reserved マークダウン Best Practice

    セルの先頭に%mdを記述、あるいは言語 セレクターでマークダウンを記述できます。 他の方がロジックを理解できる様に説明文を記載します
  10. ©2024 Databricks Inc. — All rights reserved セルタイトル Best Practice

    セルタイトルの隣のアシスタントボタンでタイトルを自動 生成できます。
  11. ©2024 Databricks Inc. — All rights reserved Databricksにおける機械学習 MLライフサイクル全体に対するデータネイティブ、コラボレーティブなソリューション によるオープンなデータレイクハウス基盤

    MLOps / ガバナンス データ準備 データの バージョン管理 モニタリング バッチスコアリン グ オンライン サービング モデル トレーニング モデル チューニング ランタイム環境 Feature Store バッチ (高スループット) リアルタイム (低レーテン シー) AutoML データサイエンスワークスペース
  12. ©2024 Databricks Inc. — All rights reserved モデル トラッキング フレーバー2

    フレーバー 1 カスタム モデル インラインコード コンテナ バッチ&ストリーミン グスコアリング クラウド推論サー ビス OSSサービングソ リューション Serving Parameters Metrics Artifacts Models Metadata デプロイメント オプション ステージング プロダクション アーカイブ データ サイエンティスト デプロイメント エンジニア v2 v3 v1 モデルレジストリ MLflow
  13. ©2024 Databricks Inc. — All rights reserved エンドツーエンドのMLOps / ガバナンス

    データサイエンスワークスペース データ投入 データ バージョン管理 モデル トレーニング モデル チューニング ランタイム環境 モニタリング バッチ スコアリング オンラインサー ビング データガバナンス エクスペリメントのト ラッキング 再現性の確保 モデルガバナンス Powered by
  14. ©2024 Databricks Inc. — All rights reserved Powered by データガバナンス

    エクスペリメントのト ラッキング 再現性の確保 モデルガバナンス パラメーター メトリクス モデル アーティファクト MLメトリクス、パラメーター、 アーティファクトなどの自動キャプチャ
  15. ©2022 Databricks Inc. — All rights reserved AI/BIダッシュボード • 最終的にはDBSQL(とノートブック)のダッシュボードを置き換える次世代ダッシュ

    ボード • 現時点ではDQSQLダッシュボードと並行稼働していますが、最終的には来年 以降にDBSQLダッシュボードを廃止します • ノートブックダッシュボードの置き換えはそれよりも少し後になります • キーとなる違い • 整理されたコンテンツモデル • モダンなビジュアライゼーションライブラリ & 設定体験 • 組織内 / ワークスペース外に配布する機能 • 検索、リネージ & アシスタントとのインテグレーション
  16. ©2024 Databricks Inc. — All rights reserved AI/BI Genie 41

    • ビジネスユーザー向けの自然言語に よるAI支援検索 • AIが生成する検索提案、パーソナライズさ れた回答 • ボタンのクリックでデータをチャート可視化 • DatabricksのSQLウェアハウスが アクセスするデータ で強化 • プライベートプレビュー中
  17. ノートブックのセルに以下を記入し、セルが選択されている状態にします。 56 Databricksアシスタントへ問い合わせ セルが選択されている状態でアシスタントに以下の問い合わせを行います。 import pandas as pd # テーブル

    "samples.nyctaxi.trips" からデータを読み込む df = spark.read.table("samples.nyctaxi.trips") PySpark DataFrameをPandas DataFrameに変換し、 fare_amount列に基づ いてdfから最も高価な 10件のトリップを選択して表示するための Pandasコードを生 成してください。
  18. • できるだけ具体的に指示してください。 テーブルを指定し、データが どのようなものであるかを示す例を提供してください。 • Databricks アシスタントは、テーブルと列のスキーマとメタデータを 認識します。 これにより、自然言語を使用して非常に正確なクエリーを生成す ることができます。たとえば、テーブルに列

    userID と State がある場合、 Databricks アシスタントにワシントンに住むユーザーの リストを生成するよう依頼できます。 • Databricks アシスタントはテーブルと列のメタデータにのみアクセスでき、 行レベルのデータにはアクセスできません。 そのため、実際の データがユニークな形式をしている場合、クエリーを正しく記述できない場合 があります。 • Databricks アシスタントは会話の履歴を考慮するため、会話を進めながら質 問を改善していくことができます。 60 アシスタントに問い合わせる際の注意点 https://docs.databricks.com/ja/notebooks/databricks-assistant-faq.html
  19. ©2024 Databricks Inc. — All rights reserved ハンズオン AI/BI Genieスペース

    71 Databricks AI/BIのウォークスルー AI/BI Genieのウォークスルー
  20. ©2024 Databricks Inc. — All rights reserved ハンズオン AI/BIダッシュボード 79

    Databricks AI/BIのウォークスルー AI/BI Genieのウォークスルー
  21. 参考資料 • Databricksノートブックでコードを開発する | Databricks on AWS • Databricksベストプラクティス:ノートブックのモジュール化 •

    Databricksにおける機械学習モデル構築のエンドツーエンドのサンプル • Databricksアシスタントの新機能を試す • AI/BIの発表:リアルデータに基づくインテリジェント解析の時代へ! | Databricks Blog • Databricks AI/BIのウォークスルー • AI/BI Genieのウォークスルー • Databricksのインタラクティブデバッガー • プロの様にDatabricksをナビゲートする