Slide 1

Slide 1 text

©2024 Databricks Inc. — All rights reserved ハンズオンで学ぶ Databricks 2024/6/18 生成AIを活用したデータ分析

Slide 2

Slide 2 text

©2024 Databricks Inc. — All rights reserved 自己紹介 弥生 隆明 (やよい たかあき) Databricksソリューションアーキテクト ▪ 2020年からデータブリックス ジャパンにお いて、プレセールス、POCに従事 ▪ 前職はコンサルティングファーム、 総合電機メーカーにてデータ分析・Web サービス構築などに従事。 インド赴任経験あり。 ▪ Qiitaでいろいろ書いています。 2 @taka_aki

Slide 3

Slide 3 text

©2024 Databricks Inc. — All rights reserved Learning Spark 2nd Editionの翻訳 + αの内容となっています! Apache Spark徹底入門 本書は、ビッグデータを主な対象としたデータ分析フレームワークである Apache Spark、MLflow、Delta Lakeの中級入門書です。「動かしてみる」だけではなく、どのような仕組みになっているのか、 どうすれば効率的な実装が行えるかまで踏み込みつつ、データ AIの実装者が Apache Spark、MLflow およびDelta Lakeを使いこなすための解説を行います。 ● Python、SQL、Scala、またはJavaの高レベルの構造化 APIの学習 ● Spark の操作とSQLエンジンの理解 ● Spark 構成とSpark UIを使用したSpark操作の検査、調整、デバッグ ● JSON、Parquet、CSV、Avro、ORC、Hive、S3、またはKafkaといったデータソース への接続 ● 構造化ストリーミングを使用してバッチ データとストリーミング データの 分析を実施 ● オープンソースのDelta LakeとSparkを使用して信頼性の高いデータ パイプラインを構築 ● MLlibを使用する機械学習パイプラインの開発、 MLflowを使用するモデルの 管理、本番化 ● [日本語版オリジナルコンテンツ ]pandas dataframe、spark dataframeに関する各 種データフレームの使い分け ● [日本語版オリジナルコンテンツ ]LLMやEnglish SDK for SparkなどAIを活用 した新たなコーディングスタイル、 LLMの利用方法の実践

Slide 4

Slide 4 text

アジェンダ ● Databricksの使い方 ● Databricksノートブックの活用 ● MLflowによる機械学習モデルの管理 ● 生成AIを活用した機能 ● ハンズオン ○ Databricksアシスタント ○ 機械学習モデルのトレーニング ○ AI/BI Genieスペース ○ AI/BIダッシュボード

Slide 5

Slide 5 text

©2024 Databricks Inc. — All rights reserved Databricksの使い方 5

Slide 6

Slide 6 text

©2024 Databricks Inc. — All rights reserved Databricksの使い方イメージ

Slide 7

Slide 7 text

©2024 Databricks Inc. — All rights reserved Databricksの使い方イメージ

Slide 8

Slide 8 text

©2024 Databricks Inc. — All rights reserved Databricksワークスペース ユーザーアイコン ユーザー設定 サイドメニュー

Slide 9

Slide 9 text

©2024 Databricks Inc. — All rights reserved Databricksノートブック

Slide 10

Slide 10 text

©2024 Databricks Inc. — All rights reserved Databricksクラスター Best Practice Databricksにおける一番無駄なコストは「使っていな いクラスターを起動しておく」ことです。 自動停止の設定を活用しましょう。

Slide 11

Slide 11 text

©2024 Databricks Inc. — All rights reserved ノートブックをクラスターにアタッチ Best Practice プログラムを実行する際にのみクラスターが必要とな ります。プログラムの修正を行う際はクラスターは不 要です。

Slide 12

Slide 12 text

©2024 Databricks Inc. — All rights reserved プログラムの実行

Slide 13

Slide 13 text

©2024 Databricks Inc. — All rights reserved Databricksノートブックの活用 13

Slide 14

Slide 14 text

©2024 Databricks Inc. — All rights reserved ノートブック お気に入り セル番号: セルタイトル 言語 削除 アシスタント フォーカスモード セルメニュー セルの並び替え セルの折り畳み セルの実行 実行メニュー

Slide 15

Slide 15 text

©2024 Databricks Inc. — All rights reserved お気に入り 後からクイックにアクセスできるようになります Best Practice お気に入りはノートブック以外のフォルダ、データベー ス、テーブル、モデルなどでも設定できます。

Slide 16

Slide 16 text

©2024 Databricks Inc. — All rights reserved 並び替え ドラッグ&ドロップでセルの位置を変更できます

Slide 17

Slide 17 text

©2024 Databricks Inc. — All rights reserved 折り畳み マークダウンの見出しに基づいたセクションを折り畳みできます

Slide 18

Slide 18 text

©2024 Databricks Inc. — All rights reserved レイアウト変更 中央揃え・全幅レイアウトを変更できます

Slide 19

Slide 19 text

©2024 Databricks Inc. — All rights reserved フォーカスモード Best Practice 特定のセルにフォーカスできるので、複雑な ロジックに集中したい場合には活用しましょう 特定のセルとのその出力のみを表示します

Slide 20

Slide 20 text

©2024 Databricks Inc. — All rights reserved マークダウン Best Practice セルの先頭に%mdを記述、あるいは言語 セレクターでマークダウンを記述できます。 他の方がロジックを理解できる様に説明文を記載します

Slide 21

Slide 21 text

©2024 Databricks Inc. — All rights reserved 目次 マークダウンの見出しに基づいた目次が生成されます

Slide 22

Slide 22 text

©2024 Databricks Inc. — All rights reserved セルタイトル Best Practice セルタイトルの隣のアシスタントボタンでタイトルを自動 生成できます。

Slide 23

Slide 23 text

©2024 Databricks Inc. — All rights reserved セルメニュー

Slide 24

Slide 24 text

©2024 Databricks Inc. — All rights reserved 実行メニュー

Slide 25

Slide 25 text

©2024 Databricks Inc. — All rights reserved バージョン管理 過去のバージョンに遡ることができます

Slide 26

Slide 26 text

©2024 Databricks Inc. — All rights reserved ワークスペースエクスプローラ 他のノートブックやファイルにクイックにアクセスできます

Slide 27

Slide 27 text

©2024 Databricks Inc. — All rights reserved カタログエクスプローラ データベースやテーブルにクイックにアクセスできます

Slide 28

Slide 28 text

©2024 Databricks Inc. — All rights reserved AIアシスタント コーディングの手助けをしてくれます

Slide 29

Slide 29 text

©2024 Databricks Inc. — All rights reserved 変数エクスプローラ 定義済みの変数を確認できます。目のマークをクリックするとデータを確認できま す。

Slide 30

Slide 30 text

©2024 Databricks Inc. — All rights reserved コードのフォーマット Python/SQLのフォーマットを整形することができます

Slide 31

Slide 31 text

©2024 Databricks Inc. — All rights reserved 可視化 データフレームにdisplay()を適用しましょう

Slide 32

Slide 32 text

©2024 Databricks Inc. — All rights reserved MLflowによる機械学習モデルの管理 32

Slide 33

Slide 33 text

©2024 Databricks Inc. — All rights reserved Databricksにおける機械学習 MLライフサイクル全体に対するデータネイティブ、コラボレーティブなソリューション によるオープンなデータレイクハウス基盤 MLOps / ガバナンス データ準備 データの バージョン管理 モニタリング バッチスコアリン グ オンライン サービング モデル トレーニング モデル チューニング ランタイム環境 Feature Store バッチ (高スループット) リアルタイム (低レーテン シー) AutoML データサイエンスワークスペース

Slide 34

Slide 34 text

©2024 Databricks Inc. — All rights reserved モデル トラッキング フレーバー2 フレーバー 1 カスタム モデル インラインコード コンテナ バッチ&ストリーミン グスコアリング クラウド推論サー ビス OSSサービングソ リューション Serving Parameters Metrics Artifacts Models Metadata デプロイメント オプション ステージング プロダクション アーカイブ データ サイエンティスト デプロイメント エンジニア v2 v3 v1 モデルレジストリ MLflow

Slide 35

Slide 35 text

©2024 Databricks Inc. — All rights reserved エンドツーエンドのMLOps / ガバナンス データサイエンスワークスペース データ投入 データ バージョン管理 モデル トレーニング モデル チューニング ランタイム環境 モニタリング バッチ スコアリング オンラインサー ビング データガバナンス エクスペリメントのト ラッキング 再現性の確保 モデルガバナンス Powered by

Slide 36

Slide 36 text

©2024 Databricks Inc. — All rights reserved Powered by データガバナンス エクスペリメントのト ラッキング 再現性の確保 モデルガバナンス パラメーター メトリクス モデル アーティファクト MLメトリクス、パラメーター、 アーティファクトなどの自動キャプチャ

Slide 37

Slide 37 text

©2024 Databricks Inc. — All rights reserved 生成AIを活用した機能 37

Slide 38

Slide 38 text

ノートブック、 SQLエディタ、 ファイルエディタにネイティブで 組み込まれた、あなたのデータの文 脈を理解する AIアシスタント コードやクエリーの生成、オートコンプリート 問題の説明や修正 Unity Catalogと連携することで、 あなたのデータ資産の文脈に適した結果を提示 38 Databricksアシスタント

Slide 39

Slide 39 text

©2022 Databricks Inc. — All rights reserved AI/BIダッシュボード • 最終的にはDBSQL(とノートブック)のダッシュボードを置き換える次世代ダッシュ ボード • 現時点ではDQSQLダッシュボードと並行稼働していますが、最終的には来年 以降にDBSQLダッシュボードを廃止します • ノートブックダッシュボードの置き換えはそれよりも少し後になります • キーとなる違い • 整理されたコンテンツモデル • モダンなビジュアライゼーションライブラリ & 設定体験 • 組織内 / ワークスペース外に配布する機能 • 検索、リネージ & アシスタントとのインテグレーション

Slide 40

Slide 40 text

©2022 Databricks Inc. — All rights reserved 40

Slide 41

Slide 41 text

©2024 Databricks Inc. — All rights reserved AI/BI Genie 41 • ビジネスユーザー向けの自然言語に よるAI支援検索 • AIが生成する検索提案、パーソナライズさ れた回答 • ボタンのクリックでデータをチャート可視化 • DatabricksのSQLウェアハウスが アクセスするデータ で強化 • プライベートプレビュー中

Slide 42

Slide 42 text

©2024 Databricks Inc. — All rights reserved ハンズオン Databricksアシスタントの活用 42

Slide 43

Slide 43 text

最新機能を利用できるように設定を行います。ワークスペース右上の ユーザーアイコンをクリックし、設定を選択します。 43 事前準備

Slide 44

Slide 44 text

ユーザー > 開発者の新しい AssistantのUIをオンにします。 44 事前準備

Slide 45

Slide 45 text

アシスタントにアクセスするにはアイコン をクリックします。 45 Databricksアシスタントへのアクセス

Slide 46

Slide 46 text

アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらはワークスペースで動作します。 46 Databricksアシスタントへのアクセス

Slide 47

Slide 47 text

アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらはワークスペースで動作します。 47 Databricksアシスタントへのアクセス

Slide 48

Slide 48 text

アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらはワークスペースで動作します。 48 Databricksアシスタントへのアクセス

Slide 49

Slide 49 text

アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらはワークスペースで動作します。 49 Databricksアシスタントへのアクセス

Slide 50

Slide 50 text

アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらは当該セルを対象に動作します。 50 Databricksアシスタントへのアクセス

Slide 51

Slide 51 text

アシスタントはワークスペース全体で動作するものとノートブックセルを 対象にするものがあります。こちらは当該セルを対象に動作します。 51 Databricksアシスタントへのアクセス

Slide 52

Slide 52 text

日本語でアシスタントに問い合わせます。 52 Databricksアシスタントへ問い合わせ

Slide 53

Slide 53 text

アシスタントで以下の問い合わせを行いましょう。ノートブックを作成し、稼働し ているクラスターにアタッチしてください。 53 Databricksアシスタントへ問い合わせ こちらが我々のデータセットの Titleカラムの例です : 1. The Shawshank Redemption (1994) タイトル 名は数とカッコの間です。公開日はカッコの間です。 公開日とタイトル名を抽出する関数を書いてくださ い。

Slide 54

Slide 54 text

コードが表示される場合には、ショートカットボタンが表示されます。 54 Databricksアシスタントへ問い合わせ 差分表示 コードの実行 選択しているセルに コードを挿入 コードをコピー

Slide 55

Slide 55 text

すでにコードが入力されている場合には、文脈を解して回答します。 55 Databricksアシスタントへ問い合わせ PySpark DataFrameをPandas DataFrameに変換し、 fare_amount列に基づいて dfから最も高価な 10件 のトリップを選択するための Pandasコードを生成してください。

Slide 56

Slide 56 text

ノートブックのセルに以下を記入し、セルが選択されている状態にします。 56 Databricksアシスタントへ問い合わせ セルが選択されている状態でアシスタントに以下の問い合わせを行います。 import pandas as pd # テーブル "samples.nyctaxi.trips" からデータを読み込む df = spark.read.table("samples.nyctaxi.trips") PySpark DataFrameをPandas DataFrameに変換し、 fare_amount列に基づ いてdfから最も高価な 10件のトリップを選択して表示するための Pandasコードを生 成してください。

Slide 57

Slide 57 text

エラーが発生した際には、診断エラー ボタンが表示されます。 57 アシスタントにエラーを修正させる

Slide 58

Slide 58 text

以下のセルを実行してエラーを起こし、アシスタントに助けてもらいましょう。 58 アシスタントにエラーを修正させる string[::-1]

Slide 59

Slide 59 text

コードを説明して とお願いします。 59 アシスタントにコードを説明させる

Slide 60

Slide 60 text

● できるだけ具体的に指示してください。 テーブルを指定し、データが どのようなものであるかを示す例を提供してください。 ● Databricks アシスタントは、テーブルと列のスキーマとメタデータを 認識します。 これにより、自然言語を使用して非常に正確なクエリーを生成す ることができます。たとえば、テーブルに列 userID と State がある場合、 Databricks アシスタントにワシントンに住むユーザーの リストを生成するよう依頼できます。 ● Databricks アシスタントはテーブルと列のメタデータにのみアクセスでき、 行レベルのデータにはアクセスできません。 そのため、実際の データがユニークな形式をしている場合、クエリーを正しく記述できない場合 があります。 ● Databricks アシスタントは会話の履歴を考慮するため、会話を進めながら質 問を改善していくことができます。 60 アシスタントに問い合わせる際の注意点 https://docs.databricks.com/ja/notebooks/databricks-assistant-faq.html

Slide 61

Slide 61 text

©2024 Databricks Inc. — All rights reserved ハンズオン 機械学習モデルのトレーニング 61

Slide 62

Slide 62 text

サイドメニューのワークスペース にアクセスし、画面右上の3点リーダー をクリック し、インポート を選択します。 62 ノートブックのインポート

Slide 63

Slide 63 text

URLを選択し、URLのボックスに以下のURLを貼り付けます。 63 ノートブックのインポート https://sajpstorage.blob.core.windows.net/yayoi/20240611_handson/Databricks%E3%81%AB%E3%81%8A %E3%81%91%E3%82%8B%E3%82%A8%E3%83%B3%E3%83%88%E3%82%99%E3%83%84%E3%83%BC%E3 %82%A8%E3%83%B3%E3%83%88%E3%82%99%E3%81%AE%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%B F%92.html

Slide 64

Slide 64 text

■ サイドメニューからクラスター を選 択します クラスターの作成

Slide 65

Slide 65 text

■ Personal Computeで作成をク リックします クラスターの作成

Slide 66

Slide 66 text

■ コンピューティングを作成 をクリッ クします ■ クラスターの起動には5分程度要し ますのでお待ちください。 クラスターの作成

Slide 67

Slide 67 text

■ クラスター名の右のインジケータが になれば、起動が完了したことにな ります。 クラスターの作成

Slide 68

Slide 68 text

■ ノートブックを開き、右上の 接続をクリックします ノートブックをクラスターにアタッチ

Slide 69

Slide 69 text

■ 先ほど起動したクラスターを選択し ます ノートブックをクラスターにアタッチ

Slide 70

Slide 70 text

■ これでハンズオンの準備が整いま した! ノートブックをクラスターにアタッチ

Slide 71

Slide 71 text

©2024 Databricks Inc. — All rights reserved ハンズオン AI/BI Genieスペース 71 Databricks AI/BIのウォークスルー AI/BI Genieのウォークスルー

Slide 72

Slide 72 text

サイドメニューのGenieをクリックします。 72 事前準備

Slide 73

Slide 73 text

Newをクリックします。 73 事前準備

Slide 74

Slide 74 text

Titleにはご自身の名前を含むデータルームの名称、Default warehouseでは ウェアハウスguest_warehouseを選択します。 74 事前準備

Slide 75

Slide 75 text

Add tablesをクリックし、Catalogで対象カタログ、Schemaでdefault、一覧表示 されるテーブルから対象テーブルを選択します。選択したら右上の✖をクリックし ます。 75 事前準備

Slide 76

Slide 76 text

Saveをクリックします。 76 事前準備

Slide 77

Slide 77 text

これで準備が整ったので日本語で問い合わせてみましょう! 77 事前準備

Slide 78

Slide 78 text

これで準備が整ったので日本語で問い合わせてみましょう! 78 事前準備

Slide 79

Slide 79 text

©2024 Databricks Inc. — All rights reserved ハンズオン AI/BIダッシュボード 79 Databricks AI/BIのウォークスルー AI/BI Genieのウォークスルー

Slide 80

Slide 80 text

サイドメニューのダッシュボード をクリックします。 80 事前準備

Slide 81

Slide 81 text

ダッシュボードを作成 をクリックします。 81 事前準備

Slide 82

Slide 82 text

ダッシュボード作成画面が表示されます。データタブをクリックします。 82 事前準備

Slide 83

Slide 83 text

テーブルを選択 をクリックします。 83 事前準備

Slide 84

Slide 84 text

Add tablesをクリックし、Catalogで対象カタログ、Schemaでdefault、一覧表示 されるテーブルから対象テーブルをクリックします。 84 事前準備

Slide 85

Slide 85 text

テーブルの中身が表示されます。Canvasタブをクリックします。 85 事前準備

Slide 86

Slide 86 text

これでダッシュボードを作成する準備が整ったので作成していきましょう。 86 事前準備

Slide 87

Slide 87 text

参考資料 ● Databricksノートブックでコードを開発する | Databricks on AWS ● Databricksベストプラクティス:ノートブックのモジュール化 ● Databricksにおける機械学習モデル構築のエンドツーエンドのサンプル ● Databricksアシスタントの新機能を試す ● AI/BIの発表:リアルデータに基づくインテリジェント解析の時代へ! | Databricks Blog ● Databricks AI/BIのウォークスルー ● AI/BI Genieのウォークスルー ● Databricksのインタラクティブデバッガー ● プロの様にDatabricksをナビゲートする

Slide 88

Slide 88 text

©2024 Databricks Inc. — All rights reserved