Slide 1

Slide 1 text

Databricks Data Day Databricksを通じた課題解決 2024/7/5 13:30 - 17:30 ○○○○株式会社 様

Slide 2

Slide 2 text

アジェンダ ● ハッカソンの目的 ● メンターの紹介 ● スケジュール ● ハッカソンの準備 ● チャレンジ ● クロージング

Slide 3

Slide 3 text

©2024 Databricks Inc. — All rights reserved ハッカソンの目的 チャレンジをクリアすることでDatabricksへの理解を深めていただきます 1. 御社のデータ を対象に、Databricks AI/BIを通じた分析を行うことで、 ビジネス洞察 を抽出する。 2. 需要予測の実践 を通じて、需要予測とは何か、何に注意すべきかを理解 いただく。 ● 決められた数名のチームに分かれて、チームで協力してチャレンジ を 順にクリアしていきます。 ● 各チームにはメンターが居ますので各種サポートをしてくれます。

Slide 4

Slide 4 text

©2024 Databricks Inc. — All rights reserved スケジュール # 時間枠 時間枠 アジェンダ 1 13:30-13:40 10分 開会のご挨拶 2 13:40-13:45 5分 Databricksご紹介 3 13:45-13:50 5分 ○○様ご挨拶 4 13:50-14:50 60分 ハッカソン - 座学 5 14:50-15:00 10分 休憩 6 15:10-16:10 60分 ハッカソン - Databricks AI/BI 7 16:10-17:10 60分 ハッカソン - 需要予測 8 17:10-17:25 15分 各チーム発表 9 17:25-17:30 5分 クロージング 10 19:00- 懇親会

Slide 5

Slide 5 text

©2024 Databricks Inc. — All rights reserved ハッカソンの準備 ● GUIが英語の場合、日本語に変更してください。

Slide 6

Slide 6 text

©2024 Databricks Inc. — All rights reserved ハッカソンの準備 ● 事前に準備してあるノートブック「Databricksにおける需要予測」をSharedフォ ルダからご自身のホームディレクトリにクローンします。 ● 今回のハッカソンでは以下の計算資源を使用します。 ○ サーバレスSQLウェアハウス ○ Personal Computeで作成したMLランタイムクラスター

Slide 7

Slide 7 text

©2024 Databricks Inc. — All rights reserved ハッカソンの進め方 ● チーム内で分担(コードを書いて実行する人/アドバイスする人/調査する人)を決 めるとスムーズに進みます。ずっと同じ担当ですと疲れるので、タイミングを見計 らって交代することをお勧めします。 ● クラスターは事務局によって作成済みのものがあるのでそちらを使ってくださ い。 ● ノートブックの随所に    がありますのでチャレンジしてください。 ハッカソンではチームで取り組むことが重要です。

Slide 8

Slide 8 text

©2024 Databricks Inc. — All rights reserved 座学 - Databricks AI/BI

Slide 9

Slide 9 text

©2024 Databricks Inc. — All rights reserved Databricks AI/BI 現実世界のデータに対するイ ンテリジェントな分析 ダッシュ ボード Genie Unity Catalogによる管理と保護 Generally Available Public Preview

Slide 10

Slide 10 text

©2024 Databricks Inc. — All rights reserved AI/BI Genieのご紹介 自然言語による分析 直接的なガイド /コントロール 時間と共に学習

Slide 11

Slide 11 text

©2024 Databricks Inc. — All rights reserved AI/BI Genieのご紹介 GENIE Query Agent Query Agent AIエージェント セマンティック の理解 1. やりとりを通じてあなたの データとセマンティクス(意味) を継続的に学習 2. ガイドや管理に対する コントロールを提供 3. ビジネスユーザーにとって 簡単でセキュアに

Slide 12

Slide 12 text

©2024 Databricks Inc. — All rights reserved AI/BI Genieの基礎 データチームがトピック固有 の Genieスペースをセットアップ ビジネスユーザーは全く新しい データの質問 に対する回答を取得 できます データインテリジェンスプラット フォームを活用することで、 Genieは時間と共に学習します

Slide 13

Slide 13 text

©2024 Databricks Inc. — All rights reserved AI/BI Genieのセットアップ トピックとデータへの フォーカス 指示の追加 精度の検証 • それぞれのGenieスペース は トピック固有であるべきで す • 適切に文書化され、 クリーンなUnity Catalog のテーブルとメタデータを 取り込みます • 作成者はGenieをガイド、 教育することができます • 一般的な指示とサンプルの SQL文 • 作成者や信頼できる ビジネスユーザーは期待さ れる回答をテストすること ができます • 指示に対して必要な改善を 行います

Slide 14

Slide 14 text

©2024 Databricks Inc. — All rights reserved トピックとデータへのフォーカス • Genieはいかなるタイプのデータ トピックで動作します • フォーカスしたテーブルセット を 持ち込みます • Unity Catalogのテーブルやビューは 適切に文書化されている必要があります • おすすめ: 余計なカラムを除外し、 データを綺麗にするためにビューを作成 します

Slide 15

Slide 15 text

©2024 Databricks Inc. — All rights reserved 一般的な指示 • データチームが直接的なガイド を提供できるように支援 • ユニークな専門用語、ロジッ ク、 コンセプト、KPIなどを定義 • 時間経過と共に指示を見直しま しょう あなたは日本における [データの名称]に関する 日本人のエキスパートです。与えられた質問に 対して英語を使わずに日本語で回答します。 お勧めの指示

Slide 16

Slide 16 text

©2024 Databricks Inc. — All rights reserved サンプルのSQL文 • サンプルのSQL文はモデルに対して 特定の質問に回答すべきかを直接 教育します • 検証したSQL文を“指示として保存” することで、Genieが今後の質問に 適応するようになります

Slide 17

Slide 17 text

©2024 Databricks Inc. — All rights reserved Genieによるフォローアップ • 質問が明確でない場合、Genieは フォローアップや明確化の質問を行う ように設計されています • 今後の質問に対応できるようにユーザー はGenieの新たなセマンティックの知識 を追加、保存することができます

Slide 18

Slide 18 text

©2024 Databricks Inc. — All rights reserved 画面構成 : チャット

Slide 19

Slide 19 text

©2024 Databricks Inc. — All rights reserved 画面構成 : 指示

Slide 20

Slide 20 text

©2024 Databricks Inc. — All rights reserved 画面構成 : データ

Slide 21

Slide 21 text

©2024 Databricks Inc. — All rights reserved 画面構成 : モニタリング

Slide 22

Slide 22 text

©2024 Databricks Inc. — All rights reserved 画面構成 : 設定

Slide 23

Slide 23 text

©2024 Databricks Inc. — All rights reserved Genieスペースの共有 作成したGenieスペースを他のメンバーに共有して、 全員でトライしましょう! ① ② ③

Slide 24

Slide 24 text

©2024 Databricks Inc. — All rights reserved AI/BIダッシュボード 24 シンプルで美麗 UXシンプルなコンテンツモデル、改善された ビジュアライゼーション、AI拡張UX 配布に最適化 ビジネスユーザーやグループへの公開、共有 埋め込み プラットフォームへのインテグレーション AI functions Unity Catalogによるデータセット検索とリネージ

Slide 25

Slide 25 text

©2024 Databricks Inc. — All rights reserved 25 Databricksとの完全な連携 統合が提供するシンプルさ スタートがシンプル - 作成やデプロイに追加のソフトウェアが不要 - 接続文字列の設定が不要 - SQL不要 - 事前のモデリングが不要 繰り返しがシンプル - 維持すべき独立したセマンティックレイヤーなし - 前段の変更を容易に吸収し、新規データを発見 できるようにUCと連携 スケールがシンプル - 管理すべき抽出処理が不要 (“シャドウ”ウェアハウス不要) - データサイズの制限なし - スケールすべき別のBIサーバが不要 配布がシンプル - 広範な利用者に容易に公開 - 同じワークスペースで共有 - サービスアカウントとして実行し、 IDP内で 共有することによるワークスペースを越えた共有

Slide 26

Slide 26 text

©2024 Databricks Inc. — All rights reserved 26 AI/BIダッシュボード

Slide 27

Slide 27 text

©2024 Databricks Inc. — All rights reserved 27 AI/BIダッシュボード

Slide 28

Slide 28 text

©2024 Databricks Inc. — All rights reserved 28 AI/BIダッシュボード

Slide 29

Slide 29 text

©2024 Databricks Inc. — All rights reserved 29 AI/BIダッシュボード

Slide 30

Slide 30 text

©2024 Databricks Inc. — All rights reserved 30 AI/BIダッシュボード

Slide 31

Slide 31 text

©2024 Databricks Inc. — All rights reserved 31 AI/BIダッシュボード

Slide 32

Slide 32 text

©2024 Databricks Inc. — All rights reserved 32 AI/BIダッシュボード

Slide 33

Slide 33 text

©2024 Databricks Inc. — All rights reserved 座学 - 需要予測

Slide 34

Slide 34 text

©2024 Databricks Inc. — All rights reserved 需要予測 GPT-3.5に聞きました:需要予測を簡単に教えてください 需要予測は、将来の商品やサービスの需要を予測することです。ビジネスや組織が効率的な在庫管理や生産計画を立てるために活用され ます。 1. データ収集 : 過去の売上データや需要データを収集します。このデータは、商品やサービスの販売数量や需要量、時期ごとの パターンなどを含みます。 2. データの分析 : 収集したデータを分析し、トレンドや季節性、特定の影響因子(例えばマーケティングキャンペーン、経済指標の変化な ど)を特定します。これにより、将来の需要に影響を与える要因を理解します。 3. 予測モデルの選択 : 分析結果を基に、適切な予測モデルを選択します。代表的なモデルには、移動平均法、時系列分析 (ARIMAモデル)、機械学習モデル(ランダムフォレスト、ニューラルネットワークなど)があります。 4. モデルの構築 : 選択したモデルを使って、将来の需要を予測します。モデルの構築には、データのトレーニング (過去のデータを使ってモデルを学習させる)とテスト(予測精度を評価する)が含まれます。 5. 予測の精度評価 : 予測結果の精度を評価し、必要に応じてモデルを調整します。これにより、より正確な予測結果を得ることができま す。 6. 予測結果の活用 : 最終的な予測結果を基に、在庫管理や生産計画、マーケティング戦略などの意思決定を行います。

Slide 35

Slide 35 text

©2024 Databricks Inc. — All rights reserved 需要予測 GPT-4oに聞きました:需要予測を図を用いて説明してください このグラフは、過去の売上データと移動平均を用いた 需要予測の例を示しています。 ● 青い線は、実際の売上データを示しています。 各点は特定の日の売上数量です。 ● オレンジ色の点線 は、7日間の移動平均を 示しています。この線はデータのノイズを平滑化し、ト レンドを見やすくしています。 ● 緑の線は、将来の売上を予測した結果を示して います。予測期間は 30日間で、実際のデータ と異なる色で示されています。 グラフの中央にある 灰色の縦線 は、過去のデータと予測 データの境界を示しています。この縦線の右側が予測 期間です。 このように、過去の売上データを分析し、移動平均を 用いて将来の需要を予測することで、在庫管理や生産 計画を効率的に行うことができます。

Slide 36

Slide 36 text

©2024 Databricks Inc. — All rights reserved Databricksにおける需要予測のアプローチ データの分析 モデルの選択 構築 精度評価 ● Databricks AI/BIによるデータ分析 ● Databricksノートブックによるデータ分析 ● Databricksノートブックによるモデル構築 ● Databricks AutoMLによるモデル構築 ● Databricksノートブックによる精度評価 ● Databricks AutoMLによる精度評価

Slide 37

Slide 37 text

©2024 Databricks Inc. — All rights reserved AutoMLとは? Automated machine learning (AutoML)は、機械学習を「民主化」するために完全に自動化されたモ デル開発ソリューションです。自動化のスコープに違いはありますが、通常AutoML技術はデータからモデ ル選択までのMLプロセスを自動化します。 データセットの選 択 自動化されたデー タ準備 自動化された特徴量 エンジニアリング、特 徴量選択 自動化された トレーニング、 モデル選択 自動化された ハイパーパラメータ チューニング

Slide 38

Slide 38 text

©2024 Databricks Inc. — All rights reserved AutoMLはデータサイエンティストの 2つのペインポイントを解決します データセットのもたらす予測能力を クイックに検証する “このデータセットは顧客解約予測に 使えるのか?” マーケティング チーム データ サイエンス チーム データセッ ト データ サイエンス チーム ベースラインモ デル データセッ ト “このMLプロジェクトはどの方向に 進むべきか、目指すべき ベンチマークは何か?” プロジェクトの方向性をガイドするためのベー スラインモデルを取得する

Slide 39

Slide 39 text

©2024 Databricks Inc. — All rights reserved 既存のAutoMLソリューションの問題 AutoMLにおける不透明なボックス・製品化の壁問題 問題 結果 / ペインポイント 1. 生成された”ベスト”モデルをデプロイの前にドメイン知識に基づ いて変更する“製品化の壁”が存在します。 2. 規制対応(FDA、GDPRなど)のためにデータサイエンティストはト レーニングされたモデルを説明できる必要がありますが、多くの AutoMLソリューションは”不透明な箱”モデルとなっています。 ● 生成される”ベスト”モデルがデプロイには不十分なケースが 多くあります。 ● モデルを変更、説明できるようにするために、生成された ”不 透明な箱”をリバースエンジニアリングする労力を費やさなく てはなりません。 AutoML設定 ベストモデル AutoML トレーニング “不透明な箱” ? デプロイ されたモデル 製品化の壁 ?

Slide 40

Slide 40 text

©2024 Databricks Inc. — All rights reserved Databricks AutoML 管理権限を損なわずにデータチームを強化するガラスボックスソリューション AutoMLトレーニングを スタートするためのUIと API データ探索ノートブック 特徴量のサマリー統計情報、分布を 示すノートブックを生成 再現可能なトライアルノートブック 全てのモデルに対応するソースコードを含 むノートブックを生成 MLflow エクスペリメント モデルとメトリクスを追跡するために 自動生成されるMLflowエクスペリメン ト モデルレジストリへの デプロイが容易 データ品質、前処理 の理解、デバッグ AutoMLのモデルに 専門知識を埋め込み 精度を改善

Slide 41

Slide 41 text

©2024 Databricks Inc. — All rights reserved Databricks AutoML

Slide 42

Slide 42 text

©2024 Databricks Inc. — All rights reserved Databricks AutoML ● クラスター : ご自身のクラスターを選択 ● 機械学習の問題のタイプ : 回帰、分類、予測か ら選択 ● 入力学習用データセット : トレーニングに 使用するDeltaテーブルを選択 ● 予測の場合 ○ 予測ターゲット : 予測する値を格納する列を 選択 ○ 時間列: 日時を格納する列を選択 ○ 予測期間と頻度 : どれだけ先の期間を予測 するのかを指定 ○ 出力用データベース : 予測結果テーブルを 格納するデータベースを指定

Slide 43

Slide 43 text

©2024 Databricks Inc. — All rights reserved Databricks AutoML ● クラスター : ご自身のクラスターを選択 ● 機械学習の問題のタイプ : 回帰、分類、予測か ら選択 ● 入力学習用データセット : トレーニングに 使用するDeltaテーブルを選択 ● 予測の場合 ○ 予測ターゲット : 予測する値を格納する列を 選択 ○ 時間列: 日時を格納する列を選択 ○ 予測期間と頻度 : どれだけ先の期間を予測 するのかを指定 ○ 出力用データベース : 予測結果テーブルを 格納するデータベースを指定

Slide 44

Slide 44 text

©2024 Databricks Inc. — All rights reserved Databricks AutoML

Slide 45

Slide 45 text

©2024 Databricks Inc. — All rights reserved Databricks AutoML

Slide 46

Slide 46 text

©2024 Databricks Inc. — All rights reserved ハッカソン - Databricks AI/BI

Slide 47

Slide 47 text

©2024 Databricks Inc. — All rights reserved ハッカソン - Databricks AI/BI 準備されているデータを対象に以下の分析を行いましょう。 1. AI/BI Genieによるデータ分析 ○ Genieスペースを作成する ○ 必要な設定を行う(指示、サンプル質問など) ○ チームメンバーに共有する ○ 議論しながらGenieに問い合わせを行いデータへの理解を深める 2. AI/BI Dashboardによるデータの可視化 ○ ダッシュボードを作成する ○ 日本語で可視化の指示を行う ○ 必要に応じて手動で調整する ○ ダッシュボードから得られるパターンについて議論する ○ 必要に応じてGenieに戻り問い合わせを行う

Slide 48

Slide 48 text

©2024 Databricks Inc. — All rights reserved ハッカソン - Databricks AI/BI 使用するテーブルは以下の2つとなります。 ● hands_on_202406.hackathon.covid_cases: 日本におけるCOVID-19の感染者数 ● hands_on_202406.hackathon.covid_deaths: 日本におけるCOVID-19の死者数

Slide 49

Slide 49 text

©2024 Databricks Inc. — All rights reserved ハッカソン - 需要予測

Slide 50

Slide 50 text

©2024 Databricks Inc. — All rights reserved ハッカソン - 需要予測 準備されているデータを対象に以下の分析を行いましょう。 1. ノートブックでのデータ分析 2. AI/BI Genieによるデータ分析 ○ 前半で習熟したGenieを活用したデータの理解 3. Databricks AutoMLによる需要予測 ○ AutoMLを実践する ○ AutoMLによって得られた結果について議論する

Slide 51

Slide 51 text

©2024 Databricks Inc. — All rights reserved 各チーム発表 感想、得られた洞察

Slide 52

Slide 52 text

©2024 Databricks Inc. — All rights reserved 参考資料

Slide 53

Slide 53 text

©2024 Databricks Inc. — All rights reserved コラボレーションのTips ● 各人のホームディレクトリにクローンされたノートブックは、デフォルトでは本人し かアクセスできません。 ● しかし、チームで作業したい、デバッグをお願いしたいなど他の方にノートブック を見てもらいたいケースが存在します。 ● Databricks上のアセットは共有可能となっています。その際には、適切な権限 設定が必要です。

Slide 54

Slide 54 text

©2024 Databricks Inc. — All rights reserved コラボレーションのTips ● 権限が付与されていれば、コードを編集・実行することができます。 ● さらには、任意のコードブロックにコメントをつけることもできます。

Slide 55

Slide 55 text

ノートブック、 SQLエディタ、 ファイルエディタにネイティブで 組み込まれた、あなたのデータの文 脈を理解する AIアシスタント コードやクエリーの生成、オートコンプリート 問題の説明や修正 Unity Catalogと連携することで、 あなたのデータ資産の文脈に適した結果を提示 55 Databricksアシスタント

Slide 56

Slide 56 text

アシスタントにアクセスするには右側のアイコン をクリックします。 56 Databricksアシスタントへのアクセス

Slide 57

Slide 57 text

あるいは、セル右上の をクリックします。 57 Databricksアシスタントへのアクセス

Slide 58

Slide 58 text

アシスタントにアクセスするには右側のアイコン をクリックします。 58 Databricksアシスタントへのアクセス 表示領域の拡大 チャット履歴のク リア プロンプト

Slide 59

Slide 59 text

日本語でアシスタント問い合わせます。 59 Databricksアシスタントへ問い合わせ

Slide 60

Slide 60 text

コードが表示される場合には、ショートカットボタンが表示されます。 60 Databricksアシスタントへ問い合わせ 差分表示 コードの実行 選択しているセルに コードを挿入 コードをコピー

Slide 61

Slide 61 text

すでにコードが入力されている場合には、文脈を解して回答します。 61 Databricksアシスタントへ問い合わせ PySpark DataFrameをPandas DataFrameに変換し、 fare_amount列に基づいて dfから最も高価な 10件 のトリップを選択するための Pandasコードを生成してください。

Slide 62

Slide 62 text

エラーが発生した際には、診断エラー ボタンが表示されます。 62 アシスタントにエラーを修正させる

Slide 63

Slide 63 text

コードを説明して とお願いします。 63 アシスタントにコードを説明させる

Slide 64

Slide 64 text

● できるだけ具体的に指示してください。 テーブルを指定し、データがどのよう なものであるかを示す例を提供してください。 ● Databricks アシスタントは、テーブルと列のスキーマとメタデータを認識しま す。これにより、自然言語を使用して非常に正確なクエリーを生成することが できます。たとえば、テーブルに列 userID と State がある場合、Databricks アシスタントにワシントンに住むユーザーのリストを生成するよう依頼できま す。 ● Databricks アシスタントはテーブルと列のメタデータにのみアクセスでき、 行レベルのデータにはアクセスできません。 そのため、実際のデータがユ ニークな形式をしている場合、クエリーを正しく記述できない場合があります。 ● Databricks アシスタントは会話の履歴を考慮するため、会話を進めながら質 問を改善していくことができます。 64 アシスタントに問い合わせる際の注意点 https://docs.databricks.com/ja/notebooks/databricks-assistant-faq.html

Slide 65

Slide 65 text

No content