$30 off During Our Annual Pro Sale. View Details »

Databricksハッカソン(Genie/AutoML)

 Databricksハッカソン(Genie/AutoML)

Databricksハッカソンの資料です。

チームを編成いただき、GenieやAutoMLを用いて課題解決に取り組んでいただきます。

Takaaki Yayoi

August 21, 2024
Tweet

More Decks by Takaaki Yayoi

Other Decks in Technology

Transcript

  1. ©2024 Databricks Inc. — All rights reserved ハッカソンの目的 チャレンジをクリアすることでDatabricksへの理解を深めていただきます 1.

    御社のデータ を対象に、Databricks AI/BIを通じた分析を行うことで、 ビジネス洞察 を抽出する。 2. 需要予測の実践 を通じて、需要予測とは何か、何に注意すべきかを理解 いただく。 • 決められた数名のチームに分かれて、チームで協力してチャレンジ を 順にクリアしていきます。 • 各チームにはメンターが居ますので各種サポートをしてくれます。
  2. ©2024 Databricks Inc. — All rights reserved スケジュール # 時間枠

    時間枠 アジェンダ 1 13:30-13:40 10分 開会のご挨拶 2 13:40-13:45 5分 Databricksご紹介 3 13:45-13:50 5分 ◦◦様ご挨拶 4 13:50-14:50 60分 ハッカソン - 座学 5 14:50-15:00 10分 休憩 6 15:10-16:10 60分 ハッカソン - Databricks AI/BI 7 16:10-17:10 60分 ハッカソン - 需要予測 8 17:10-17:25 15分 各チーム発表 9 17:25-17:30 5分 クロージング 10 19:00- 懇親会
  3. ©2024 Databricks Inc. — All rights reserved ハッカソンの準備 • 事前に準備してあるノートブック「Databricksにおける需要予測」をSharedフォ

    ルダからご自身のホームディレクトリにクローンします。 • 今回のハッカソンでは以下の計算資源を使用します。 ◦ サーバレスSQLウェアハウス ◦ Personal Computeで作成したMLランタイムクラスター
  4. ©2024 Databricks Inc. — All rights reserved ハッカソンの進め方 • チーム内で分担(コードを書いて実行する人/アドバイスする人/調査する人)を決

    めるとスムーズに進みます。ずっと同じ担当ですと疲れるので、タイミングを見計 らって交代することをお勧めします。 • クラスターは事務局によって作成済みのものがあるのでそちらを使ってくださ い。 • ノートブックの随所に    がありますのでチャレンジしてください。 ハッカソンではチームで取り組むことが重要です。
  5. ©2024 Databricks Inc. — All rights reserved Databricks AI/BI 現実世界のデータに対するイ

    ンテリジェントな分析 ダッシュ ボード Genie Unity Catalogによる管理と保護 Generally Available Public Preview
  6. ©2024 Databricks Inc. — All rights reserved AI/BI Genieのご紹介 自然言語による分析

    直接的なガイド /コントロール 時間と共に学習
  7. ©2024 Databricks Inc. — All rights reserved AI/BI Genieのご紹介 GENIE

    Query Agent Query Agent AIエージェント セマンティック の理解 1. やりとりを通じてあなたの データとセマンティクス(意味) を継続的に学習 2. ガイドや管理に対する コントロールを提供 3. ビジネスユーザーにとって 簡単でセキュアに
  8. ©2024 Databricks Inc. — All rights reserved AI/BI Genieの基礎 データチームがトピック固有

    の Genieスペースをセットアップ ビジネスユーザーは全く新しい データの質問 に対する回答を取得 できます データインテリジェンスプラット フォームを活用することで、 Genieは時間と共に学習します
  9. ©2024 Databricks Inc. — All rights reserved AI/BI Genieのセットアップ トピックとデータへの

    フォーカス 指示の追加 精度の検証 • それぞれのGenieスペース は トピック固有であるべきで す • 適切に文書化され、 クリーンなUnity Catalog のテーブルとメタデータを 取り込みます • 作成者はGenieをガイド、 教育することができます • 一般的な指示とサンプルの SQL文 • 作成者や信頼できる ビジネスユーザーは期待さ れる回答をテストすること ができます • 指示に対して必要な改善を 行います
  10. ©2024 Databricks Inc. — All rights reserved トピックとデータへのフォーカス • Genieはいかなるタイプのデータ

    トピックで動作します • フォーカスしたテーブルセット を 持ち込みます • Unity Catalogのテーブルやビューは 適切に文書化されている必要があります • おすすめ: 余計なカラムを除外し、 データを綺麗にするためにビューを作成 します
  11. ©2024 Databricks Inc. — All rights reserved 一般的な指示 • データチームが直接的なガイド

    を提供できるように支援 • ユニークな専門用語、ロジッ ク、 コンセプト、KPIなどを定義 • 時間経過と共に指示を見直しま しょう あなたは日本における [データの名称]に関する 日本人のエキスパートです。与えられた質問に 対して英語を使わずに日本語で回答します。 お勧めの指示
  12. ©2024 Databricks Inc. — All rights reserved サンプルのSQL文 • サンプルのSQL文はモデルに対して

    特定の質問に回答すべきかを直接 教育します • 検証したSQL文を“指示として保存” することで、Genieが今後の質問に 適応するようになります
  13. ©2024 Databricks Inc. — All rights reserved Genieによるフォローアップ • 質問が明確でない場合、Genieは

    フォローアップや明確化の質問を行う ように設計されています • 今後の質問に対応できるようにユーザー はGenieの新たなセマンティックの知識 を追加、保存することができます
  14. ©2024 Databricks Inc. — All rights reserved AI/BIダッシュボード 24 シンプルで美麗

    UXシンプルなコンテンツモデル、改善された ビジュアライゼーション、AI拡張UX 配布に最適化 ビジネスユーザーやグループへの公開、共有 埋め込み プラットフォームへのインテグレーション AI functions Unity Catalogによるデータセット検索とリネージ
  15. ©2024 Databricks Inc. — All rights reserved 25 Databricksとの完全な連携 統合が提供するシンプルさ

    スタートがシンプル - 作成やデプロイに追加のソフトウェアが不要 - 接続文字列の設定が不要 - SQL不要 - 事前のモデリングが不要 繰り返しがシンプル - 維持すべき独立したセマンティックレイヤーなし - 前段の変更を容易に吸収し、新規データを発見 できるようにUCと連携 スケールがシンプル - 管理すべき抽出処理が不要 (“シャドウ”ウェアハウス不要) - データサイズの制限なし - スケールすべき別のBIサーバが不要 配布がシンプル - 広範な利用者に容易に公開 - 同じワークスペースで共有 - サービスアカウントとして実行し、 IDP内で 共有することによるワークスペースを越えた共有
  16. ©2024 Databricks Inc. — All rights reserved 需要予測 GPT-3.5に聞きました:需要予測を簡単に教えてください 需要予測は、将来の商品やサービスの需要を予測することです。ビジネスや組織が効率的な在庫管理や生産計画を立てるために活用され

    ます。 1. データ収集 : 過去の売上データや需要データを収集します。このデータは、商品やサービスの販売数量や需要量、時期ごとの パターンなどを含みます。 2. データの分析 : 収集したデータを分析し、トレンドや季節性、特定の影響因子(例えばマーケティングキャンペーン、経済指標の変化な ど)を特定します。これにより、将来の需要に影響を与える要因を理解します。 3. 予測モデルの選択 : 分析結果を基に、適切な予測モデルを選択します。代表的なモデルには、移動平均法、時系列分析 (ARIMAモデル)、機械学習モデル(ランダムフォレスト、ニューラルネットワークなど)があります。 4. モデルの構築 : 選択したモデルを使って、将来の需要を予測します。モデルの構築には、データのトレーニング (過去のデータを使ってモデルを学習させる)とテスト(予測精度を評価する)が含まれます。 5. 予測の精度評価 : 予測結果の精度を評価し、必要に応じてモデルを調整します。これにより、より正確な予測結果を得ることができま す。 6. 予測結果の活用 : 最終的な予測結果を基に、在庫管理や生産計画、マーケティング戦略などの意思決定を行います。
  17. ©2024 Databricks Inc. — All rights reserved 需要予測 GPT-4oに聞きました:需要予測を図を用いて説明してください このグラフは、過去の売上データと移動平均を用いた

    需要予測の例を示しています。 • 青い線は、実際の売上データを示しています。 各点は特定の日の売上数量です。 • オレンジ色の点線 は、7日間の移動平均を 示しています。この線はデータのノイズを平滑化し、ト レンドを見やすくしています。 • 緑の線は、将来の売上を予測した結果を示して います。予測期間は 30日間で、実際のデータ と異なる色で示されています。 グラフの中央にある 灰色の縦線 は、過去のデータと予測 データの境界を示しています。この縦線の右側が予測 期間です。 このように、過去の売上データを分析し、移動平均を 用いて将来の需要を予測することで、在庫管理や生産 計画を効率的に行うことができます。
  18. ©2024 Databricks Inc. — All rights reserved Databricksにおける需要予測のアプローチ データの分析 モデルの選択

    構築 精度評価 • Databricks AI/BIによるデータ分析 • Databricksノートブックによるデータ分析 • Databricksノートブックによるモデル構築 • Databricks AutoMLによるモデル構築 • Databricksノートブックによる精度評価 • Databricks AutoMLによる精度評価
  19. ©2024 Databricks Inc. — All rights reserved AutoMLとは? Automated machine

    learning (AutoML)は、機械学習を「民主化」するために完全に自動化されたモ デル開発ソリューションです。自動化のスコープに違いはありますが、通常AutoML技術はデータからモデ ル選択までのMLプロセスを自動化します。 データセットの選 択 自動化されたデー タ準備 自動化された特徴量 エンジニアリング、特 徴量選択 自動化された トレーニング、 モデル選択 自動化された ハイパーパラメータ チューニング
  20. ©2024 Databricks Inc. — All rights reserved AutoMLはデータサイエンティストの 2つのペインポイントを解決します データセットのもたらす予測能力を

    クイックに検証する “このデータセットは顧客解約予測に 使えるのか?” マーケティング チーム データ サイエンス チーム データセッ ト データ サイエンス チーム ベースラインモ デル データセッ ト “このMLプロジェクトはどの方向に 進むべきか、目指すべき ベンチマークは何か?” プロジェクトの方向性をガイドするためのベー スラインモデルを取得する
  21. ©2024 Databricks Inc. — All rights reserved 既存のAutoMLソリューションの問題 AutoMLにおける不透明なボックス・製品化の壁問題 問題

    結果 / ペインポイント 1. 生成された”ベスト”モデルをデプロイの前にドメイン知識に基づ いて変更する“製品化の壁”が存在します。 2. 規制対応(FDA、GDPRなど)のためにデータサイエンティストはト レーニングされたモデルを説明できる必要がありますが、多くの AutoMLソリューションは”不透明な箱”モデルとなっています。 • 生成される”ベスト”モデルがデプロイには不十分なケースが 多くあります。 • モデルを変更、説明できるようにするために、生成された ”不 透明な箱”をリバースエンジニアリングする労力を費やさなく てはなりません。 AutoML設定 ベストモデル AutoML トレーニング “不透明な箱” ? デプロイ されたモデル 製品化の壁 ?
  22. ©2024 Databricks Inc. — All rights reserved Databricks AutoML 管理権限を損なわずにデータチームを強化するガラスボックスソリューション

    AutoMLトレーニングを スタートするためのUIと API データ探索ノートブック 特徴量のサマリー統計情報、分布を 示すノートブックを生成 再現可能なトライアルノートブック 全てのモデルに対応するソースコードを含 むノートブックを生成 MLflow エクスペリメント モデルとメトリクスを追跡するために 自動生成されるMLflowエクスペリメン ト モデルレジストリへの デプロイが容易 データ品質、前処理 の理解、デバッグ AutoMLのモデルに 専門知識を埋め込み 精度を改善
  23. ©2024 Databricks Inc. — All rights reserved Databricks AutoML •

    クラスター : ご自身のクラスターを選択 • 機械学習の問題のタイプ : 回帰、分類、予測か ら選択 • 入力学習用データセット : トレーニングに 使用するDeltaテーブルを選択 • 予測の場合 ◦ 予測ターゲット : 予測する値を格納する列を 選択 ◦ 時間列: 日時を格納する列を選択 ◦ 予測期間と頻度 : どれだけ先の期間を予測 するのかを指定 ◦ 出力用データベース : 予測結果テーブルを 格納するデータベースを指定
  24. ©2024 Databricks Inc. — All rights reserved Databricks AutoML •

    クラスター : ご自身のクラスターを選択 • 機械学習の問題のタイプ : 回帰、分類、予測か ら選択 • 入力学習用データセット : トレーニングに 使用するDeltaテーブルを選択 • 予測の場合 ◦ 予測ターゲット : 予測する値を格納する列を 選択 ◦ 時間列: 日時を格納する列を選択 ◦ 予測期間と頻度 : どれだけ先の期間を予測 するのかを指定 ◦ 出力用データベース : 予測結果テーブルを 格納するデータベースを指定
  25. ©2024 Databricks Inc. — All rights reserved ハッカソン - Databricks

    AI/BI 準備されているデータを対象に以下の分析を行いましょう。 1. AI/BI Genieによるデータ分析 ◦ Genieスペースを作成する ◦ 必要な設定を行う(指示、サンプル質問など) ◦ チームメンバーに共有する ◦ 議論しながらGenieに問い合わせを行いデータへの理解を深める 2. AI/BI Dashboardによるデータの可視化 ◦ ダッシュボードを作成する ◦ 日本語で可視化の指示を行う ◦ 必要に応じて手動で調整する ◦ ダッシュボードから得られるパターンについて議論する ◦ 必要に応じてGenieに戻り問い合わせを行う
  26. ©2024 Databricks Inc. — All rights reserved ハッカソン - Databricks

    AI/BI 使用するテーブルは以下の2つとなります。 • hands_on_202406.hackathon.covid_cases: 日本におけるCOVID-19の感染者数 • hands_on_202406.hackathon.covid_deaths: 日本におけるCOVID-19の死者数
  27. ©2024 Databricks Inc. — All rights reserved ハッカソン - 需要予測

    準備されているデータを対象に以下の分析を行いましょう。 1. ノートブックでのデータ分析 2. AI/BI Genieによるデータ分析 ◦ 前半で習熟したGenieを活用したデータの理解 3. Databricks AutoMLによる需要予測 ◦ AutoMLを実践する ◦ AutoMLによって得られた結果について議論する
  28. ©2024 Databricks Inc. — All rights reserved コラボレーションのTips • 各人のホームディレクトリにクローンされたノートブックは、デフォルトでは本人し

    かアクセスできません。 • しかし、チームで作業したい、デバッグをお願いしたいなど他の方にノートブック を見てもらいたいケースが存在します。 • Databricks上のアセットは共有可能となっています。その際には、適切な権限 設定が必要です。
  29. • できるだけ具体的に指示してください。 テーブルを指定し、データがどのよう なものであるかを示す例を提供してください。 • Databricks アシスタントは、テーブルと列のスキーマとメタデータを認識しま す。これにより、自然言語を使用して非常に正確なクエリーを生成することが できます。たとえば、テーブルに列 userID

    と State がある場合、Databricks アシスタントにワシントンに住むユーザーのリストを生成するよう依頼できま す。 • Databricks アシスタントはテーブルと列のメタデータにのみアクセスでき、 行レベルのデータにはアクセスできません。 そのため、実際のデータがユ ニークな形式をしている場合、クエリーを正しく記述できない場合があります。 • Databricks アシスタントは会話の履歴を考慮するため、会話を進めながら質 問を改善していくことができます。 64 アシスタントに問い合わせる際の注意点 https://docs.databricks.com/ja/notebooks/databricks-assistant-faq.html