Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Databricksハッカソン(Genie/AutoML)
Search
Takaaki Yayoi
August 21, 2024
Technology
0
76
Databricksハッカソン(Genie/AutoML)
Databricksハッカソンの資料です。
チームを編成いただき、GenieやAutoMLを用いて課題解決に取り組んでいただきます。
Takaaki Yayoi
August 21, 2024
Tweet
Share
More Decks by Takaaki Yayoi
See All by Takaaki Yayoi
DatabricksにおけるLLMOpsのベストプラクティス
taka_aki
4
1.7k
Databricksで構築する初めての複合AIシステム - ML15min
taka_aki
2
1.4k
Databricksワークショップ - 生成AIとDWH
taka_aki
2
4.5k
ハンズオンで学ぶDatabricks
taka_aki
1
78
Databricks勉強会:Databricksの高度な使い方(その2)
taka_aki
0
77
Databricks勉強会:Databricksの高度な使い方(その1)
taka_aki
0
190
Databricks勉強会:Databricksにおけるプログラミング
taka_aki
1
150
コアコンセプトとノートブックサンプルを通じたDatabricksのご紹介
taka_aki
1
88
Databricks勉強会:Databricksのベストプラクティス
taka_aki
1
140
Other Decks in Technology
See All in Technology
マルチプロダクトな開発組織で 「開発生産性」に向き合うために試みたこと / Improving Multi-Product Dev Productivity
sugamasao
1
300
Why App Signing Matters for Your Android Apps - Android Bangkok Conference 2024
akexorcist
0
130
Engineer Career Talk
lycorp_recruit_jp
0
170
Adopting Jetpack Compose in Your Existing Project - GDG DevFest Bangkok 2024
akexorcist
0
110
SSMRunbook作成の勘所_20241120
koichiotomo
2
140
Lambdaと地方とコミュニティ
miu_crescent
2
370
適材適所の技術選定 〜GraphQL・REST API・tRPC〜 / Optimal Technology Selection
kakehashi
1
400
BLADE: An Attempt to Automate Penetration Testing Using Autonomous AI Agents
bbrbbq
0
310
OCI Vault 概要
oracle4engineer
PRO
0
9.7k
信頼性に挑む中で拡張できる・得られる1人のスキルセットとは?
ken5scal
2
530
いざ、BSC討伐の旅
nikinusu
2
780
ドメイン名の終活について - JPAAWG 7th -
mikit
33
20k
Featured
See All Featured
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
25
1.8k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
48k
The MySQL Ecosystem @ GitHub 2015
samlambert
250
12k
GraphQLとの向き合い方2022年版
quramy
43
13k
Mobile First: as difficult as doing things right
swwweet
222
8.9k
Visualization
eitanlees
145
15k
Optimising Largest Contentful Paint
csswizardry
33
2.9k
Designing for Performance
lara
604
68k
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
Rebuilding a faster, lazier Slack
samanthasiow
79
8.7k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
0
91
KATA
mclloyd
29
14k
Transcript
Databricks Data Day Databricksを通じた課題解決 2024/7/5 13:30 - 17:30 ◦◦◦◦株式会社 様
アジェンダ • ハッカソンの目的 • メンターの紹介 • スケジュール • ハッカソンの準備 •
チャレンジ • クロージング
©2024 Databricks Inc. — All rights reserved ハッカソンの目的 チャレンジをクリアすることでDatabricksへの理解を深めていただきます 1.
御社のデータ を対象に、Databricks AI/BIを通じた分析を行うことで、 ビジネス洞察 を抽出する。 2. 需要予測の実践 を通じて、需要予測とは何か、何に注意すべきかを理解 いただく。 • 決められた数名のチームに分かれて、チームで協力してチャレンジ を 順にクリアしていきます。 • 各チームにはメンターが居ますので各種サポートをしてくれます。
©2024 Databricks Inc. — All rights reserved スケジュール # 時間枠
時間枠 アジェンダ 1 13:30-13:40 10分 開会のご挨拶 2 13:40-13:45 5分 Databricksご紹介 3 13:45-13:50 5分 ◦◦様ご挨拶 4 13:50-14:50 60分 ハッカソン - 座学 5 14:50-15:00 10分 休憩 6 15:10-16:10 60分 ハッカソン - Databricks AI/BI 7 16:10-17:10 60分 ハッカソン - 需要予測 8 17:10-17:25 15分 各チーム発表 9 17:25-17:30 5分 クロージング 10 19:00- 懇親会
©2024 Databricks Inc. — All rights reserved ハッカソンの準備 • GUIが英語の場合、日本語に変更してください。
©2024 Databricks Inc. — All rights reserved ハッカソンの準備 • 事前に準備してあるノートブック「Databricksにおける需要予測」をSharedフォ
ルダからご自身のホームディレクトリにクローンします。 • 今回のハッカソンでは以下の計算資源を使用します。 ◦ サーバレスSQLウェアハウス ◦ Personal Computeで作成したMLランタイムクラスター
©2024 Databricks Inc. — All rights reserved ハッカソンの進め方 • チーム内で分担(コードを書いて実行する人/アドバイスする人/調査する人)を決
めるとスムーズに進みます。ずっと同じ担当ですと疲れるので、タイミングを見計 らって交代することをお勧めします。 • クラスターは事務局によって作成済みのものがあるのでそちらを使ってくださ い。 • ノートブックの随所に がありますのでチャレンジしてください。 ハッカソンではチームで取り組むことが重要です。
©2024 Databricks Inc. — All rights reserved 座学 - Databricks
AI/BI
©2024 Databricks Inc. — All rights reserved Databricks AI/BI 現実世界のデータに対するイ
ンテリジェントな分析 ダッシュ ボード Genie Unity Catalogによる管理と保護 Generally Available Public Preview
©2024 Databricks Inc. — All rights reserved AI/BI Genieのご紹介 自然言語による分析
直接的なガイド /コントロール 時間と共に学習
©2024 Databricks Inc. — All rights reserved AI/BI Genieのご紹介 GENIE
Query Agent Query Agent AIエージェント セマンティック の理解 1. やりとりを通じてあなたの データとセマンティクス(意味) を継続的に学習 2. ガイドや管理に対する コントロールを提供 3. ビジネスユーザーにとって 簡単でセキュアに
©2024 Databricks Inc. — All rights reserved AI/BI Genieの基礎 データチームがトピック固有
の Genieスペースをセットアップ ビジネスユーザーは全く新しい データの質問 に対する回答を取得 できます データインテリジェンスプラット フォームを活用することで、 Genieは時間と共に学習します
©2024 Databricks Inc. — All rights reserved AI/BI Genieのセットアップ トピックとデータへの
フォーカス 指示の追加 精度の検証 • それぞれのGenieスペース は トピック固有であるべきで す • 適切に文書化され、 クリーンなUnity Catalog のテーブルとメタデータを 取り込みます • 作成者はGenieをガイド、 教育することができます • 一般的な指示とサンプルの SQL文 • 作成者や信頼できる ビジネスユーザーは期待さ れる回答をテストすること ができます • 指示に対して必要な改善を 行います
©2024 Databricks Inc. — All rights reserved トピックとデータへのフォーカス • Genieはいかなるタイプのデータ
トピックで動作します • フォーカスしたテーブルセット を 持ち込みます • Unity Catalogのテーブルやビューは 適切に文書化されている必要があります • おすすめ: 余計なカラムを除外し、 データを綺麗にするためにビューを作成 します
©2024 Databricks Inc. — All rights reserved 一般的な指示 • データチームが直接的なガイド
を提供できるように支援 • ユニークな専門用語、ロジッ ク、 コンセプト、KPIなどを定義 • 時間経過と共に指示を見直しま しょう あなたは日本における [データの名称]に関する 日本人のエキスパートです。与えられた質問に 対して英語を使わずに日本語で回答します。 お勧めの指示
©2024 Databricks Inc. — All rights reserved サンプルのSQL文 • サンプルのSQL文はモデルに対して
特定の質問に回答すべきかを直接 教育します • 検証したSQL文を“指示として保存” することで、Genieが今後の質問に 適応するようになります
©2024 Databricks Inc. — All rights reserved Genieによるフォローアップ • 質問が明確でない場合、Genieは
フォローアップや明確化の質問を行う ように設計されています • 今後の質問に対応できるようにユーザー はGenieの新たなセマンティックの知識 を追加、保存することができます
©2024 Databricks Inc. — All rights reserved 画面構成 : チャット
©2024 Databricks Inc. — All rights reserved 画面構成 : 指示
©2024 Databricks Inc. — All rights reserved 画面構成 : データ
©2024 Databricks Inc. — All rights reserved 画面構成 : モニタリング
©2024 Databricks Inc. — All rights reserved 画面構成 : 設定
©2024 Databricks Inc. — All rights reserved Genieスペースの共有 作成したGenieスペースを他のメンバーに共有して、 全員でトライしましょう!
① ② ③
©2024 Databricks Inc. — All rights reserved AI/BIダッシュボード 24 シンプルで美麗
UXシンプルなコンテンツモデル、改善された ビジュアライゼーション、AI拡張UX 配布に最適化 ビジネスユーザーやグループへの公開、共有 埋め込み プラットフォームへのインテグレーション AI functions Unity Catalogによるデータセット検索とリネージ
©2024 Databricks Inc. — All rights reserved 25 Databricksとの完全な連携 統合が提供するシンプルさ
スタートがシンプル - 作成やデプロイに追加のソフトウェアが不要 - 接続文字列の設定が不要 - SQL不要 - 事前のモデリングが不要 繰り返しがシンプル - 維持すべき独立したセマンティックレイヤーなし - 前段の変更を容易に吸収し、新規データを発見 できるようにUCと連携 スケールがシンプル - 管理すべき抽出処理が不要 (“シャドウ”ウェアハウス不要) - データサイズの制限なし - スケールすべき別のBIサーバが不要 配布がシンプル - 広範な利用者に容易に公開 - 同じワークスペースで共有 - サービスアカウントとして実行し、 IDP内で 共有することによるワークスペースを越えた共有
©2024 Databricks Inc. — All rights reserved 26 AI/BIダッシュボード
©2024 Databricks Inc. — All rights reserved 27 AI/BIダッシュボード
©2024 Databricks Inc. — All rights reserved 28 AI/BIダッシュボード
©2024 Databricks Inc. — All rights reserved 29 AI/BIダッシュボード
©2024 Databricks Inc. — All rights reserved 30 AI/BIダッシュボード
©2024 Databricks Inc. — All rights reserved 31 AI/BIダッシュボード
©2024 Databricks Inc. — All rights reserved 32 AI/BIダッシュボード
©2024 Databricks Inc. — All rights reserved 座学 - 需要予測
©2024 Databricks Inc. — All rights reserved 需要予測 GPT-3.5に聞きました:需要予測を簡単に教えてください 需要予測は、将来の商品やサービスの需要を予測することです。ビジネスや組織が効率的な在庫管理や生産計画を立てるために活用され
ます。 1. データ収集 : 過去の売上データや需要データを収集します。このデータは、商品やサービスの販売数量や需要量、時期ごとの パターンなどを含みます。 2. データの分析 : 収集したデータを分析し、トレンドや季節性、特定の影響因子(例えばマーケティングキャンペーン、経済指標の変化な ど)を特定します。これにより、将来の需要に影響を与える要因を理解します。 3. 予測モデルの選択 : 分析結果を基に、適切な予測モデルを選択します。代表的なモデルには、移動平均法、時系列分析 (ARIMAモデル)、機械学習モデル(ランダムフォレスト、ニューラルネットワークなど)があります。 4. モデルの構築 : 選択したモデルを使って、将来の需要を予測します。モデルの構築には、データのトレーニング (過去のデータを使ってモデルを学習させる)とテスト(予測精度を評価する)が含まれます。 5. 予測の精度評価 : 予測結果の精度を評価し、必要に応じてモデルを調整します。これにより、より正確な予測結果を得ることができま す。 6. 予測結果の活用 : 最終的な予測結果を基に、在庫管理や生産計画、マーケティング戦略などの意思決定を行います。
©2024 Databricks Inc. — All rights reserved 需要予測 GPT-4oに聞きました:需要予測を図を用いて説明してください このグラフは、過去の売上データと移動平均を用いた
需要予測の例を示しています。 • 青い線は、実際の売上データを示しています。 各点は特定の日の売上数量です。 • オレンジ色の点線 は、7日間の移動平均を 示しています。この線はデータのノイズを平滑化し、ト レンドを見やすくしています。 • 緑の線は、将来の売上を予測した結果を示して います。予測期間は 30日間で、実際のデータ と異なる色で示されています。 グラフの中央にある 灰色の縦線 は、過去のデータと予測 データの境界を示しています。この縦線の右側が予測 期間です。 このように、過去の売上データを分析し、移動平均を 用いて将来の需要を予測することで、在庫管理や生産 計画を効率的に行うことができます。
©2024 Databricks Inc. — All rights reserved Databricksにおける需要予測のアプローチ データの分析 モデルの選択
構築 精度評価 • Databricks AI/BIによるデータ分析 • Databricksノートブックによるデータ分析 • Databricksノートブックによるモデル構築 • Databricks AutoMLによるモデル構築 • Databricksノートブックによる精度評価 • Databricks AutoMLによる精度評価
©2024 Databricks Inc. — All rights reserved AutoMLとは? Automated machine
learning (AutoML)は、機械学習を「民主化」するために完全に自動化されたモ デル開発ソリューションです。自動化のスコープに違いはありますが、通常AutoML技術はデータからモデ ル選択までのMLプロセスを自動化します。 データセットの選 択 自動化されたデー タ準備 自動化された特徴量 エンジニアリング、特 徴量選択 自動化された トレーニング、 モデル選択 自動化された ハイパーパラメータ チューニング
©2024 Databricks Inc. — All rights reserved AutoMLはデータサイエンティストの 2つのペインポイントを解決します データセットのもたらす予測能力を
クイックに検証する “このデータセットは顧客解約予測に 使えるのか?” マーケティング チーム データ サイエンス チーム データセッ ト データ サイエンス チーム ベースラインモ デル データセッ ト “このMLプロジェクトはどの方向に 進むべきか、目指すべき ベンチマークは何か?” プロジェクトの方向性をガイドするためのベー スラインモデルを取得する
©2024 Databricks Inc. — All rights reserved 既存のAutoMLソリューションの問題 AutoMLにおける不透明なボックス・製品化の壁問題 問題
結果 / ペインポイント 1. 生成された”ベスト”モデルをデプロイの前にドメイン知識に基づ いて変更する“製品化の壁”が存在します。 2. 規制対応(FDA、GDPRなど)のためにデータサイエンティストはト レーニングされたモデルを説明できる必要がありますが、多くの AutoMLソリューションは”不透明な箱”モデルとなっています。 • 生成される”ベスト”モデルがデプロイには不十分なケースが 多くあります。 • モデルを変更、説明できるようにするために、生成された ”不 透明な箱”をリバースエンジニアリングする労力を費やさなく てはなりません。 AutoML設定 ベストモデル AutoML トレーニング “不透明な箱” ? デプロイ されたモデル 製品化の壁 ?
©2024 Databricks Inc. — All rights reserved Databricks AutoML 管理権限を損なわずにデータチームを強化するガラスボックスソリューション
AutoMLトレーニングを スタートするためのUIと API データ探索ノートブック 特徴量のサマリー統計情報、分布を 示すノートブックを生成 再現可能なトライアルノートブック 全てのモデルに対応するソースコードを含 むノートブックを生成 MLflow エクスペリメント モデルとメトリクスを追跡するために 自動生成されるMLflowエクスペリメン ト モデルレジストリへの デプロイが容易 データ品質、前処理 の理解、デバッグ AutoMLのモデルに 専門知識を埋め込み 精度を改善
©2024 Databricks Inc. — All rights reserved Databricks AutoML
©2024 Databricks Inc. — All rights reserved Databricks AutoML •
クラスター : ご自身のクラスターを選択 • 機械学習の問題のタイプ : 回帰、分類、予測か ら選択 • 入力学習用データセット : トレーニングに 使用するDeltaテーブルを選択 • 予測の場合 ◦ 予測ターゲット : 予測する値を格納する列を 選択 ◦ 時間列: 日時を格納する列を選択 ◦ 予測期間と頻度 : どれだけ先の期間を予測 するのかを指定 ◦ 出力用データベース : 予測結果テーブルを 格納するデータベースを指定
©2024 Databricks Inc. — All rights reserved Databricks AutoML •
クラスター : ご自身のクラスターを選択 • 機械学習の問題のタイプ : 回帰、分類、予測か ら選択 • 入力学習用データセット : トレーニングに 使用するDeltaテーブルを選択 • 予測の場合 ◦ 予測ターゲット : 予測する値を格納する列を 選択 ◦ 時間列: 日時を格納する列を選択 ◦ 予測期間と頻度 : どれだけ先の期間を予測 するのかを指定 ◦ 出力用データベース : 予測結果テーブルを 格納するデータベースを指定
©2024 Databricks Inc. — All rights reserved Databricks AutoML
©2024 Databricks Inc. — All rights reserved Databricks AutoML
©2024 Databricks Inc. — All rights reserved ハッカソン - Databricks
AI/BI
©2024 Databricks Inc. — All rights reserved ハッカソン - Databricks
AI/BI 準備されているデータを対象に以下の分析を行いましょう。 1. AI/BI Genieによるデータ分析 ◦ Genieスペースを作成する ◦ 必要な設定を行う(指示、サンプル質問など) ◦ チームメンバーに共有する ◦ 議論しながらGenieに問い合わせを行いデータへの理解を深める 2. AI/BI Dashboardによるデータの可視化 ◦ ダッシュボードを作成する ◦ 日本語で可視化の指示を行う ◦ 必要に応じて手動で調整する ◦ ダッシュボードから得られるパターンについて議論する ◦ 必要に応じてGenieに戻り問い合わせを行う
©2024 Databricks Inc. — All rights reserved ハッカソン - Databricks
AI/BI 使用するテーブルは以下の2つとなります。 • hands_on_202406.hackathon.covid_cases: 日本におけるCOVID-19の感染者数 • hands_on_202406.hackathon.covid_deaths: 日本におけるCOVID-19の死者数
©2024 Databricks Inc. — All rights reserved ハッカソン - 需要予測
©2024 Databricks Inc. — All rights reserved ハッカソン - 需要予測
準備されているデータを対象に以下の分析を行いましょう。 1. ノートブックでのデータ分析 2. AI/BI Genieによるデータ分析 ◦ 前半で習熟したGenieを活用したデータの理解 3. Databricks AutoMLによる需要予測 ◦ AutoMLを実践する ◦ AutoMLによって得られた結果について議論する
©2024 Databricks Inc. — All rights reserved 各チーム発表 感想、得られた洞察
©2024 Databricks Inc. — All rights reserved 参考資料
©2024 Databricks Inc. — All rights reserved コラボレーションのTips • 各人のホームディレクトリにクローンされたノートブックは、デフォルトでは本人し
かアクセスできません。 • しかし、チームで作業したい、デバッグをお願いしたいなど他の方にノートブック を見てもらいたいケースが存在します。 • Databricks上のアセットは共有可能となっています。その際には、適切な権限 設定が必要です。
©2024 Databricks Inc. — All rights reserved コラボレーションのTips • 権限が付与されていれば、コードを編集・実行することができます。
• さらには、任意のコードブロックにコメントをつけることもできます。
ノートブック、 SQLエディタ、 ファイルエディタにネイティブで 組み込まれた、あなたのデータの文 脈を理解する AIアシスタント コードやクエリーの生成、オートコンプリート 問題の説明や修正 Unity Catalogと連携することで、
あなたのデータ資産の文脈に適した結果を提示 55 Databricksアシスタント
アシスタントにアクセスするには右側のアイコン をクリックします。 56 Databricksアシスタントへのアクセス
あるいは、セル右上の をクリックします。 57 Databricksアシスタントへのアクセス
アシスタントにアクセスするには右側のアイコン をクリックします。 58 Databricksアシスタントへのアクセス 表示領域の拡大 チャット履歴のク リア プロンプト
日本語でアシスタント問い合わせます。 59 Databricksアシスタントへ問い合わせ
コードが表示される場合には、ショートカットボタンが表示されます。 60 Databricksアシスタントへ問い合わせ 差分表示 コードの実行 選択しているセルに コードを挿入 コードをコピー
すでにコードが入力されている場合には、文脈を解して回答します。 61 Databricksアシスタントへ問い合わせ PySpark DataFrameをPandas DataFrameに変換し、 fare_amount列に基づいて dfから最も高価な 10件 のトリップを選択するための
Pandasコードを生成してください。
エラーが発生した際には、診断エラー ボタンが表示されます。 62 アシスタントにエラーを修正させる
コードを説明して とお願いします。 63 アシスタントにコードを説明させる
• できるだけ具体的に指示してください。 テーブルを指定し、データがどのよう なものであるかを示す例を提供してください。 • Databricks アシスタントは、テーブルと列のスキーマとメタデータを認識しま す。これにより、自然言語を使用して非常に正確なクエリーを生成することが できます。たとえば、テーブルに列 userID
と State がある場合、Databricks アシスタントにワシントンに住むユーザーのリストを生成するよう依頼できま す。 • Databricks アシスタントはテーブルと列のメタデータにのみアクセスでき、 行レベルのデータにはアクセスできません。 そのため、実際のデータがユ ニークな形式をしている場合、クエリーを正しく記述できない場合があります。 • Databricks アシスタントは会話の履歴を考慮するため、会話を進めながら質 問を改善していくことができます。 64 アシスタントに問い合わせる際の注意点 https://docs.databricks.com/ja/notebooks/databricks-assistant-faq.html
None