Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Databricksデータアナリストワークショップ / data-analyst-work...

Sponsored · SiteGround - Reliable hosting with speed, security, and support you can count on.

Databricksデータアナリストワークショップ / data-analyst-workshop

2時間のワークショップを通じて、ビジネスユーザーの皆様にDatabricksのダッシュボード/自然言語分析機能を活用したデータ分析をハンズオン形式で体験いただきます。

Avatar for Databricks Japan

Databricks Japan

May 20, 2026

More Decks by Databricks Japan

Other Decks in Technology

Transcript

  1. データアナリスト ワークショップ AIの進化により専門知識がなくても 自然な会話感覚 でデータを分析できる時代が到来しました。 2時間のワーク ショップを通じて、ビジネスユーザー の皆様にDatabricksのダッシュボード /自然言語分析機能 を活用したデータ

    分析をハンズオン 形式で体験いただきます。 主な対象者 • 業務データの分析に興味をお持ちのビジネスユーザー • Databricksの経験は不問です ※ SQLやExcel/Power BI/Tableauなどのツールを用いた業務データ 分析の経験があることが望ましいですが、必須ではありません ゴール 事前準備 アジェンダ 1. Databricksの全体像の紹介(15分) 2. データアナリスト向け機能 概要説明(15分) 3. ハンズオン (約90分) ◦ Unity Catalog・AI/BIダッシュボード・Genie Spaces • Databricksによるデータ分析の新しい可能性 を理解する • AIを活用したデータ分析手法の効果を体感 する • 自社のデータ分析業務の改革に向けたヒント を得る • 環境:お客様のDatabricks環境を利用 • データ:サンプルデータ作成用ノートブックで準備 ※ ワークショップ開催の 1週間前までを目安に、環境の確認・設定に関する事 前打ち合わせを実施させていただきます (30min - 1h)
  2. Agenda 1. Databricksの全体像の紹介( 15分) 2. データアナリスト向け機能 概要説明( 15分) 3. ハンズオン(

    90分) ◦ Unity Catalog(20分) ◦ AI/BI ダッシュボード( 35分) ◦ Genie Spaces(35分) 3
  3. DATA+AI カンパニー クリエーター 20,000+ グローバルのお客様 $5.4B+ YoY 65%+ 年間収益 $134B+

    の企業価値 レイクハウス の 発明者 生成AIの パイオニア 6 Data Management for Analytics GenAI Evaluation, 2025 Data Platforms, 2025 Unified AI Governance, 2025 Unified AI Platforms, 2025 6
  4. ノートブック データ分析、ETL、機械学習、アプリ開発まで行える万能インターフェイス マルチ言語対応 SQL / Python / R / Scala

    リアルタイム共同編集 柔軟なクラスター管理 処理や負荷に応じたスペック選択 サーバーレスオプション 開発者フレンドリー 生成AIアシスタントによる支援、 自動履歴保存、Git連携、 変数の表示、デバッグ etc. 10
  5. 高性能・低コストなSQLとBIの実行基盤 SQL & 組み込みの BI SQLエディタ、SQLノートブック、 ダッシュボード、Genieの実行基盤 SQLウェアハウス 主要BIツールからの接続性 Power

    BI / Tableau / Looker etc. JDBC / ODBC接続をサポート アドバンスドな機能 ユーザー定義関数 / AI (LLM) 関数 フェデレーションクエリ(Snowflake / BigQuery / Redshift / 各種RDB etc.) Lakehouse Data warehousing 11
  6. And more… Custom Apps 安全なデータAIアプリ AI/BI ビジネス インテリジェンス Agent Bricks

    本番品質AIエージェント 企業コンテキストを持つ AI Genie 統合ガバナンス Unity Catalog オープンフォーマット Lakehouse データウェアハウス Lakebase マネージドデータベース Lakeflow 取り込み、ETL、ストリーミング 17
  7. Databricksの提供価値 オープン フォーマット 統合 ガバナンス 企業コンテキスト を持つAI データをオープンな標準形 式でクラウドストレージに 保存、相互運用と高信頼

    性の分析を実現 組織の全データとAIのア クセス権限を一元管理し セキュアなデータ活用を実 現 組織のデータやメタデータ の意味を理解するAIが、 検索・分析・開発を支援し て生産性と意思決定を向 上 18
  8. And more… Custom Apps Secure data and AI apps AI/BI

    Agentic business intelligence Agent Bricks Production AI agents 企業コンテキストを持つ AI Genie 統合ガバナンス Unity Catalog Lakehouse Data warehousing Lakebase Serverless Postgres Lakeflow Ingest, ETL, streaming オープンフォーマット データをオープンな標準形式 でクラウドストレージに保存、相互 運用と高信頼性の分析 を実現 19
  9. ストレージ ユーザーが管理するクラウド ストレージを主なデータ格納先と して利用 クラウドストレージ クラウドストレージ、オープンテーブルフォーマット、Unity Catalogで構成 Amazon S3 ADLS

    Gen2 Google Cloud Storage 実データ 大規模データ処理に最適化された オープンテーブルフォーマット (OTF) が標準データ形式 メタデータ Unity Catalogがメタデータを統 合管理 Delta Lake Apache Iceberg Delta Lake UniForm* * Iceberg & Hudiとの互換性を 持たせるDelta Lakeの機能 20
  10. Delta Lake • Apache Parquetをベースとした オープンテーブルフォーマット • Apache Spark APIとの互換性

    • ACIDトランザクションやタイムトラベルなどDWH が持つ機能を提供 • ストリーミングとバッチの統合 • 大規模なメタデータ管理 21 データを壊れにくく・探しやすく・分析しやすく整理して保存するための 「高性能なデータの書き方・並べ方(ファイル形式)
  11. And more… Custom Apps Secure data and AI apps AI/BI

    Agentic business intelligence Agent Bricks Production AI agents 企業コンテキストを持つ AI Genie オープンフォーマット Lakehouse Data warehousing Lakebase Serverless Postgres Lakeflow Ingest, ETL, streaming 統合ガバナンス Unity Catalog 組織の全データとAIのアクセス権限を一元管理し セキュアなデータ活用 を実現 22
  12. 従来のカタログ すべての資産 に対する 統合ガバナンス すべてのユースケース に対する統合機能 アクセス制御 発見 リネージ 監査

    セキュアな オープンデータ 共有 品質 モニタリング コスト制御 ビジネス セマンティクス セキュリティ コラボ 品質 洞察 テーブル AIモデル ファイル ノートブック ダッシュボード データ+AIの統合ガバナンス Delta Lake Parquet Iceberg 23
  13. アクセス制御 ▪ 統合されたシンプルな IFで アクセス制御を実施 ▪ 行や列に対するきめ細かい アクセス制御 を適用可能 ▪

    個人情報を自動検知し、タグ 分類、属性ベースの アクセ ス制御可能 データ+AI資産に対する横断のガバナンス 24
  14. コラボレーション 組織間のシームレスなデータコラボレーションを実現 リージョンやクラウド横断 の安全 なデータ共有のための オープンプロトコル 多様なアセットを共有可能 :テー ブルやボリューム、機械学習モデ ル、ノートブックなどをサポート

    Delta Sharing マーケットプレイス 外部の組織とデータ製品を 共有するためのオープンなマー ケットプレイス 多様なアセットを共有可能 : テーブルやボリューム、機械学習 モデル、ノートブックなどをサポー ト Delta Sharingを活用 クリーンルーム プライバシーを重視した安全な データコラボレーションのための 環境 複数組織がお互いのデータに直 接アクセスせずに共同分析が可 能 Delta Sharingを活用 26
  15. And more… Custom Apps Secure data and AI apps AI/BI

    Agentic business intelligence Agent Bricks Production AI agents オープンフォーマット Lakehouse Data warehousing Lakebase Serverless Postgres Lakeflow Ingest, ETL, streaming 統合ガバナンス Unity Catalog 企業コンテキストを持つ AI Genie 組織のデータやメタデータの意味を理解する AIが、検索・分析・ 開発を支援して生産性と意思決定を向上 27 本日のワークショップで体験!
  16. 企業コンテキストを持つ AI Genie オープンフォーマット 統合ガバナンス Unity Catalog And more… Custom

    Apps Secure data and AI apps AI/BI Agentic business intelligence Agent Bricks Production AI agents Lakehouse Data warehousing Lakebase Serverless Postgres Lakeflow Ingest, ETL, streaming データ分析・AI開発・リアルタイム処理まで、 データとAIに必要な機能を全部入りで搭載 30
  17. Agenda 1. Databricksの全体像の紹介( 15分) 2. データアナリスト向け機能 概要説明( 15分) 3. ハンズオン(

    90分) ◦ Unity Catalog(20分) ◦ AI/BI ダッシュボード( 35分) ◦ Genie Spaces(35分) 32
  18. And more… Custom Apps 安全なデータAIアプリ Agent Bricks 本番品質AIエージェント オープンフォーマット Lakehouse

    データウェアハウス Lakebase マネージドデータベース Lakeflow 取り込み、ETL、ストリーミング 33 企業コンテキストを持つ AI Genie 統合ガバナンス Unity Catalog 本日のテーマ AI/BI ビジネス インテリジェンス
  19. And more… Custom Apps 安全なデータAIアプリ Agent Bricks 本番品質AIエージェント オープンフォーマット Lakehouse

    データウェアハウス Lakebase マネージドデータベース Lakeflow 取り込み、ETL、ストリーミング 34 企業コンテキストを持つ AI Genie AI/BI ビジネス インテリジェンス 統合ガバナンス Unity Catalog
  20. ガバナンスは単なる データの保護ではない アクセス コントロール ディスカバリー リネージ 監査 安全・オープン データ共有 品質

    モニタリング コスト コントロール ビジネス セマンティクス セキュリティ コラボレーション 品質 洞察 誰がどのデータに何ができるか を明確化し、リスクを抑えて業 務を進められるようにする 必要なデータをすばやく見つけ て理解し、意思決定や分析の 着手時間を短縮する データの来歴と影響範囲を可 視化し、変更のリスク評価と調 整を迅速化する 操作履歴の証跡を残して、内部 統制やコンプライアンス対応を 確実にする 社内外の関係者と安全にデー タ連携し、スピードと統制を両立 して協業を進める 重要データの鮮度や抜け漏れ を常時監視し、異常を早期検知 して業務影響を最小化する 利用とコストを見える化して、投 資対効果の最大化と予算順守 を実現する 指標や定義を全社で統一し、 「同じ数字・同じ物差し」を保証 して議論・意思決定の質を高め る 従来 現代 36
  21. 従来の カタログ Delta Lake Parquet Iceberg アクセス コントロール ディスカバリー リネージ

    監査 安全・オープン データ共有 品質 モニタリング コスト コントロール ビジネス セマンティクス セキュリティ コラボレーション 品質 洞察 テーブル AIモデル ファイル ノートブック ダッシュボード あらゆる 外部データソース を接続 あらゆるツール、エンジン、プ ラットフォーム によるオープンアクセスとコラ ボレーション すべてのData+AI の統合かつオープンなガバナンス 37
  22. カタログエクスプローラー 38 テーブル構造・説明 列名、データ型、 ビジネスメタデータ 等 その他基本情報 作成/最終更新の日時、ユー ザー、ストレージの場所、テー ブルプロパティ

    等 履歴 いつ、誰が、どのコードやジョ ブでどんな処理をしたか、等 を一覧表示 アクセス権限 アクセスできるユーザーや権 限の種類 データリネージュ 他のデータとの依存関係の可 視化、ジョブや MLモデル、コー ドとの関連も表示 利用状況 このテーブルを使用している 主なユーザー、クエリやコー ド、利用頻度等を可視化 データプロファイル データの中身に関する様々な 統計、データ品質のダッシュ ボード データについての詳細を調べることができるポータルとして機能
  23. メトリクスビュー 39 集計軸と指標の共通化 メジャー(集計指標: KPIや売上)やディメンショ ン(集計軸: 期間や属性)を一元管理し、組織内 の分析の信頼性を高める メタデータの管理 指標の意味を類語や単位、コメントを通して定

    義し、エージェントやユーザー間で一貫した分 析結果を提供 複数の分析方法で共有 ダッシュボードやGenie等の複数の分析ツール で共通利用することで、出力結果の節目未可 能性を向上させる 指標の定義・意味・利用先を分断させず、共通のビジネス指標を全社で再利用 詳細はAppendixを参照
  24. And more… Custom Apps 安全なデータAIアプリ Agent Bricks 本番品質AIエージェント オープンフォーマット Lakehouse

    データウェアハウス Lakebase マネージドデータベース Lakeflow 取り込み、ETL、ストリーミング 40 企業コンテキストを持つ AI Genie 統合ガバナンス Unity Catalog AI/BI ビジネス インテリジェンス
  25. Included with Databricks SQL—No extra license fees AI/BI Dashboards Data

    visualization in the era of AI AIをコアに内蔵 あらゆる段階でインテリジェントな支援により、 データ可視化、トレンド予測、主要要因分析を 容易に実現 “光速”な分析 簡素化されたコンテンツモデルとネイティブな パフォーマンス最適化により、大規模環境でも ほぼ瞬時のインタラクティブ性を実現 配布に最適化 組織全体で、また信頼できるパートナーや 顧客と、安全に知見を共有する 41
  26. ユニーク ユーザー数は? 国別の売上の 推移は? 最も重要な 顧客層は? 最もポピュラーな 配送方法は? 注文の優先度の 変化の傾向は?

    注文の優先度別の 売上の構成は? たしかに、良いダッシュボードは 多くの質問に答えてくれる 45
  27. あなたが予測できるのは ユーザーが尋ねる質問のほんの一部 ユニーク ユーザー数は? 国別の売上の 推移は? 最も重要な 顧客層は? 最もポピュラーな 配送方法は?

    注文の優先度の 変化の傾向は? 注文の優先度別の 売上の構成は? 主要なサプライ ヤーは? 現在の 在庫レベルは? 最もリードタイムが 長いサプライヤー は? サプライチェーン のボトルネックは どこか? 配送の 遅延頻度は? 欠品が発生してい る製品は? 需要予測の精度 は? 余剰在庫がある 場所は? 場所別の在庫の 状況は? 最も利益が大きい 製品は? 配送遅延の コストは? 品質に問題のあ るサプライヤー は? 平均的な注文履 行時間は? 輸送コストの 傾向は? 配送コストの 傾向は? サプライヤーの契 約義務の遵守状況 は? 製品別の返品率 は? 倉庫の稼働率 は? 持続可能性目標 の達成状況は? 46
  28. And more… Custom Apps 安全なデータAIアプリ Agent Bricks 本番品質AIエージェント オープンフォーマット Lakehouse

    データウェアハウス Lakebase マネージドデータベース Lakeflow 取り込み、ETL、ストリーミング 50 AI/BI ビジネス インテリジェンス 統合ガバナンス Unity Catalog 企業コンテキストを持つ AI Genie
  29. GENIE Query Agent Query Agent AIエージェント ユーザー固有のデータの 意味を継続的に学習する エージェントシステム 専門のAIエージェントが協調して動作するアンサンブル方式

    必要に応じてユーザーに確認を求める ツールとコンテキストの活用 • Unity Catalogのメタデータ • クエリ履歴 (すべてのワークロード ) • 関連する資産 (ノートブック、ダッシュボード、クエリ ) • セマンティックモデル (利用可能な場合 ) 学習し、記憶する 質問は何でしょうか? ユーザーデータの意味を 継続的に理解 52
  30. データインテリジェンス を活用した AIによる精度の高い回答 データプラットフォーム からのインテリジェンス 管理者の指示を通じた インテリジェンス ユーザーフィードバックを 通じたインテリジェンス GenieはUnity

    Catalogのテーブルの スキーマ、コメント、PK/FK関係を 理解する。加えて、ダッシュボード内の SQLクエリも理解する。 Genieスペースの管理者は、指示(例:SQL クエリ、ビジネスルール、セマンティクス)を 通じて更にインテリジェンスを追加できる。 質問にどのように回答すべきか不確かな場合、 Genieは回答を推測するのでなくユーザーに明 確化を求める。ユーザーはリアルタイムで フィードバックを提供することで、Genieの回答 精度を更に向上できる。 54
  31. AIが生成するインサイトに ガバナンスとセキュリティ を適用 Genieのモニタリング機能 を用いることで、ユーザー が質問した内容をレビューできる。評価 (良い/悪い) を 元に今後の回答精度を向上 させられる。

    AI/BIダッシュボード Genie Spaces 安全な回答を返却 企業データ アクセス ポリシー を適用 Unity Catalog GenieはUnity Catalogのアクセスポリ シーを遵守し、ユーザーがアクセス 可能なデータのみ を返却する。 55
  32. Genie Spaces 2つの異なるモード • 短めの解釈・グラフ・データを出力 • 単一のクエリ(SQL)を組み立てて回答 • 比較的に短時間で応答 →データに関する具体的な問いに対して、素早く解釈を得た

    いときに使用 • 所見や示唆・複数のグラフを含むレポートを出力 • 調査計画を作成し複数のクエリを反復実行 • チャットモードより時間がかかる →複雑/抽象的なビジネス質問に対して、説明・示唆・施策 提案を含めた根拠付き回答を得たいときに使用 56 チャットモード (New!) エージェントモード
  33. エージェントモードによる 高度なビジネスレポート生成 1. 研究計画を作成 : 複雑な質問に答えるため の構造化されたアプローチと仮説を設計 2. 複数クエリ実行 :複数の

    SQL クエリを実行 して、さまざまな角度から証拠を収集 3. 学習と反復 : 発見した内容に基づいてアプ ローチを継続的に調整し、答えに自信が持 てるまで推論を洗練させる 4. 包括的レポートを提供 : 引用、視覚化、サ ポート表を含む詳細な概要を提供 2026/4 Public Preview https://docs.databricks.com/aws/ja/genie/agent-mode 57
  34. Genieを選ぶ理由 シンプルなアーキテクチャー AI/BIはデータプラットフォームの一部 として統合されているため、別のデー タシステムや BIシステムの管理は不 要 AI/BIはユーザーのデータ資産や使 用パターン、ビジネスの概念に関す る深い知識

    を持ち、関連性が高く正 確な回答を迅速に生成 Genie Spacesは、ビジネスユーザー がダッシュボードを超えて、自然言語 を使って新しいインサイトをセルフ サービスで得られるようサポートする データを深く理解 より賢いセルフサービス 1 2 3 58
  35. Agenda 1. Databricksの全体像の紹介( 15分) 2. データアナリスト向け機能 概要説明( 15分) 3. ハンズオン(

    90分) ◦ Unity Catalog(20分) ◦ AI/BI ダッシュボード( 35分) ◦ Genie Spaces(35分) 59
  36. ハンズオン : Unity Catatlog 1. カタログエクスプローラーから、サンプルのテーブルを表 示 ◦ カタログ: (当日指示)

    ◦ スキーマ: bricksmart ◦ テーブル: transactions 2. サンプルのテーブルの各種情報を確認 ◦ どんなデータ が入っているか? ◦ いつ、誰に よって作られたか? ◦ 誰がデータを使用 できるか? ◦ テーブル/他データ資産との関係性は? 1. テーブルの説明 の鉛筆ボタンを 押してみましょう(説明を変更して もSaveを押さなければ反映され ません) 2. 列のコメント の鉛筆ボタンを押し てみましょう 3. transactions テーブルの 概要タブの「関係を表示 」 ボタンを押してみましょう 課題 追加課題 (時間があれば挑戦 ) 62
  37. ハンズオン : AI/BIダッシュボード 1. 空のダッシュボード を作成 • 名前例: EC分析ダッシュボード _山田太郎

    • 使用するウェアハウス : Serverless Starter Warehouse または当日指示 • 2. ダッシュボードにテキスト を追加 • テキスト例: # ユーザー分析 • 3. ダッシュボードにデータセット を追加 • users テーブルを選択 • 4. ダッシュボードにグラフを追加 1. 合計ユーザー数 2. 性別別ユーザー数 3. 地域別ユーザー数 課題 5. ダッシュボードにフィルタ を追加 1. 性別 2. 地域 • 6. ダッシュボードを公開 • 7. クロスフィルタリング を試す • グラフの「東京」などをクリックし 他のグラフの変化を確認する 64
  38. ハンズオン : AI/BIダッシュボード 1. Genie Code (旧 Databricks Assistant)を活用して自由にダッシュボードを作 成。まずはアシスタントを起動する

    2. 以下のような軸・集計を組み合わせた多角的集計を行うダッシュボードを作る • 集計軸の例: i. 時系列(年・月・週・日) ii. 製品種別(カテゴリ・サブカテゴリ) iii. 顧客属性(性別・年代・居住地) • 集計指標の例: i. 合計売上 ii. 購買単価(1購買あたりの売上の平均) iii. 購買頻度(1ユーザーあたりの購買回数の平均) iv. 客数 追加課題 (時間があればチャレンジ ) 65
  39. ハンズオンのヒント : AI/BIダッシュボード 下メニューアイコン、または右上のランプアイコンから「 Genie Code(AIアシスタント機能)」を起動 ダッシュボード画面と接続していることを確認し、自由に指示を入力 Genie Code アシスタントの利用

    プロンプト例: ページを1つ追加し、 orders_metrics_viewメトリ クスビューに対する多角的な 分析を行うグラフを追加してく ださい。 - 売上、客単価、購買頻度平 均 - 時系列別の売上 - カテゴリ別の売上 - 性別・年代別の売上 71
  40. 1. Genieスペースを作成 • Title例: EC分析スペース_山田太郎 • Default warehouse: Serverless Starter

    Warehouse または当日指示 • Tables: <カタログ名> > bricksmart > orders_metrics_view メトリクスビュー 2. 商品のカテゴリー の理解 • ブリックスマートの商品のカテゴリーをGenieに 聞く • 回答が英語の場合、日本語で回答するように Genieに指示を追加する • 3. 商品のサブカテゴリー の理解 ハンズオン : Genie Spaces 課題 4. 回答にフィードバック を付与 • Good/Badを付与 • 管理者にレビューリクエストを送信 • 5. スペース設定の更新 • 説明やサンプル質問を追加 72
  41. ハンズオン : Genie Spaces 追加課題 (時間があればチャレンジ ) 1. 地域の傾向 を分析(以下は観点の例)

    • ユーザーがいる地域 • 東京と大阪のカテゴリー別の売上金額と割合 • 東京と大阪のカテゴリー別の購買客数・客単価・購買頻度 • 2. 年齢層の傾向 を分析 • ユーザーの年齢層 • 年齢層ごとのカテゴリー別の売上金額と割合 • シニア層と中年層の食料品の売上構成の差 3. エージェントモード を使い、より多角的な分析レポートを作成 • 例:大阪と東京の売上を多角的に比較し、どのようなアプローチで大阪の売上を伸ばす ことができるか 73
  42. Genieキュレーションのプラクティス 81 参考:https://docs.databricks.com/aws/ja/genie/best-practices 簡潔で十分に文書化された データセットを提供する • Unity Catalog の質の高いテーブルと列の説明は、Genie の精度に

    とって重要です。 • 列のあいまいさを解決し、ビューまたはメトリクス ビューを使用してテー ブルを事前結合または非正規化します。 • 適切に文書化された簡素化されたデータセットにより、Genie がデータ に関する質問に正確に答える能力が向上します 明確で具体的な テキスト指示を記述する • 曖昧な指示は避けます。 • たとえば、「売上について質問された場合は明確な質問をする」の代わ りに、「ユーザーが製品名や販売チャンネルを指定せずに売上メトリク スについて質問する場合は、次のように尋ねます。売上分析を進める には、製品名と販売チャンネルを指定してください。」と書きます。 テキストの指示よりも SQL式とサンプル SQLを優先する • SQL 式を使用して、 SQLやフィルターなどのビジネス セマンティクスを 定義します。 • サンプル SQL を使用して、一般的なあいまいなプロンプトを処理する方 法を Genie に教えます。 • テキスト指示は、SQL 式と例でニーズに対応できない場合にのみ、最 後の手段として使用してください。 • SQL による構造化された定義は、プレーンテキストのガイダンスよりも 信頼性が高く、保守性も高くなります 矛盾する指示を避ける • すべての指示タイプ間で一貫性を確保します。 • たとえば、テキスト命令で小数を 2 桁に丸めるように指定されている場 合、サンプル SQL クエリも 2 桁に丸める必要があります。
  43. Genieキュレーションの設計手順例 コメント定義 テーブルや列コメントに 業務/技術コンテキストを 入力する テーブル関係性定義 テーブルの主キー・外部 キー(PK/FK)を定義する (任意)関数作成 精度を保証したい複雑

    な計算式をUC関数とし て登録する データ最適化 不要なテーブルやカラム は削除し、データモデル をシンプルにする (任意)メトリクスビュー 作成 集計指標と集計軸、類 義語といったセマンティ クスを定義する Genieスペース 作成 必要なテーブルのみを 対象にスペースを作成 する ナレッジストアの 拡充 スペース固有のテーブ ル関係性, 列メタデータ, SQL式を登録する 一般的な指示の 設定 スペース固有の業務コ ンテキストを入力する 1 2 3 6 8 4 5 7 Unity Catalog Genie Spaces 効率的な品質向上のためUnity Catalog -> Genieの順に工夫する 継続的 改善 82
  44. 85 一般的な指示を追加する ✅ Genieに確認が必要なタイミングを教える 必要なコンテキストが不足しているプロンプトをジェニーが 認識できるようにする ✅ フォーマット指示を追加 数値結果の書式設定方法、応答言語、行数の指定方法を Genieに教える

    ✅ 簡潔かつ直接的 文は「ユーザーが …した場合は必ず …してください」「常に …を 含めてください」といった明確な指示として表現する ✅ リスト形式で整理 ダッシュ/アスタリスクを使用して指示を整理し、共同作業や Genieの理解を容易にする ❌ テキストを詰め込みすぎない テキストはプロンプトでフィルタリングされないため、コン テキスト領域を消費し、矛盾するコンテキストが発生しや すくなる ❌ 矛盾する指示を避ける 新規データアナリストに同じ質問への回答方法を二つ教 えるようなもの—LLMを混乱させる ❌ 列値を列挙しない コンテキストスペースを浪費するため、値サンプリングや 例示値の方が効果的 ❌ SQLロジックをテキストで追加しない Genie SQLロジックを教えるには、例示 SQLとSQLプリミ ティブを優先すること 推奨事項 避けるべきこと 例示SQLやテーブルメタデータが不可能な場合にのみ追加すること 一般的な 指示の設定 8
  45. 10~20の主要なビジネス上の質問を 特定し、Genieがそれらに正確に回答 できるよう指導する 必要に応じてアドホックな質問を自ら Genieにテストし、指示を調整する Genie導入計画 自己検証 段階的導入 継続的改善 信頼できる少数のユーザーグループ

    に段階的に展開し、徐々に拡大する ユーザーに質問すべき内容をガイド (ダッシュボード、スターター質問、ガ イドと連動)。APIベストプラクティスに 従う。 モニタリングタブとGenie監査ログで ユーザープロンプトとフィードバックを 追跡 ベンチマークに質問を追加し、Genie のコンテキストを改善、ベンチマークを 再実行、繰り返し 88
  46. 参考: Conversation APIのプラクティス • リクエストキューの実装 : APIはリクエスト再試行を管理しないため、キューシステムを用いてスルー プット制限を超過しないようにする。 • 5~10秒間隔でステータス更新をポーリング

    : 確定的なメッセージステータス( COMPLETED、 FAILED、CANCELLED)が得られるまでポーリングを継続。大半のクエリではポーリングを 10分以内 に制限。 • 2分経過後は指数バックオフを適用: 2分以内に応答がない場合、信頼性向上のため指数バックオ フを適用する。 • 各セッションで新規会話を開始: セッション間で会話スレッドを再利用しない。意図しないコンテキス ト再利用により精度が低下する可能性がある。 90
  47. ローデータからインサイトを得るにはビジネスコ ンテキストが必要 Raw Data Data Consumers Customer data Dashboards SQL

    access: ODBC/JDBC/ SQL REST AI apps/Agents/Chatbo Notebooks Website/ application/ logs Marketing campaigns Financial data インサイト: アクティブ顧客あたりの収益は いくらか? コンテキスト: 収益はどう定義されるか アクティブとは何か 顧客とは何を意味するか? どのテーブルを使用すべきか? 92
  48. 正確な洞察を得るのは難しい With dates AS (Select distinct date from date_spline), dailyData

    as (Select A.date, sum(opportunities.amount) as bookings From dates A Left Join prod.oppo B ON (B.date between date_sub(A.date, 6) and A.date) Group By A.date Where opportunities.stage = ‘Won’ ) Select date, sum(bookings) OVER (ORDER BY date ASC ROWS 7 - 1 preceding) * 365 / 7 `AS Run-rate` From dailyData “What is our run-rate ARR?” 93
  49. Analyst #1: ARR = $2.5M Analyst #2: ARR = $2.8M

    Data Scientist: ARR = $3.2M AI Agent: ARR = $2.6M 全ての場所で同じ洞察を得ることは困難 94
  50. BI Platform ARR = $2.8M ARR = $2.8M ARR =

    $2.8M BI Semantic Model ARR = $2.8M BIセマンティックレイヤーがこの問題を解決する 95
  51. メトリクスビュー 97 集計軸と指標の共通化 メジャー(集計指標: KPIや売上)やディメンショ ン(集計軸: 期間や属性)を一元管理し、組織内 の分析の信頼性を高める メタデータの管理 指標の意味を類語や単位、コメントを通して定

    義し、エージェントやユーザー間で一貫した分 析結果を提供 複数の分析方法で共有 ダッシュボードやGenie等の複数の分析ツール で共通利用することで、出力結果の節目未可 能性を向上させる 指標の定義・意味・利用先を分断させず、共通のビジネス指標を全社で再利用
  52. ビューとメトリクスビューの違い CREATE VIEW view_1 AS SELECT SUM(sale_amount) / COUNT(DISTINCT customer_id)

    FROM orders GROUP BY order_date CREATE VIEW view_2 AS SELECT SUM(sale_amount) / COUNT(DISTINCT customer_id) FROM orders GROUP BY region CREATE VIEW view_3 AS SELECT SUM(sale_amount) / COUNT(DISTINCT customer_id) FROM orders GROUP BY product_line CREATE VIEW view_N AS ... SELECT product_line, MEASURE(rev) FROM order_metrics WHERE order_date > ‘01-01-2024’ GROUP BY 1 クエリ時 order_metrics Dimensions: order_date, region, product_line Measures : SUM(sale_amount) / COUNT(DISTINCT customer_id) ビューの定義 (単一のメトリクスビュー) ビューやテーブル メトリクスビュー 98 問い:注文日 / 地域 / 製品ライン / … 別の平均客単価 は? • 集計軸の組み合わせ分だけビューやクエリを用意 • 人やエージェントによって指標の定義がずれる可能性 • クエリ時に軸を入れ替えるだけでシンプルに集計可能 • 指標の定義を共通化し一貫性を高める
  53. シンプルかつ一貫性のある洞察 Business question 「2024年1月1日以降の出荷 済み注文について、セグメ ントごとの顧客 1人あたりの 平均収益はいくらです か?」 SELECT

    c.customer_segment, SUM(o.revenue) / COUNT(DISTINCT c.customer_id) AS revenue_per_customer FROM orders o JOIN customer c ON o.c_id=c.id WHERE order_date > '2024-01-01' AND o.status = ‘fulfilled’ AND o.check IS NOT NULL GROUP BY c.customer_segment; SELECT ‘Customer Segment’, MEASURE(‘Revenue per Customer’) FROM customer_metrics WHERE ‘Order Category’ = “Valid Fulfilled” GROUP BY ALL テーブルへのクエリ メトリクスビューへのクエリ ❌ ロジックの重複 ❌ 間違えやすい ⚠ 背後のテーブルへの 知識が必要 ✅ シンプルなクエリ ✅ 一度定義し、再利用 化 ✅ ガバナンスと中央管 理 99