Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[配布用][CTO協会様向け] BigQuery で始めるデータ分析入門 & 生成 AI を活用した分析効率化

[配布用][CTO協会様向け] BigQuery で始めるデータ分析入門 & 生成 AI を活用した分析効率化

GoogleCloudPlatformJapan

June 26, 2024
Tweet

More Decks by GoogleCloudPlatformJapan

Other Decks in Business

Transcript

  1. Proprietary + Confidential データ活用とは? 皆さんにとってのデータ、データ活用を考えてみよう 3 分間、近くの方と話してみましょう • 誰が? •

    何に? • どんなデータを? • どうやって? 活用していますか? Made by Gemini Prompt; “data analytics discussion around the table”
  2. Proprietary + Confidential そもそもデータ分析とは? データ→パターン →インサイト →アクションに繋げる一連の流れのこと。 9 ステップ 説明

    具体例 データ 数値、テキスト、画像、音声など、生の情報 アクセスログ、購買履歴、顧客属性、商品情報 パターン データ分析で見つかる、データの傾向や規則 性、関係性 特定の商品を見たユーザーは、関連商品も買う確 率が高い インサイト パターンから読み取れる「本質的な理解」。 なぜそうなるのか?何が影響しているのか?を 考える ユーザーは関連商品情報も欲しがっている → おす すめ機能が重要 アクション インサイトに基づいて取る、具体的な行動 関連商品のレコメンド機能を強化して、使いやすく購 買も促す
  3. Proprietary + Confidential 約50兆円 13% 日本国内で企業のビッグデータが一年に生んだ価値 (2010-2020 年平均) 出典:ビッグデータが生んだ価値、 GDP換算で年17兆円 内閣府

    約 17 兆円/年 データが生む経済価値は莫大 今日のビジネスにおいて、在庫の最適化や売上予測などあらゆる場面でデータは活用される。 日本での経済価値は年平均で 17 兆円にも上る。
  4. Proprietary + Confidential Made by Imagen 2 Prompt; “Illustration of

    a complex maze with business man inside it” なぜデータ分析が重要か? データ量・変数・ステークスホルダーが複雑化する現代の経済の中で、データに基づく意思決定の重 要性が増大
  5. Proprietary + Confidential データ 企業が扱うデータ 大規模な 構造化データ 大規模な 非構造化データ 小規模な

    非構造化データ 小規模な 構造化データ 企業が扱うデータは大規模。 データを「規模」と「種類」の二軸で考える。 企業のデータ=青い部分=「大規模な構造化データ」と「大規模な非構造化データ」の2つが多い。 とある会社だと・・・ データの種類:アクセスログ データ量: 6.5 PiB テーブル数: 約 15 万テーブル ジョブ実行回数: 160 万回 /month
  6. リアルタイム、シームレスに 収集、アクション 誰でも分析可能、 コーディングレスでの ML 活用 あらゆる場所に分散したデータ SoR データ アプリ

    / Web データ Google Analytics Firebase SoE データ 部門別の基幹 DB 部門別の DWH 非構造化データ SaaS データ インスタンスの 分かれた ERP Google Cloud Smart Analytics ソリューション データレイクと データウェアハウス機能の シームレスな利用 オープンな 分析プラットフォーム (オープンソース or マルチクラウド)
  7. エンド ツー エンドのデータ分析プラットフォーム スケーラブルな データ収集 信頼性のある ストリーム データ パイプライン 先進的な分析

    データレイク データ ウェアハウス Pub/Sub Dataflow Dataproc Cloud Storage BigQuery Data Transfer Service Cloud Composer Storage Transfer Service Dataplex(データガバナンス) Cloud Data Fusion 処理 収集 蓄積 データ ウエアハウス 分析 BigQuery storage BigQuery analysis engine 活用 Vertex AI Datastream Sheets
  8. スケーラブルな データ収集 信頼性のある ストリーム データ パイプライン 先進的な分析 データレイク データ ウェアハウス

    Pub/Sub Dataflow Dataproc Cloud Storage BigQuery Data Transfer Service Cloud Composer Storage Transfer Service Dataplex(データガバナンス) Cloud Data Fusion 処理 収集 蓄積 データ ウエアハウス 分析 BigQuery storage BigQuery analysis engine 活用 Vertex AI Datastream Sheets エンド ツー エンドのデータ分析プラットフォーム
  9. ストリーミングデータを使った リアルタイムな分析 BigQuery Google Cloud の分析用 エンタープライズデータウェアハウス ギガバイトからペタバイト に対応したスト レージと

    SQL クエリ 暗号化され、耐久性がある、 そして高い可用性 サーバーレスでインフラ運用不要 UNIQUE UNIQUE すぐに活用できる AI 機能 高速インメモリなレポートと 分析を高速化する BI エンジン UNIQUE UNIQUE
  10. Confidential & Proprietary 28 BigQuery: 設計思想 • サーバーレスでスケーラビリティと費用対効果が高いクラウド データ ウェアハウス

    Analysis and insights BigQuery のサーバーレス分析 (管理負荷とチューニングを極小化) パフォーマンス チューニング モニタリング 信頼性 デプロイと設定 利用率の向上 分析と洞察 (< 15%) リソース プロビジョニング スケールの 調整 分析と洞察 ≒ 100% 従来のデータウェアハウス (チューニングすれば速いけど…)
  11. Demo TB クラスのデータを BigQuery と Cloud SQL for PostgreSQL で集計!

    SELECT LANGUAGE, SUM(views) AS views FROM `bigquery-samples.wikipedia_benchmark.Wiki100B` WHERE REGEXP_CONTAINS(title,"G.*o.*o.*g") GROUP BY LANGUAGE ORDER BY views DESC
  12. BigQuery | アーキテクチャ 最大限の柔軟性を実現する分離ストレージとコンピューティング ストリーミング取 り込み フリーバルク ローディング べーすの ペタビット

    ネットワーク 複製、分散ストレージ (99.9999999999% の耐久性) 分散メモリ シャッフル層 SQL:2011 準拠 REST API クライアント ライブラリ 7 言語で利用可能 Web ベースのUI, CLI ODBC/JDBC 高可用性- クラスタ コンピューティング (Dremel) BI Engine コンピューティング (ステートフル ワーカー) BigQuery
  13. BigQuery リモート メモリ シャッフル シャッフル ワーカー ワーカー GROUP BY state

    COUNT(*) SELECT state ワーカー ワーカー ワーカー WHERE year... SHUFFLE BY state 分散ストレージ 複雑なクエリのパフォーマンスの高速化 より多くのデータを結合して集約 優れたスケーラビリティ
  14. BigQuery ML とは 1 2 3 BigQuery からデータを 移動せずに 機械学習モデル作成

    使い慣れた SQL で 開発速度を向上 一般的な ML タスクと ハイパーパラメータ チューニングを自動化
  15. ユーザーの検索クエリを 11 種類の目的に分類 LLM を活用した ユーザーの検索目的分 類 SELECT * FROM

    ML.GENERATE_TEXT( MODEL `llm-sandbox-dummy.llms.llm_v1`, ( SELECT keyword, CONCAT( 'textに対応するintentを以下のカテゴリの中からふさわしいものを 選んでください。 text:', keyword, """intent: 「病気について」「症状について」「診断について」「検査につい て」「治療について」「薬について」「健康診断について」「手続きや支援につ いて」「受診について」「病院について」「その他」 # 出力形式 {"text": string , "intent": string} # 出力例 {"text": "カレーライス", "intent": "その他"} {"text": "帯状疱疹", "intent": "病気について"} """) AS prompt FROM `llm-sandbox-dummy.llms.search_keywords` ), STRUCT( 0.8 AS temperature, 1024 AS max_output_tokens, 0.95 AS top_p, 40 AS top_k, TRUE AS flatten_json_output ) )
  16. ペタバイト規模の分析をスプレッドシートで Connected Sheets • BigQuery への容易な接続、表示に よるインサイトの獲得 • スプレッドシートでセルフサービスで アドホック分析(ピボット、フィルタリ

    ング等) SQL の知識は不要 • ピボットの操作に伴い集計の SQL が自動で生成 / 実行 • ペタバイト規模にも対応 集計処理は BigQuery で実行され 結果が Sheets に表示 35
  17. 36 Gemini in BigQuery コンテキスト アシスタント - GoogleSQL と Python

    向け に最適化 自然言語から SQL 生成 - 自社のデータセットに基づ いて新しいクエリをブートストラップ 自然言語から Python 生成 - Colab notebooks インライン SQL 補完 - クエリコンテキストに基づいたレ コメンデーション 統合されたチャット - 複雑なクエリを理解し、分析者を サポート セキュアモデルの統合 - データとプロンプトは Google Cloud 上で実行 すべてのデータ プラクティショナーのインサイトを加速させる 生成 AI との “統合” プレビュー
  18. 37 BigQuery data canvas データの探索と可視化を実現する GenAI 中心のエクスペリエンス ユーザを支援するインタラクティブなエクス ペリエンス BigQuery

    Studio との統合 Dataplex catalog のセマンティックなデータ ディスカバリ データアナリスト向けの ビルドインされたコ ラボレーション機能 ユーザの思考をインサイトに変える “生成 AI 中心” の新しいエクスペリエンス プレビュー
  19. 1 万 あるお客様での クエリ同時実行数 350 PB あるお客様が 1 社で 保管しているデータ

    100 兆行 いくつかのお客様での クエリ対象行数 数字で見る BigQuery Google 調べ 1PB 以上利用のお客様は 数百社以上
  20. ストリーミングデータを使った リアルタイムな分析 BigQuery Google Cloud の分析用 エンタープライズデータウェアハウス ギガバイトからペタバイト に対応したスト レージと

    SQL クエリ 暗号化され、耐久性がある、 そして高い可用性 サーバーレスでインフラ運用不要 UNIQUE UNIQUE すぐに活用できる AI 機能 高速インメモリなレポートと 分析を高速化する BI エンジン UNIQUE UNIQUE 再掲
  21. 状況にあわせて活用可能な BigQuery 高速化機能 パーティショニング クラスタリング コンピューティングワーカー 分散ストレージ マテリアライズドビュー BI Engine

    レイテンシ 低 キャッシュレ ベル Very Hot (GB) Hot (10’sTB) Warm (100’s TB) Cold (PB) 高 超高速、セルフチューニング 柔軟なパーティショニング(日付、整数、時間)と 自動再クラスタリング メンテナンス不要、常に最新の自動クエリ書き換え ストリーミングイン サート 一括読み込み
  22. パーティション分割テーブル 必要な部分のみ効率的にクエリ • “パーティション” という 単位でデータが分割された テーブル • パーティショニングキー ◦

    取込時間 ◦ 日付 / タイムスタンプ ◦ 整数 パーティション (20200101) レコード レコード レコード レコード レコード パーティション (20200102) レコード レコード レコード レコード レコード SELECT c1, c3 FROM dataset.table WHERE Date = ‘20200101’ …
  23. パーティション分割テーブル作成例 • 日付型の dt カラムをパーティショニング キーとしたテーブルの作成 create table dataset.table (dt

    date, id int64) partition by dt パーティション (20200101) パーティション (20200102) パーティション (20201231) … レコード レコード レコード レコード レコード レコード レコード レコード レコード レコード レコード レコード レコード レコード レコード
  24. パーティション分割テーブル検索例 • dt カラムでの絞り込み → パーティション プルーニング select * from

    dataset.table where dt = '2020-01-01' パーティション (20200101) パーティション (20200102) パーティション (20201231) … レコード レコード レコード レコード レコード レコード レコード レコード レコード レコード レコード レコード レコード レコード レコード
  25. クラスタ化テーブル 頻繁に参照するフィールドへのアクセスを高速に • テーブル内のデータを特定 カラムでソートして保存 • スキャン対象を必要最低限 のブロックに限定することで 検索効率を向上(ブロック プルーニング)

    • クラスタリング カラムは最大 4 つまで設定可能 20200601 20200602 20200603 20200604 20200605 Aa to Fa Fb to Me Mf to Ro Rp to To To to Zz SELECT * FROM Table WHERE date = “2020/06/03” AND userID in (“Bob”,”Tom”)
  26. クラスタ化テーブル作成例 • 整数型の id カラムがクラスタリング カラムとなるテーブルの作成 create table dataset.table (dt

    date, id int64) partition by dt cluster by id パーティション (20200101) ブロック ブロック ブロック レコード (id = 1) レコード (id = 1) レコード (id = 2) レコード (id = 2) レコード (id = 2) レコード (id = 2) レコード (id = 3) レコード (id = 3) レコード (id = 3) パーティション (20200102) ブロック ブロック ブロック レコード (id = 1) レコード (id = 1) レコード (id = 1) レコード (id = 1) レコード (id = 2) レコード (id = 2) レコード (id = 2) レコード (id = 2) レコード (id = 3)
  27. クラスタ化テーブルクエリ例 • dt & id カラムでの絞り込み → パーティション&ブロック プルーニング select

    * from dataset.table where dt = '2020-01-01' and id = 1 パーティション (20200101) ブロック ブロック ブロック レコード (id = 1) レコード (id = 1) レコード (id = 2) レコード (id = 2) レコード (id = 2) レコード (id = 2) レコード (id = 3) レコード (id = 3) レコード (id = 3) パーティション (20200102) ブロック ブロック ブロック レコード (id = 1) レコード (id = 1) レコード (id = 1) レコード (id = 1) レコード (id = 2) レコード (id = 2) レコード (id = 2) レコード (id = 2) レコード (id = 3)
  28. マテリアライズドビュー 事前集計済みのクエリキャッシュビューでより安価に高速化 使いやすさ - 一度定義しておく と、BigQuery が自動かつ定期 的に再計算 (差分 or

    全体) 効率性 - 可能な場合クエリは 自動的に MV にリダイレクト 整合性 - 常に最新データを参 照可能 マテリアライズドビュー 元データ 自動リフレッシュ リダイレクト
  29. マテリアライズド ビュー作成例 • transactions テーブルの集計結果を保持するマテリアライズド ビューの作成 create materialized view dataset.mv

    partition by dt cluster by item_id as select dt, item_id, sum(amount) as amount from `project-id.dataset.transactions` group by dt, item_id dt user_id item_id amount 2020-01-01 1 1 10 2020-01-01 1 2 20 2020-01-01 2 1 30 2020-01-01 2 2 40 transactions dt item_id amount 2020-01-01 1 40 2020-01-01 2 60 mv
  30. BI Engine • レポートとダッシュボードを 高速化する BI ツール用のイ ンメモリデータ分析エンジン • BigQuery

    のデータ読み込 みを最小限に抑え、検索の 効率と同時実行性を向上 • 現在は Looker Studioで使 用可能
  31. スケーラブルな データ収集 信頼性のある ストリーム データ パイプライン 先進的な分析 データレイク データ ウェアハウス

    Pub/Sub Dataflow Dataproc Cloud Storage BigQuery Data Transfer Service Cloud Composer Storage Transfer Service Dataplex(データガバナンス) Cloud Data Fusion 処理 収集 蓄積 データ ウエアハウス 分析 BigQuery storage BigQuery analysis engine 活用 Vertex AI Datastream Sheets エンド ツー エンドのデータ分析プラットフォーム
  32. Proprietary + Confidential データ利活用の推進・データドリブン文化実現によくある課題 データボトルネックとデータカオスの二つの課題がある。 課題 1:データボトルネック データ抽出に SQL を使う場合、作業者が

    限られるので分析・活用が順番待ち 課題2:データカオス 個々人が自由にデータ集計と レポーティングをすることによる混乱 IT担当者等 SQLで 抽出 ビジネスユーザー データベース ビジネスユーザー レポート閲覧者 データベース ツールで抽出し集計とレポート作成 +-×÷ +-×÷ +-×÷ データ データ データ データ ユーザー に展開 どれが正しい 売上達成率? ・ユーザーにデータをタイムリーに展開できない ・SQL の共通管理が困難で、業務が属人化 ・指標の定義が氾濫し、正しい意思決定を妨げる ・定義を変更する際にレポート単位で集計変更が必要
  33. Proprietary + Confidential Proprietary + Confidential Looker (LookML) で実現 データ

    事前に定義された指標 (説明軸・集計値 )を使い レポーティング作成やデータ活用を行う 一貫した指標定義 による データガバナンスで正しい シングルデータソース徹底 データ +-×÷ SQL を 自動生成 全て共通の指標定義なので 正しく意思決定ができる リアルタイム データ取得 レポーティング以外の 業務にもシームレスに データを連携 ビジネスユーザー データベース データガバナンスレイヤー 業務でよく使う画面に 埋め込んでデータを使う 一貫した指標定義によるデータガバナンスの実現 Looker (LookML) で、データボトルネックとデータカオスを防ぐことができる。
  34. 統合された管理指標 | バージョン管理 | 権限管理 | セキュリティ | 100% web

    ベース Looker データ プラットフォーム 可視化・分析 を行う SQL データベース BigQuery • 指標、テーブルの結合を LookML で事前に定義 • ビジネスユーザーはデータ構造・SQLの知識がなくと分析が可能 • データウェアハウスが集計を実行、Looker は結果を表示する SQLに自動変換 集計結果 Looker 全体像
  35. 統合された管理指標 | バージョン管理 | 権限管理 | セキュリティ | 100% web

    ベース Looker データ プラットフォーム 後続の アクション に繋 げる 可視化・分析 を行う 多くの SQL データベース BigQuery メールでレポートを配信 動的なアラート 他のプラットフォームにデータをエクスポート ML / AI ワークフローへのデータ供給 Looker 全体像
  36. 統合された管理指標 | バージョン管理 | 権限管理 | セキュリティ | 100% web

    ベース Looker データ プラットフォーム 後続の アクション に繋 げる 自社アプリに 組み込んで 活用 データの外販も 可視化・分析 を行う 多くの SQL データベース BigQuery Looker 全体像
  37. Proprietary + Confidential 非構造化 80% 構造化 20% 出典: 1 Google

    Cloud ブログ「データと AI の統合により BigQuery に非構造化データ分析を提供する」 2022 年 10 月 27 日 2 Box Blogsp「データの 90% は構造化されておらず、未開発の価値が詰まっています」 2023 年 8 月 25 日 非構造化データを活用できないことで、 莫大な価値 が失われている カスタマー エクスペリエンスの劣化 CSAT、ロイヤリティ、アドボカシー、支出の減少 業務効率の低下 人的資本の増加と長い処理時間 インサイトの欠如 収益の損失と意思決定の効率低下 コンプライアンス コスト コンプライアンス コストとコンプライアンス違反のリスクの上昇 世界中の組織が 73,000 エクサバイト以上 の非構造化データを生成すると予測2 非構造化データは、全データの約 80% を占める1 しかし、多くの企業ではこの非構造化データを活用できていないのが現状。
  38. Proprietary + Confidential Google Cloud で非構造化データの変換・加工・理解が簡単に 非構造化データの理解には、 Google のマルチモーダル AI

    Gemini を。 構造化を含む変換や加工には Gemini に加えて Document AI を。 https://solution.toppan.co.jp/bx/contents/cdp_contents07_0831.html 66 by Document AI / Gemini by Gemini
  39. Proprietary + Confidential 非構造化データの中でも 2種類ある ①定型フォームから数字や文字を抽出するもの ②その他の非構造化データの意味を理解して値を生成するもの 68 意味理解 +

    値生成 1. 帳票(フォーム)から数字や文字を取ればよいもの (Doc AI /Gemini を使い分け) 2. 文章や動画から意味を理解して 値を生成するもの (Gemini で対応可能) 例:請求書データ入力の自動化 例:動画データの内容理解+要約やメタ情報生成
  40. <非構造化データ> 紙の請求書 <構造化データ> 項目と値の自動抽出で テーブル作成 69 抽出・構造化 ケース1ー 請求書データ入力の自動化 帳票

    (フォーム ) から数字を取れば良いものの具体例 As Is To Be 業務受発注管理サービスで紙の 受発注書や請求書のデータを サービスに手入力するため、時間 やコストがかかりデータ活用をリア ルタイムに行えない 形式の異なる様々な請求書データ ファイルから自動で値を DBに登録 することでタイムリーに集計・分析 に活かし意思決定を最適化
  41. Document AI とその特徴 単純な OCR を超えた、書類特化の抽出・分類機。 • 帳票などの非構造化データから情報を抽出 • (単純な

    OCR として)読むだけでなく、書類の配置や間隔を理解する ◦ 例)書類の分類やフォームの質問と答えを自動的にキーと値のペアとして認識可能 • 他プロダクトと組み合わせることで、構造化データに変換した後にデータを分析や予測に活用できる 70 読みとる 01 活用する 03 認識する 02
  42. Proprietary + Confidential Document AI のメリット どの企業も避けて通れないのがドキュメントの処理。 DocAI を使うことで、時間・費用・分析の三つのメリットがある。 時間を節約する

    費用を節約する 分析情報を得る ドキュメントの取り扱いは煩雑 で、時間やリソースもかさみま す。 ドキュメントの保管には多くの費 用がかかります。 ドキュメントは差別化要因になり ますが、有用なデータを抽出する のは容易ではありません。 71
  43. 72 利用する際の媒体(インターフェース) Document AI は様々なインターフェースに対応。 導入のしやすさ /柔軟性/拡張性/分析とのスムーズな連携に優れる。 インタフェース 1. Web

    ブラウザで操作する Web コンソール(Google Cloud コンソール) 2. Python など各言語用の クライアントライブラリ 3. HTTPS でコールする Rest API 4. Document AI による処理を SQL で呼び出し可能(BigQuery と統合) メリット 1. 導入のしやすさ: スキルレベルやシステム環境に合った方法を選べる→スムーズに導入可 2. 柔軟性: ニーズの変化やシステム変更に合わせて、最適なインターフェースを選択・併用可 3. 拡張性: Document AI を既存システムやワークフローに組み込み、業務効率を大幅に向上 4. 深い分析: BigQuery 連携で、抽出したデータの分析から新たなビジネスインサイト獲得へ
  44. Proprietary + Confidential • API として提供 ◦ 処理を自動化するスクリプトを作成可能 • DocAI

    は統合エンドポイントをサポート ◦ 同じエンドポイントを利用することで、すべてのプロセッサーに対して同じクライアントライ ブラリと認証を使用できる利点 • API の応答 = Document Object ◦ 生のテキストやレイアウト、抽出された項目、言語などの情報を含む 73 API として利用可能 API として呼び出しが可能なので、お客様のアプリケーションに柔軟に取り込める。
  45. <非構造化データ> 動画データ <構造化データ> タイトルや内容の要約、カテゴリ、キー イベントなどのメタ情報 75 意味理解・値生成 As Is To

    Be 動画配信サービスにおいて、動画 量が大規模かつ動画の内容は多 岐に渡り、従来のキーワード抽出 やタグ付けでは十分な推薦品質 が得られない。高品質な内容理解 には人間の確認が必要。 大量で多様な動画の内容を自動 で理解し、内容の要約やカテゴリ、 キーイベントなどのメタ情報を効率 的に生成できることで、省力化と 推薦品質の向上を実現。 ケース2 – 動画データの内容理解+要約やメタ情報生成 文章や動画から意味を理解して値を生成するもの
  46. 情報登録 従来の作業 情報登録 従来の作業の自動化・負荷軽減 チェック 1. 対応数の限界 2. 品質のばらつき 3.

    長いリードタイム 従来作業の課題 1. 自動化による対応数の増加 2. 均質化 3. 短納期 AI 活用による期待効果 例:動画を説明したテキスト文書の作成業務 Gemini が自動で会話内容をテキスト化し、さらに顧客満足度や会話のポイントを分析する。
  47. プロンプト レスポンス この表を要約して 全体の44.8%が「非常に興味がある」と回答した。 年代別では、40代が最も高く48.0%、次いで30代が39.9%、50代が 44.5%、20代が57.2%、10代が51.9%、60代以上が41.8%となった。 非常に興味がある、ま たは、やや興味があ る人の割合は? 全体で77.4%です。

    年代別に見ると、10代が最も高く86.6%、次いで、20代が85.9%、30代が 78.7%、40代が76.9%、50代が75.9%、60代以上が74.5%となっていま す。 サンプル画像 プロンプトとレスポンスの例 画像に変換した ”表”の認識 Gemini 1.5 Pro の”意味理解 ”は業務上実用的なシチュエーションでも使用できる。
  48. Proprietary + Confidential 本日のまとめ • 本日は BigQuery, Gemini を中心にデータ分析や生成 AI

    の活用についてご 紹介しました • データ分析、生成 AI の活用は専門家だけの関心事では無くなり 、より様々 なシチュエーションで皆さんの業務 に活かせます • 生成 AI の力をうまく使いながら、Google Cloud を皆様の業務で是非ご活用 ください!