Slide 1

Slide 1 text

CTO協会共催 新卒合同研修 BigQuery で始めるデータ分析入門 & 生成 AI を活用した分析効率化 2024.06.26 Wed 17:00 - 19:00 {iwanariy, nozoyoshida}@google.com

Slide 2

Slide 2 text

Proprietary + Confidential Speakers Yuki Iwanari Customer Engineer Nozo Yoshida Customer Engineer

Slide 3

Slide 3 text

世界中の人がアクセスできて 使えるようにすること 世界中の情報を整理し、 Google のミッション Organize the world’s information and make it universally accessible and useful

Slide 4

Slide 4 text

Google 日本法人のビジョン Unlock Japan’s potential together 日本の可能性 デジタルの力で解き放とう、 with the power of digital

Slide 5

Slide 5 text

Google の日本における重点領域 ビジネスに革新を 社会の進歩に貢献を 一人ひとりに力を Innovate Business Advance Society Empower Everyone

Slide 6

Slide 6 text

本日のセッション 現代のビジネスでは、日々の業務からサービスの分析など、様々なシチュエーションにお いてデータ活用が不可欠です。 本日は、BigQuery による効率的なデータ保管・分析 をベースに、生成 AI を含む機械学 習や可視化プロダクトを組み合わせ、予測モデル構築からインサイトの把握まで データ分 析プロセス全体で Google Cloud をどのように活用 できるか、デモを交えながらご紹介し ます。

Slide 7

Slide 7 text

Proprietary + Confidential なぜデータ分析をするのか? データ分析の重要性 01

Slide 8

Slide 8 text

Proprietary + Confidential データ活用とは? 皆さんにとってのデータ、データ活用を考えてみよう 3 分間、近くの方と話してみましょう ● 誰が? ● 何に? ● どんなデータを? ● どうやって? 活用していますか? Made by Gemini Prompt; “data analytics discussion around the table”

Slide 9

Slide 9 text

Proprietary + Confidential そもそもデータ分析とは? データ→パターン →インサイト →アクションに繋げる一連の流れのこと。 9 ステップ 説明 具体例 データ 数値、テキスト、画像、音声など、生の情報 アクセスログ、購買履歴、顧客属性、商品情報 パターン データ分析で見つかる、データの傾向や規則 性、関係性 特定の商品を見たユーザーは、関連商品も買う確 率が高い インサイト パターンから読み取れる「本質的な理解」。 なぜそうなるのか?何が影響しているのか?を 考える ユーザーは関連商品情報も欲しがっている → おす すめ機能が重要 アクション インサイトに基づいて取る、具体的な行動 関連商品のレコメンド機能を強化して、使いやすく購 買も促す

Slide 10

Slide 10 text

Proprietary + Confidential 約50兆円 13% 日本国内で企業のビッグデータが一年に生んだ価値 (2010-2020 年平均) 出典:ビッグデータが生んだ価値、 GDP換算で年17兆円 内閣府 約 17 兆円/年 データが生む経済価値は莫大 今日のビジネスにおいて、在庫の最適化や売上予測などあらゆる場面でデータは活用される。 日本での経済価値は年平均で 17 兆円にも上る。

Slide 11

Slide 11 text

Proprietary + Confidential Made by Imagen 2 Prompt; “Illustration of a complex maze with business man inside it” なぜデータ分析が重要か? データ量・変数・ステークスホルダーが複雑化する現代の経済の中で、データに基づく意思決定の重 要性が増大

Slide 12

Slide 12 text

Proprietary + Confidential データ分析 x 生成AI 生成AIをデータ分析と組み合わせることで、 分析の効率化や新たなインサイトの発見に役立てることができる。 生成AIがデータ分析のコードを生成する例

Slide 13

Slide 13 text

Proprietary + Confidential データの種類と企業におけるデータ分析のターゲット 02

Slide 14

Slide 14 text

Proprietary + Confidential データとは? 事実や情報の集まり。 現実世界の事象を数値 /記号/文字などによって記録し、分析可能な形にしたもの。 14 Definition from Oxford languages

Slide 15

Slide 15 text

Proprietary + Confidential データの分類:非構造化データと構造化データ 構造化データはテーブル。 非構造化データはそれ以外で明確な形式を持たず、画像や動画、音声も含む。 https://solution.toppan.co.jp/bx/contents/cdp_contents07_0831.html 15

Slide 16

Slide 16 text

Proprietary + Confidential データ 企業が扱うデータ 大規模な 構造化データ 大規模な 非構造化データ 小規模な 非構造化データ 小規模な 構造化データ 企業が扱うデータは大規模。 データを「規模」と「種類」の二軸で考える。 企業のデータ=青い部分=「大規模な構造化データ」と「大規模な非構造化データ」の2つが多い。 とある会社だと・・・ データの種類:アクセスログ データ量: 6.5 PiB テーブル数: 約 15 万テーブル ジョブ実行回数: 160 万回 /month

Slide 17

Slide 17 text

Proprietary + Confidential 大規模な構造化データの分析 – その課題と解決策 03

Slide 18

Slide 18 text

データ プラットフォームを取り巻く環境 〜DX に求められる IT システムの要件 データをリアルタイムに使いたい形で使えること 変化に迅速に対応できるデリバリー スピードを 実現できること データを部門を越えて全社最適で活用できること 出典:経済産業省、 DX 推進指標とそのガイダンスより

Slide 19

Slide 19 text

データ プラットフォームを取り巻く環境 〜企業におけるデータ活用の用途拡大 データ利活用拡大 ● 市場分析・競合分析 ● 需要予測・生産計画 DX テーマ ● VOC(顧客の声)の分析 ● 異常・障害予測 ● 製造品質改善・不良部品検知 xxx

Slide 20

Slide 20 text

データ プラットフォームを取り巻く環境 〜データ活用に対する課題感 「情報システム部門がデータ活用の要 望に十分に答えられていない」  と感じ る割合が 約 70% 以上 出典: ITR(2018 年 4 月調査)

Slide 21

Slide 21 text

サイロ化するデータ データが 利用可能になるまでの時間 データ活用のための 3 つの ケイパビリティ課題 データを利用可能な インターフェース

Slide 22

Slide 22 text

リアルタイム、シームレスに 収集、アクション 誰でも分析可能、 コーディングレスでの ML 活用 あらゆる場所に分散したデータ SoR データ アプリ / Web データ Google Analytics Firebase SoE データ 部門別の基幹 DB 部門別の DWH 非構造化データ SaaS データ インスタンスの 分かれた ERP Google Cloud Smart Analytics ソリューション データレイクと データウェアハウス機能の シームレスな利用 オープンな 分析プラットフォーム (オープンソース or マルチクラウド)

Slide 23

Slide 23 text

エンド ツー エンドのデータ分析プラットフォーム スケーラブルな データ収集 信頼性のある ストリーム データ パイプライン 先進的な分析 データレイク データ ウェアハウス Pub/Sub Dataflow Dataproc Cloud Storage BigQuery Data Transfer Service Cloud Composer Storage Transfer Service Dataplex(データガバナンス) Cloud Data Fusion 処理 収集 蓄積 データ ウエアハウス 分析 BigQuery storage BigQuery analysis engine 活用 Vertex AI Datastream Sheets

Slide 24

Slide 24 text

スケーラブルな データ収集 信頼性のある ストリーム データ パイプライン 先進的な分析 データレイク データ ウェアハウス Pub/Sub Dataflow Dataproc Cloud Storage BigQuery Data Transfer Service Cloud Composer Storage Transfer Service Dataplex(データガバナンス) Cloud Data Fusion 処理 収集 蓄積 データ ウエアハウス 分析 BigQuery storage BigQuery analysis engine 活用 Vertex AI Datastream Sheets エンド ツー エンドのデータ分析プラットフォーム

Slide 25

Slide 25 text

ストリーミングデータを使った リアルタイムな分析 BigQuery Google Cloud の分析用 エンタープライズデータウェアハウス ギガバイトからペタバイト に対応したスト レージと SQL クエリ 暗号化され、耐久性がある、 そして高い可用性 サーバーレスでインフラ運用不要 UNIQUE UNIQUE すぐに活用できる AI 機能 高速インメモリなレポートと 分析を高速化する BI エンジン UNIQUE UNIQUE

Slide 26

Slide 26 text

Confidential & Proprietary 28 BigQuery: 設計思想 ● サーバーレスでスケーラビリティと費用対効果が高いクラウド データ ウェアハウス Analysis and insights BigQuery のサーバーレス分析 (管理負荷とチューニングを極小化) パフォーマンス チューニング モニタリング 信頼性 デプロイと設定 利用率の向上 分析と洞察 (< 15%) リソース プロビジョニング スケールの 調整 分析と洞察 ≒ 100% 従来のデータウェアハウス (チューニングすれば速いけど…)

Slide 27

Slide 27 text

BigQuery: 設計思想 ● サーバーレスでスケーラビリティと費用対効果が高いクラウド データ ウェアハウス SELECT your_data FROM billions_of_rows WHERE full_disk_scan_required = true; 1 TBを1秒でスキャン 29

Slide 28

Slide 28 text

Demo TB クラスのデータを BigQuery と Cloud SQL for PostgreSQL で集計! SELECT LANGUAGE, SUM(views) AS views FROM `bigquery-samples.wikipedia_benchmark.Wiki100B` WHERE REGEXP_CONTAINS(title,"G.*o.*o.*g") GROUP BY LANGUAGE ORDER BY views DESC

Slide 29

Slide 29 text

BigQuery | アーキテクチャ 最大限の柔軟性を実現する分離ストレージとコンピューティング ストリーミング取 り込み フリーバルク ローディング べーすの ペタビット ネットワーク 複製、分散ストレージ (99.9999999999% の耐久性) 分散メモリ シャッフル層 SQL:2011 準拠 REST API クライアント ライブラリ 7 言語で利用可能 Web ベースのUI, CLI ODBC/JDBC 高可用性- クラスタ コンピューティング (Dremel) BI Engine コンピューティング (ステートフル ワーカー) BigQuery

Slide 30

Slide 30 text

BigQuery リモート メモリ シャッフル シャッフル ワーカー ワーカー GROUP BY state COUNT(*) SELECT state ワーカー ワーカー ワーカー WHERE year... SHUFFLE BY state 分散ストレージ 複雑なクエリのパフォーマンスの高速化 より多くのデータを結合して集約 優れたスケーラビリティ

Slide 31

Slide 31 text

BigQuery ML とは 1 2 3 BigQuery からデータを 移動せずに 機械学習モデル作成 使い慣れた SQL で 開発速度を向上 一般的な ML タスクと ハイパーパラメータ チューニングを自動化

Slide 32

Slide 32 text

ユーザーの検索クエリを 11 種類の目的に分類 LLM を活用した ユーザーの検索目的分 類 SELECT * FROM ML.GENERATE_TEXT( MODEL `llm-sandbox-dummy.llms.llm_v1`, ( SELECT keyword, CONCAT( 'textに対応するintentを以下のカテゴリの中からふさわしいものを 選んでください。 text:', keyword, """intent: 「病気について」「症状について」「診断について」「検査につい て」「治療について」「薬について」「健康診断について」「手続きや支援につ いて」「受診について」「病院について」「その他」 # 出力形式 {"text": string , "intent": string} # 出力例 {"text": "カレーライス", "intent": "その他"} {"text": "帯状疱疹", "intent": "病気について"} """) AS prompt FROM `llm-sandbox-dummy.llms.search_keywords` ), STRUCT( 0.8 AS temperature, 1024 AS max_output_tokens, 0.95 AS top_p, 40 AS top_k, TRUE AS flatten_json_output ) )

Slide 33

Slide 33 text

ペタバイト規模の分析をスプレッドシートで Connected Sheets ● BigQuery への容易な接続、表示に よるインサイトの獲得 ● スプレッドシートでセルフサービスで アドホック分析(ピボット、フィルタリ ング等) SQL の知識は不要 ● ピボットの操作に伴い集計の SQL が自動で生成 / 実行 ● ペタバイト規模にも対応 集計処理は BigQuery で実行され 結果が Sheets に表示 35

Slide 34

Slide 34 text

36 Gemini in BigQuery コンテキスト アシスタント - GoogleSQL と Python 向け に最適化 自然言語から SQL 生成 - 自社のデータセットに基づ いて新しいクエリをブートストラップ 自然言語から Python 生成 - Colab notebooks インライン SQL 補完 - クエリコンテキストに基づいたレ コメンデーション 統合されたチャット - 複雑なクエリを理解し、分析者を サポート セキュアモデルの統合 - データとプロンプトは Google Cloud 上で実行 すべてのデータ プラクティショナーのインサイトを加速させる 生成 AI との “統合” プレビュー

Slide 35

Slide 35 text

37 BigQuery data canvas データの探索と可視化を実現する GenAI 中心のエクスペリエンス ユーザを支援するインタラクティブなエクス ペリエンス BigQuery Studio との統合 Dataplex catalog のセマンティックなデータ ディスカバリ データアナリスト向けの ビルドインされたコ ラボレーション機能 ユーザの思考をインサイトに変える “生成 AI 中心” の新しいエクスペリエンス プレビュー

Slide 36

Slide 36 text

Demo ● `bigquery-samples.wikipedia_benchmark.Wiki100B` を スプレッドシートで分析! ● Gemini in BigQuery ● Data Canvas ● BigQuery Studio

Slide 37

Slide 37 text

1 万 あるお客様での クエリ同時実行数 350 PB あるお客様が 1 社で 保管しているデータ 100 兆行 いくつかのお客様での クエリ対象行数 数字で見る BigQuery Google 調べ 1PB 以上利用のお客様は 数百社以上

Slide 38

Slide 38 text

ストリーミングデータを使った リアルタイムな分析 BigQuery Google Cloud の分析用 エンタープライズデータウェアハウス ギガバイトからペタバイト に対応したスト レージと SQL クエリ 暗号化され、耐久性がある、 そして高い可用性 サーバーレスでインフラ運用不要 UNIQUE UNIQUE すぐに活用できる AI 機能 高速インメモリなレポートと 分析を高速化する BI エンジン UNIQUE UNIQUE 再掲

Slide 39

Slide 39 text

状況にあわせて活用可能な BigQuery 高速化機能 パーティショニング クラスタリング コンピューティングワーカー 分散ストレージ マテリアライズドビュー BI Engine レイテンシ 低 キャッシュレ ベル Very Hot (GB) Hot (10’sTB) Warm (100’s TB) Cold (PB) 高 超高速、セルフチューニング 柔軟なパーティショニング(日付、整数、時間)と 自動再クラスタリング メンテナンス不要、常に最新の自動クエリ書き換え ストリーミングイン サート 一括読み込み

Slide 40

Slide 40 text

パーティション分割テーブル 必要な部分のみ効率的にクエリ ● “パーティション” という 単位でデータが分割された テーブル ● パーティショニングキー ○ 取込時間 ○ 日付 / タイムスタンプ ○ 整数 パーティション (20200101) レコード レコード レコード レコード レコード パーティション (20200102) レコード レコード レコード レコード レコード SELECT c1, c3 FROM dataset.table WHERE Date = ‘20200101’ …

Slide 41

Slide 41 text

パーティション分割テーブル作成例 ● 日付型の dt カラムをパーティショニング キーとしたテーブルの作成 create table dataset.table (dt date, id int64) partition by dt パーティション (20200101) パーティション (20200102) パーティション (20201231) … レコード レコード レコード レコード レコード レコード レコード レコード レコード レコード レコード レコード レコード レコード レコード

Slide 42

Slide 42 text

パーティション分割テーブル検索例 ● dt カラムでの絞り込み → パーティション プルーニング select * from dataset.table where dt = '2020-01-01' パーティション (20200101) パーティション (20200102) パーティション (20201231) … レコード レコード レコード レコード レコード レコード レコード レコード レコード レコード レコード レコード レコード レコード レコード

Slide 43

Slide 43 text

パーティション分割テーブルの速度改善例 (11 -> 3秒) パーティショニング カラム:なし パーティショニング カラム:event_date

Slide 44

Slide 44 text

クラスタ化テーブル 頻繁に参照するフィールドへのアクセスを高速に ● テーブル内のデータを特定 カラムでソートして保存 ● スキャン対象を必要最低限 のブロックに限定することで 検索効率を向上(ブロック プルーニング) ● クラスタリング カラムは最大 4 つまで設定可能 20200601 20200602 20200603 20200604 20200605 Aa to Fa Fb to Me Mf to Ro Rp to To To to Zz SELECT * FROM Table WHERE date = “2020/06/03” AND userID in (“Bob”,”Tom”)

Slide 45

Slide 45 text

クラスタ化テーブル作成例 ● 整数型の id カラムがクラスタリング カラムとなるテーブルの作成 create table dataset.table (dt date, id int64) partition by dt cluster by id パーティション (20200101) ブロック ブロック ブロック レコード (id = 1) レコード (id = 1) レコード (id = 2) レコード (id = 2) レコード (id = 2) レコード (id = 2) レコード (id = 3) レコード (id = 3) レコード (id = 3) パーティション (20200102) ブロック ブロック ブロック レコード (id = 1) レコード (id = 1) レコード (id = 1) レコード (id = 1) レコード (id = 2) レコード (id = 2) レコード (id = 2) レコード (id = 2) レコード (id = 3)

Slide 46

Slide 46 text

クラスタ化テーブルクエリ例 ● dt & id カラムでの絞り込み → パーティション&ブロック プルーニング select * from dataset.table where dt = '2020-01-01' and id = 1 パーティション (20200101) ブロック ブロック ブロック レコード (id = 1) レコード (id = 1) レコード (id = 2) レコード (id = 2) レコード (id = 2) レコード (id = 2) レコード (id = 3) レコード (id = 3) レコード (id = 3) パーティション (20200102) ブロック ブロック ブロック レコード (id = 1) レコード (id = 1) レコード (id = 1) レコード (id = 1) レコード (id = 2) レコード (id = 2) レコード (id = 2) レコード (id = 2) レコード (id = 3)

Slide 47

Slide 47 text

クラスタ化テーブルによる改善例( 3 -> 1 秒) クラスタリング:なし クラスタリング カラム:user_pseudo_id * event_dateでパーティショニング済み

Slide 48

Slide 48 text

マテリアライズドビュー 事前集計済みのクエリキャッシュビューでより安価に高速化 使いやすさ - 一度定義しておく と、BigQuery が自動かつ定期 的に再計算 (差分 or 全体) 効率性 - 可能な場合クエリは 自動的に MV にリダイレクト 整合性 - 常に最新データを参 照可能 マテリアライズドビュー 元データ 自動リフレッシュ リダイレクト

Slide 49

Slide 49 text

マテリアライズド ビュー作成例 ● transactions テーブルの集計結果を保持するマテリアライズド ビューの作成 create materialized view dataset.mv partition by dt cluster by item_id as select dt, item_id, sum(amount) as amount from `project-id.dataset.transactions` group by dt, item_id dt user_id item_id amount 2020-01-01 1 1 10 2020-01-01 1 2 20 2020-01-01 2 1 30 2020-01-01 2 2 40 transactions dt item_id amount 2020-01-01 1 40 2020-01-01 2 60 mv

Slide 50

Slide 50 text

マテリアライズド ビューの改善例 (4 -> 0.3 秒) クラスタ化テーブルを集計 マテリアライズド ビューの 事前集計済みデータを取得

Slide 51

Slide 51 text

BI Engine ● レポートとダッシュボードを 高速化する BI ツール用のイ ンメモリデータ分析エンジン ● BigQuery のデータ読み込 みを最小限に抑え、検索の 効率と同時実行性を向上 ● 現在は Looker Studioで使 用可能

Slide 52

Slide 52 text

スケーラブルな データ収集 信頼性のある ストリーム データ パイプライン 先進的な分析 データレイク データ ウェアハウス Pub/Sub Dataflow Dataproc Cloud Storage BigQuery Data Transfer Service Cloud Composer Storage Transfer Service Dataplex(データガバナンス) Cloud Data Fusion 処理 収集 蓄積 データ ウエアハウス 分析 BigQuery storage BigQuery analysis engine 活用 Vertex AI Datastream Sheets エンド ツー エンドのデータ分析プラットフォーム

Slide 53

Slide 53 text

Proprietary + Confidential 誰がデータを利活用するのか? ビジネスユーザーもデータを活用(可視化)することで、組織にデータドリブンな文化をもたらせる 営業 マーケティング バックオフィス 人事

Slide 54

Slide 54 text

Proprietary + Confidential データ利活用の推進・データドリブン文化実現によくある課題 データボトルネックとデータカオスの二つの課題がある。 課題 1:データボトルネック データ抽出に SQL を使う場合、作業者が 限られるので分析・活用が順番待ち 課題2:データカオス 個々人が自由にデータ集計と レポーティングをすることによる混乱 IT担当者等 SQLで 抽出 ビジネスユーザー データベース ビジネスユーザー レポート閲覧者 データベース ツールで抽出し集計とレポート作成 +-×÷ +-×÷ +-×÷ データ データ データ データ ユーザー に展開 どれが正しい 売上達成率? ・ユーザーにデータをタイムリーに展開できない ・SQL の共通管理が困難で、業務が属人化 ・指標の定義が氾濫し、正しい意思決定を妨げる ・定義を変更する際にレポート単位で集計変更が必要

Slide 55

Slide 55 text

Proprietary + Confidential Proprietary + Confidential Looker (LookML) で実現 データ 事前に定義された指標 (説明軸・集計値 )を使い レポーティング作成やデータ活用を行う 一貫した指標定義 による データガバナンスで正しい シングルデータソース徹底 データ +-×÷ SQL を 自動生成 全て共通の指標定義なので 正しく意思決定ができる リアルタイム データ取得 レポーティング以外の 業務にもシームレスに データを連携 ビジネスユーザー データベース データガバナンスレイヤー 業務でよく使う画面に 埋め込んでデータを使う 一貫した指標定義によるデータガバナンスの実現 Looker (LookML) で、データボトルネックとデータカオスを防ぐことができる。

Slide 56

Slide 56 text

Proprietary + Confidential Proprietary + Confidential LookML によるデータガバナンスの実現 データボトルネックとデータカオスを防ぐ特徴

Slide 57

Slide 57 text

Proprietary + Confidential Looker 全体像 データの定義や集計方法を標準化し、分析結果の信頼性とデータガバナンスを向上

Slide 58

Slide 58 text

統合された管理指標 | バージョン管理 | 権限管理 | セキュリティ | 100% web ベース Looker データ プラットフォーム 可視化・分析 を行う SQL データベース BigQuery ● 指標、テーブルの結合を LookML で事前に定義 ● ビジネスユーザーはデータ構造・SQLの知識がなくと分析が可能 ● データウェアハウスが集計を実行、Looker は結果を表示する SQLに自動変換 集計結果 Looker 全体像

Slide 59

Slide 59 text

統合された管理指標 | バージョン管理 | 権限管理 | セキュリティ | 100% web ベース Looker データ プラットフォーム 後続の アクション に繋 げる 可視化・分析 を行う 多くの SQL データベース BigQuery メールでレポートを配信 動的なアラート 他のプラットフォームにデータをエクスポート ML / AI ワークフローへのデータ供給 Looker 全体像

Slide 60

Slide 60 text

統合された管理指標 | バージョン管理 | 権限管理 | セキュリティ | 100% web ベース Looker データ プラットフォーム 後続の アクション に繋 げる 自社アプリに 組み込んで 活用 データの外販も 可視化・分析 を行う 多くの SQL データベース BigQuery Looker 全体像

Slide 61

Slide 61 text

Proprietary + Confidential 大規模な非構造化データの分析 – その課題と解決策 04

Slide 62

Slide 62 text

Proprietary + Confidential 非構造化 80% 構造化 20% 出典: 1 Google Cloud ブログ「データと AI の統合により BigQuery に非構造化データ分析を提供する」 2022 年 10 月 27 日 2 Box Blogsp「データの 90% は構造化されておらず、未開発の価値が詰まっています」 2023 年 8 月 25 日 非構造化データを活用できないことで、 莫大な価値 が失われている カスタマー エクスペリエンスの劣化 CSAT、ロイヤリティ、アドボカシー、支出の減少 業務効率の低下 人的資本の増加と長い処理時間 インサイトの欠如 収益の損失と意思決定の効率低下 コンプライアンス コスト コンプライアンス コストとコンプライアンス違反のリスクの上昇 世界中の組織が 73,000 エクサバイト以上 の非構造化データを生成すると予測2 非構造化データは、全データの約 80% を占める1 しかし、多くの企業ではこの非構造化データを活用できていないのが現状。

Slide 63

Slide 63 text

Proprietary + Confidential https://solution.toppan.co.jp/bx/contents/cdp_contents07_0831.html 65 非構造化データの活用はなぜ難しい? 構造定義を持たないため、分析や処理が難しい。 分析・活用しやすい形への「変換・加工」の前処理が必要。

Slide 64

Slide 64 text

Proprietary + Confidential Google Cloud で非構造化データの変換・加工・理解が簡単に 非構造化データの理解には、 Google のマルチモーダル AI Gemini を。 構造化を含む変換や加工には Gemini に加えて Document AI を。 https://solution.toppan.co.jp/bx/contents/cdp_contents07_0831.html 66 by Document AI / Gemini by Gemini

Slide 65

Slide 65 text

Proprietary + Confidential 企業が扱うデータ 構造化データ 非構造化データ 非構造化データの分析パターン ①構造化データに変換して、構造化データとして分析 ②非構造化データのまま、内容を理解させて分析 ①一度構造化挟む ②そのまま 分析 分析 ①

Slide 66

Slide 66 text

Proprietary + Confidential 非構造化データの中でも 2種類ある ①定型フォームから数字や文字を抽出するもの ②その他の非構造化データの意味を理解して値を生成するもの 68 意味理解 + 値生成 1. 帳票(フォーム)から数字や文字を取ればよいもの (Doc AI /Gemini を使い分け) 2. 文章や動画から意味を理解して 値を生成するもの (Gemini で対応可能) 例:請求書データ入力の自動化 例:動画データの内容理解+要約やメタ情報生成

Slide 67

Slide 67 text

<非構造化データ> 紙の請求書 <構造化データ> 項目と値の自動抽出で テーブル作成 69 抽出・構造化 ケース1ー 請求書データ入力の自動化 帳票 (フォーム ) から数字を取れば良いものの具体例 As Is To Be 業務受発注管理サービスで紙の 受発注書や請求書のデータを サービスに手入力するため、時間 やコストがかかりデータ活用をリア ルタイムに行えない 形式の異なる様々な請求書データ ファイルから自動で値を DBに登録 することでタイムリーに集計・分析 に活かし意思決定を最適化

Slide 68

Slide 68 text

Document AI とその特徴 単純な OCR を超えた、書類特化の抽出・分類機。 ● 帳票などの非構造化データから情報を抽出 ● (単純な OCR として)読むだけでなく、書類の配置や間隔を理解する ○ 例)書類の分類やフォームの質問と答えを自動的にキーと値のペアとして認識可能 ● 他プロダクトと組み合わせることで、構造化データに変換した後にデータを分析や予測に活用できる 70 読みとる 01 活用する 03 認識する 02

Slide 69

Slide 69 text

Proprietary + Confidential Document AI のメリット どの企業も避けて通れないのがドキュメントの処理。 DocAI を使うことで、時間・費用・分析の三つのメリットがある。 時間を節約する 費用を節約する 分析情報を得る ドキュメントの取り扱いは煩雑 で、時間やリソースもかさみま す。 ドキュメントの保管には多くの費 用がかかります。 ドキュメントは差別化要因になり ますが、有用なデータを抽出する のは容易ではありません。 71

Slide 70

Slide 70 text

72 利用する際の媒体(インターフェース) Document AI は様々なインターフェースに対応。 導入のしやすさ /柔軟性/拡張性/分析とのスムーズな連携に優れる。 インタフェース 1. Web ブラウザで操作する Web コンソール(Google Cloud コンソール) 2. Python など各言語用の クライアントライブラリ 3. HTTPS でコールする Rest API 4. Document AI による処理を SQL で呼び出し可能(BigQuery と統合) メリット 1. 導入のしやすさ: スキルレベルやシステム環境に合った方法を選べる→スムーズに導入可 2. 柔軟性: ニーズの変化やシステム変更に合わせて、最適なインターフェースを選択・併用可 3. 拡張性: Document AI を既存システムやワークフローに組み込み、業務効率を大幅に向上 4. 深い分析: BigQuery 連携で、抽出したデータの分析から新たなビジネスインサイト獲得へ

Slide 71

Slide 71 text

Proprietary + Confidential ● API として提供 ○ 処理を自動化するスクリプトを作成可能 ● DocAI は統合エンドポイントをサポート ○ 同じエンドポイントを利用することで、すべてのプロセッサーに対して同じクライアントライ ブラリと認証を使用できる利点 ● API の応答 = Document Object ○ 生のテキストやレイアウト、抽出された項目、言語などの情報を含む 73 API として利用可能 API として呼び出しが可能なので、お客様のアプリケーションに柔軟に取り込める。

Slide 72

Slide 72 text

Proprietary + Confidential 74 Demo movie

Slide 73

Slide 73 text

<非構造化データ> 動画データ <構造化データ> タイトルや内容の要約、カテゴリ、キー イベントなどのメタ情報 75 意味理解・値生成 As Is To Be 動画配信サービスにおいて、動画 量が大規模かつ動画の内容は多 岐に渡り、従来のキーワード抽出 やタグ付けでは十分な推薦品質 が得られない。高品質な内容理解 には人間の確認が必要。 大量で多様な動画の内容を自動 で理解し、内容の要約やカテゴリ、 キーイベントなどのメタ情報を効率 的に生成できることで、省力化と 推薦品質の向上を実現。 ケース2 – 動画データの内容理解+要約やメタ情報生成 文章や動画から意味を理解して値を生成するもの

Slide 74

Slide 74 text

Gemini 1.5 Pro 長いプロンプトに対する マルチモーダルな推論 Gemini 1.5 Pro Vertex AI 上の Google の基盤モデル

Slide 75

Slide 75 text

情報登録 従来の作業 情報登録 従来の作業の自動化・負荷軽減 チェック 1. 対応数の限界 2. 品質のばらつき 3. 長いリードタイム 従来作業の課題 1. 自動化による対応数の増加 2. 均質化 3. 短納期 AI 活用による期待効果 例:動画を説明したテキスト文書の作成業務 Gemini が自動で会話内容をテキスト化し、さらに顧客満足度や会話のポイントを分析する。

Slide 76

Slide 76 text

写っている内容(人 物、建物、風景など) を説明 テロップとして 表示されている文 字情報 音声の 文字起こしテキスト 例:動画を説明したテキスト文書の作成業務 映像内容・テロップ・音声を分離して構造化データとして自動出力

Slide 77

Slide 77 text

Gemini 1.5 Pro を用いたアプリケーション ニアリアルタイムのレイテンシの映像理解・記憶・推論

Slide 78

Slide 78 text

プロンプト レスポンス この表を要約して 全体の44.8%が「非常に興味がある」と回答した。 年代別では、40代が最も高く48.0%、次いで30代が39.9%、50代が 44.5%、20代が57.2%、10代が51.9%、60代以上が41.8%となった。 非常に興味がある、ま たは、やや興味があ る人の割合は? 全体で77.4%です。 年代別に見ると、10代が最も高く86.6%、次いで、20代が85.9%、30代が 78.7%、40代が76.9%、50代が75.9%、60代以上が74.5%となっていま す。 サンプル画像 プロンプトとレスポンスの例 画像に変換した ”表”の認識 Gemini 1.5 Pro の”意味理解 ”は業務上実用的なシチュエーションでも使用できる。

Slide 79

Slide 79 text

動画コンテンツをソースとした検索・ QAシステムのデモ 動画理解をベースにしたアプリケーション例 Gemini 1.5 は動画の理解も得意。

Slide 80

Slide 80 text

Proprietary + Confidential 本日学んだことのまとめ 05

Slide 81

Slide 81 text

Proprietary + Confidential 本日のまとめ ● 本日は BigQuery, Gemini を中心にデータ分析や生成 AI の活用についてご 紹介しました ● データ分析、生成 AI の活用は専門家だけの関心事では無くなり 、より様々 なシチュエーションで皆さんの業務 に活かせます ● 生成 AI の力をうまく使いながら、Google Cloud を皆様の業務で是非ご活用 ください!