[配布用][CTO協会様向け] BigQuery で始めるデータ分析入門 & 生成 AI を活用した分析効率化

by GoogleCloudPlatformJapan

Embed

Start on current slide

Slide 1

Slide 1 text

CTO協会共催新卒合同研修 BigQuery で始めるデータ分析入門 & 生成 AI を活用した分析効率化 2024.06.26 Wed 17:00 - 19:00 {iwanariy, nozoyoshida}@google.com

Slide 2

Slide 2 text

Proprietary + Confidential Speakers Yuki Iwanari Customer Engineer Nozo Yoshida Customer Engineer

Slide 3

Slide 3 text

世界中の人がアクセスできて使えるようにすること世界中の情報を整理し、 Google のミッション Organize the world’s information and make it universally accessible and useful

Slide 4

Slide 4 text

Google 日本法人のビジョン Unlock Japan’s potential together 日本の可能性デジタルの力で解き放とう、 with the power of digital

Slide 5

Slide 5 text

Google の日本における重点領域ビジネスに革新を社会の進歩に貢献を一人ひとりに力を Innovate Business Advance Society Empower Everyone

Slide 6

Slide 6 text

本日のセッション現代のビジネスでは、日々の業務からサービスの分析など、様々なシチュエーションにおいてデータ活用が不可欠です。本日は、BigQuery による効率的なデータ保管・分析をベースに、生成 AI を含む機械学習や可視化プロダクトを組み合わせ、予測モデル構築からインサイトの把握までデータ分析プロセス全体で Google Cloud をどのように活用できるか、デモを交えながらご紹介します。

Slide 7

Slide 7 text

Proprietary + Conﬁdential なぜデータ分析をするのか？データ分析の重要性 01

Slide 8

Slide 8 text

Proprietary + Confidential データ活用とは？皆さんにとってのデータ、データ活用を考えてみよう 3 分間、近くの方と話してみましょう ● 誰が？ ● 何に？ ● どんなデータを？ ● どうやって？活用していますか？ Made by Gemini Prompt; “data analytics discussion around the table”

Slide 9

Slide 9 text

Proprietary + Confidential そもそもデータ分析とは？データ→パターン →インサイト →アクションに繋げる一連の流れのこと。 9 ステップ説明具体例データ数値、テキスト、画像、音声など、生の情報アクセスログ、購買履歴、顧客属性、商品情報パターンデータ分析で見つかる、データの傾向や規則性、関係性特定の商品を見たユーザーは、関連商品も買う確率が高いインサイトパターンから読み取れる「本質的な理解」。なぜそうなるのか？何が影響しているのか？を考えるユーザーは関連商品情報も欲しがっている → おすすめ機能が重要アクションインサイトに基づいて取る、具体的な行動関連商品のレコメンド機能を強化して、使いやすく購買も促す

Slide 10

Slide 10 text

Proprietary + Confidential 約50兆円 13% 日本国内で企業のビッグデータが一年に生んだ価値 (2010-2020 年平均) 出典：ビッグデータが生んだ価値、 GDP換算で年17兆円　内閣府約 17 兆円/年データが生む経済価値は莫大今日のビジネスにおいて、在庫の最適化や売上予測などあらゆる場面でデータは活用される。日本での経済価値は年平均で 17 兆円にも上る。

Slide 11

Slide 11 text

Proprietary + Confidential Made by Imagen 2 Prompt; “Illustration of a complex maze with business man inside it” なぜデータ分析が重要か？データ量・変数・ステークスホルダーが複雑化する現代の経済の中で、データに基づく意思決定の重要性が増大

Slide 12

Slide 12 text

Proprietary + Confidential データ分析 x 生成AI 生成AIをデータ分析と組み合わせることで、分析の効率化や新たなインサイトの発見に役立てることができる。生成AIがデータ分析のコードを生成する例

Slide 13

Slide 13 text

Proprietary + Conﬁdential データの種類と企業におけるデータ分析のターゲット 02

Slide 14

Slide 14 text

Proprietary + Confidential データとは？事実や情報の集まり。現実世界の事象を数値 /記号/文字などによって記録し、分析可能な形にしたもの。 14 Definition from Oxford languages

Slide 15

Slide 15 text

Proprietary + Confidential データの分類：非構造化データと構造化データ構造化データはテーブル。非構造化データはそれ以外で明確な形式を持たず、画像や動画、音声も含む。 https://solution.toppan.co.jp/bx/contents/cdp_contents07_0831.html 15

Slide 16

Slide 16 text

Proprietary + Confidential データ企業が扱うデータ大規模な構造化データ大規模な非構造化データ小規模な非構造化データ小規模な構造化データ企業が扱うデータは大規模。データを「規模」と「種類」の二軸で考える。企業のデータ＝青い部分＝「大規模な構造化データ」と「大規模な非構造化データ」の２つが多い。とある会社だと・・・データの種類：アクセスログデータ量: 6.5 PiB テーブル数: 約 15 万テーブルジョブ実行回数: 160 万回 /month

Slide 17

Slide 17 text

Proprietary + Conﬁdential 大規模な構造化データの分析 – その課題と解決策 03

Slide 18

Slide 18 text

データプラットフォームを取り巻く環境〜DX に求められる IT システムの要件データをリアルタイムに使いたい形で使えること変化に迅速に対応できるデリバリースピードを実現できることデータを部門を越えて全社最適で活用できること出典：経済産業省、 DX 推進指標とそのガイダンスより

Slide 19

Slide 19 text

データプラットフォームを取り巻く環境〜企業におけるデータ活用の用途拡大データ利活用拡大 ● 市場分析・競合分析 ● 需要予測・生産計画 DX テーマ ● VOC（顧客の声）の分析 ● 異常・障害予測 ● 製造品質改善・不良部品検知 xxx

Slide 20

Slide 20 text

データプラットフォームを取り巻く環境〜データ活用に対する課題感「情報システム部門がデータ活用の要望に十分に答えられていない」　と感じる割合が約 70％以上出典: ITR（2018 年 4 月調査）

Slide 21

Slide 21 text

サイロ化するデータデータが利用可能になるまでの時間データ活用のための 3 つのケイパビリティ課題データを利用可能なインターフェース

Slide 22

Slide 22 text

リアルタイム、シームレスに収集、アクション誰でも分析可能、コーディングレスでの ML 活用あらゆる場所に分散したデータ SoR データアプリ / Web データ Google Analytics Firebase SoE データ部門別の基幹 DB 部門別の DWH 非構造化データ SaaS データインスタンスの分かれた ERP Google Cloud Smart Analytics ソリューションデータレイクとデータウェアハウス機能のシームレスな利用オープンな分析プラットフォーム（オープンソース or マルチクラウド）

Slide 23

Slide 23 text

エンドツーエンドのデータ分析プラットフォームスケーラブルなデータ収集信頼性のあるストリームデータパイプライン先進的な分析データレイクデータウェアハウス Pub/Sub Dataﬂow Dataproc Cloud Storage BigQuery Data Transfer Service Cloud Composer Storage Transfer Service Dataplex（データガバナンス） Cloud Data Fusion 処理収集蓄積データウエアハウス分析 BigQuery storage BigQuery analysis engine 活用 Vertex AI Datastream Sheets

Slide 24

Slide 24 text

スケーラブルなデータ収集信頼性のあるストリームデータパイプライン先進的な分析データレイクデータウェアハウス Pub/Sub Dataﬂow Dataproc Cloud Storage BigQuery Data Transfer Service Cloud Composer Storage Transfer Service Dataplex（データガバナンス） Cloud Data Fusion 処理収集蓄積データウエアハウス分析 BigQuery storage BigQuery analysis engine 活用 Vertex AI Datastream Sheets エンドツーエンドのデータ分析プラットフォーム

Slide 25

Slide 25 text

ストリーミングデータを使ったリアルタイムな分析 BigQuery Google Cloud の分析用エンタープライズデータウェアハウスギガバイトからペタバイトに対応したストレージと SQL クエリ暗号化され、耐久性がある、そして高い可用性サーバーレスでインフラ運用不要 UNIQUE UNIQUE すぐに活用できる AI 機能高速インメモリなレポートと分析を高速化する BI エンジン UNIQUE UNIQUE

Slide 26

Slide 26 text

Conﬁdential & Proprietary 28 BigQuery: 設計思想 ● サーバーレスでスケーラビリティと費用対効果が高いクラウドデータウェアハウス Analysis and insights BigQuery のサーバーレス分析 (管理負荷とチューニングを極小化) パフォーマンスチューニングモニタリング信頼性デプロイと設定利用率の向上分析と洞察 (< 15%) リソースプロビジョニングスケールの調整分析と洞察 ≒ 100% 従来のデータウェアハウス (チューニングすれば速いけど…)

Slide 27

Slide 27 text

BigQuery: 設計思想 ● サーバーレスでスケーラビリティと費用対効果が高いクラウドデータウェアハウス SELECT your_data FROM billions_of_rows WHERE full_disk_scan_required = true; 1 TBを1秒でスキャン 29

Slide 28

Slide 28 text

Demo TB クラスのデータを BigQuery と Cloud SQL for PostgreSQL で集計！ SELECT LANGUAGE, SUM(views) AS views FROM `bigquery-samples.wikipedia_benchmark.Wiki100B` WHERE REGEXP_CONTAINS(title,"G.*o.*o.*g") GROUP BY LANGUAGE ORDER BY views DESC

Slide 29

Slide 29 text

BigQuery | アーキテクチャ最大限の柔軟性を実現する分離ストレージとコンピューティングストリーミング取り込みフリーバルクローディングべーすのペタビットネットワーク複製、分散ストレージ (99.9999999999% の耐久性) 分散メモリシャッフル層 SQL:2011 準拠 REST API クライアントライブラリ 7 言語で利用可能 Web ベースのUI, CLI ODBC/JDBC 高可用性- クラスタコンピューティング (Dremel) BI Engine コンピューティング（ステートフルワーカー） BigQuery

Slide 30

Slide 30 text

BigQuery リモートメモリシャッフルシャッフルワーカーワーカー GROUP BY state COUNT(*) SELECT state ワーカーワーカーワーカー WHERE year... SHUFFLE BY state 分散ストレージ複雑なクエリのパフォーマンスの高速化より多くのデータを結合して集約優れたスケーラビリティ

Slide 31

Slide 31 text

BigQuery ML とは 1 2 3 BigQuery からデータを移動せずに機械学習モデル作成使い慣れた SQL で開発速度を向上一般的な ML タスクとハイパーパラメータチューニングを自動化

Slide 32

Slide 32 text

ユーザーの検索クエリを 11 種類の目的に分類 LLM を活用したユーザーの検索目的分類 SELECT * FROM ML.GENERATE_TEXT( MODEL `llm-sandbox-dummy.llms.llm_v1`, ( SELECT keyword, CONCAT( 'textに対応するintentを以下のカテゴリの中からふさわしいものを選んでください。 text:', keyword, """intent: 「病気について」「症状について」「診断について」「検査について」「治療について」「薬について」「健康診断について」「手続きや支援について」「受診について」「病院について」「その他」 # 出力形式 {"text": string , "intent": string} # 出力例 {"text": "カレーライス", "intent": "その他"} {"text": "帯状疱疹", "intent": "病気について"} """) AS prompt FROM `llm-sandbox-dummy.llms.search_keywords` ), STRUCT( 0.8 AS temperature, 1024 AS max_output_tokens, 0.95 AS top_p, 40 AS top_k, TRUE AS flatten_json_output ) )

Slide 33

Slide 33 text

ペタバイト規模の分析をスプレッドシートで Connected Sheets ● BigQuery への容易な接続、表示によるインサイトの獲得 ● スプレッドシートでセルフサービスでアドホック分析（ピボット、フィルタリング等） SQL の知識は不要 ● ピボットの操作に伴い集計の SQL が自動で生成 / 実行 ● ペタバイト規模にも対応集計処理は BigQuery で実行され結果が Sheets に表示 35

Slide 34

Slide 34 text

36 Gemini in BigQuery コンテキストアシスタント - GoogleSQL と Python 向けに最適化自然言語から SQL 生成 - 自社のデータセットに基づいて新しいクエリをブートストラップ自然言語から Python 生成 - Colab notebooks インライン SQL 補完 - クエリコンテキストに基づいたレコメンデーション統合されたチャット - 複雑なクエリを理解し、分析者をサポートセキュアモデルの統合 - データとプロンプトは Google Cloud 上で実行すべてのデータプラクティショナーのインサイトを加速させる生成 AI との “統合” プレビュー

Slide 35

Slide 35 text

37 BigQuery data canvas データの探索と可視化を実現する GenAI 中心のエクスペリエンスユーザを支援するインタラクティブなエクスペリエンス BigQuery Studio との統合 Dataplex catalog のセマンティックなデータディスカバリデータアナリスト向けのビルドインされたコラボレーション機能ユーザの思考をインサイトに変える “生成 AI 中心” の新しいエクスペリエンスプレビュー

Slide 36

Slide 36 text

Demo ● `bigquery-samples.wikipedia_benchmark.Wiki100B` をスプレッドシートで分析！ ● Gemini in BigQuery ● Data Canvas ● BigQuery Studio

Slide 37

Slide 37 text

1 万あるお客様でのクエリ同時実行数 350 PB あるお客様が 1 社で保管しているデータ 100 兆行いくつかのお客様でのクエリ対象行数数字で見る BigQuery Google 調べ 1PB 以上利用のお客様は数百社以上

Slide 38

Slide 38 text

Slide 39

Slide 39 text

状況にあわせて活用可能な BigQuery 高速化機能パーティショニングクラスタリングコンピューティングワーカー分散ストレージマテリアライズドビュー BI Engine レイテンシ低キャッシュレベル Very Hot (GB) Hot (10’sTB) Warm (100’s TB) Cold (PB) 高超高速、セルフチューニング柔軟なパーティショニング（日付、整数、時間）と自動再クラスタリングメンテナンス不要、常に最新の自動クエリ書き換えストリーミングインサート一括読み込み

Slide 40

Slide 40 text

パーティション分割テーブル必要な部分のみ効率的にクエリ ● “パーティション” という単位でデータが分割されたテーブル ● パーティショニングキー ○ 取込時間 ○ 日付 / タイムスタンプ ○ 整数パーティション (20200101) レコードレコードレコードレコードレコードパーティション (20200102) レコードレコードレコードレコードレコード SELECT c1, c3 FROM dataset.table WHERE Date = ‘20200101’ …

Slide 41

Slide 41 text

パーティション分割テーブル作成例 ● 日付型の dt カラムをパーティショニングキーとしたテーブルの作成 create table dataset.table (dt date, id int64) partition by dt パーティション (20200101) パーティション (20200102) パーティション (20201231) … レコードレコードレコードレコードレコードレコードレコードレコードレコードレコードレコードレコードレコードレコードレコード

Slide 42

Slide 42 text

パーティション分割テーブル検索例 ● dt カラムでの絞り込み → パーティションプルーニング select * from dataset.table where dt = '2020-01-01' パーティション (20200101) パーティション (20200102) パーティション (20201231) … レコードレコードレコードレコードレコードレコードレコードレコードレコードレコードレコードレコードレコードレコードレコード

Slide 43

Slide 43 text

パーティション分割テーブルの速度改善例 (11 -> 3秒) パーティショニングカラム：なしパーティショニングカラム：event_date

Slide 44

Slide 44 text

クラスタ化テーブル頻繁に参照するフィールドへのアクセスを高速に ● テーブル内のデータを特定カラムでソートして保存 ● スキャン対象を必要最低限のブロックに限定することで検索効率を向上（ブロックプルーニング） ● クラスタリングカラムは最大 4 つまで設定可能 20200601 20200602 20200603 20200604 20200605 Aa to Fa Fb to Me Mf to Ro Rp to To To to Zz SELECT * FROM Table WHERE date = “2020/06/03” AND userID in (“Bob”,”Tom”)

Slide 45

Slide 45 text

クラスタ化テーブル作成例 ● 整数型の id カラムがクラスタリングカラムとなるテーブルの作成 create table dataset.table (dt date, id int64) partition by dt cluster by id パーティション (20200101) ブロックブロックブロックレコード (id = 1) レコード (id = 1) レコード (id = 2) レコード (id = 2) レコード (id = 2) レコード (id = 2) レコード (id = 3) レコード (id = 3) レコード (id = 3) パーティション (20200102) ブロックブロックブロックレコード (id = 1) レコード (id = 1) レコード (id = 1) レコード (id = 1) レコード (id = 2) レコード (id = 2) レコード (id = 2) レコード (id = 2) レコード (id = 3)

Slide 46

Slide 46 text

クラスタ化テーブルクエリ例 ● dt & id カラムでの絞り込み → パーティション＆ブロックプルーニング select * from dataset.table where dt = '2020-01-01' and id = 1 パーティション (20200101) ブロックブロックブロックレコード (id = 1) レコード (id = 1) レコード (id = 2) レコード (id = 2) レコード (id = 2) レコード (id = 2) レコード (id = 3) レコード (id = 3) レコード (id = 3) パーティション (20200102) ブロックブロックブロックレコード (id = 1) レコード (id = 1) レコード (id = 1) レコード (id = 1) レコード (id = 2) レコード (id = 2) レコード (id = 2) レコード (id = 2) レコード (id = 3)

Slide 47

Slide 47 text

クラスタ化テーブルによる改善例（ 3 -> 1 秒）クラスタリング：なしクラスタリングカラム：user_pseudo_id * event_dateでパーティショニング済み

Slide 48

Slide 48 text

マテリアライズドビュー事前集計済みのクエリキャッシュビューでより安価に高速化使いやすさ - 一度定義しておくと、BigQuery が自動かつ定期的に再計算（差分 or 全体）効率性 - 可能な場合クエリは自動的に MV にリダイレクト整合性 - 常に最新データを参照可能マテリアライズドビュー元データ自動リフレッシュリダイレクト

Slide 49

Slide 49 text

マテリアライズドビュー作成例 ● transactions テーブルの集計結果を保持するマテリアライズドビューの作成 create materialized view dataset.mv partition by dt cluster by item_id as select dt, item_id, sum(amount) as amount from `project-id.dataset.transactions` group by dt, item_id dt user_id item_id amount 2020-01-01 1 1 10 2020-01-01 1 2 20 2020-01-01 2 1 30 2020-01-01 2 2 40 transactions dt item_id amount 2020-01-01 1 40 2020-01-01 2 60 mv

Slide 50

Slide 50 text

マテリアライズドビューの改善例 (4 -> 0.3 秒) クラスタ化テーブルを集計マテリアライズドビューの事前集計済みデータを取得

Slide 51

Slide 51 text

BI Engine ● レポートとダッシュボードを高速化する BI ツール用のインメモリデータ分析エンジン ● BigQuery のデータ読み込みを最小限に抑え、検索の効率と同時実行性を向上 ● 現在は Looker Studioで使用可能

Slide 52

Slide 52 text

Slide 53

Slide 53 text

Proprietary + Confidential 誰がデータを利活用するのか？ビジネスユーザーもデータを活用（可視化）することで、組織にデータドリブンな文化をもたらせる営業マーケティングバックオフィス人事

Slide 54

Slide 54 text

Proprietary + Confidential データ利活用の推進・データドリブン文化実現によくある課題データボトルネックとデータカオスの二つの課題がある。課題１：データボトルネックデータ抽出に SQL を使う場合、作業者が限られるので分析・活用が順番待ち課題２：データカオス個々人が自由にデータ集計とレポーティングをすることによる混乱 IT担当者等 SQLで抽出ビジネスユーザーデータベースビジネスユーザーレポート閲覧者データベースツールで抽出し集計とレポート作成 +-×÷ +-×÷ +-×÷ データデータデータデータユーザーに展開どれが正しい売上達成率？・ユーザーにデータをタイムリーに展開できない・SQL の共通管理が困難で、業務が属人化・指標の定義が氾濫し、正しい意思決定を妨げる・定義を変更する際にレポート単位で集計変更が必要

Slide 55

Slide 55 text

Proprietary + Conﬁdential Proprietary + Conﬁdential Looker (LookML) で実現データ事前に定義された指標 (説明軸・集計値 )を使いレポーティング作成やデータ活用を行う一貫した指標定義によるデータガバナンスで正しいシングルデータソース徹底データ +-×÷ SQL を自動生成全て共通の指標定義なので正しく意思決定ができるリアルタイムデータ取得レポーティング以外の業務にもシームレスにデータを連携ビジネスユーザーデータベースデータガバナンスレイヤー業務でよく使う画面に埋め込んでデータを使う一貫した指標定義によるデータガバナンスの実現 Looker (LookML) で、データボトルネックとデータカオスを防ぐことができる。

Slide 56

Slide 56 text

Proprietary + Conﬁdential Proprietary + Conﬁdential LookML によるデータガバナンスの実現データボトルネックとデータカオスを防ぐ特徴

Slide 57

Slide 57 text

Proprietary + Confidential Looker 全体像データの定義や集計方法を標準化し、分析結果の信頼性とデータガバナンスを向上

Slide 58

Slide 58 text

統合された管理指標 | バージョン管理 | 権限管理 | セキュリティ | 100% web ベース Looker データプラットフォーム可視化・分析を行う SQL データベース BigQuery ● 指標、テーブルの結合を LookML で事前に定義 ● ビジネスユーザーはデータ構造・SQLの知識がなくと分析が可能 ● データウェアハウスが集計を実行、Looker は結果を表示する SQLに自動変換集計結果 Looker 全体像

Slide 59

Slide 59 text

統合された管理指標 | バージョン管理 | 権限管理 | セキュリティ | 100% web ベース Looker データプラットフォーム後続のアクションに繋げる可視化・分析を行う多くの SQL データベース BigQuery メールでレポートを配信動的なアラート他のプラットフォームにデータをエクスポート ML / AI ワークフローへのデータ供給 Looker 全体像

Slide 60

Slide 60 text

統合された管理指標 | バージョン管理 | 権限管理 | セキュリティ | 100% web ベース Looker データプラットフォーム後続のアクションに繋げる自社アプリに組み込んで活用データの外販も可視化・分析を行う多くの SQL データベース BigQuery Looker 全体像

Slide 61

Slide 61 text

Proprietary + Conﬁdential 大規模な非構造化データの分析 – その課題と解決策 04

Slide 62

Slide 62 text

Proprietary + Confidential 非構造化 80% 構造化 20% 出典： 1 Google Cloud ブログ「データと AI の統合により BigQuery に非構造化データ分析を提供する」 2022 年 10 月 27 日 2 Box Blogsp「データの 90% は構造化されておらず、未開発の価値が詰まっています」 2023 年 8 月 25 日非構造化データを活用できないことで、莫大な価値が失われているカスタマーエクスペリエンスの劣化 CSAT、ロイヤリティ、アドボカシー、支出の減少業務効率の低下人的資本の増加と長い処理時間インサイトの欠如収益の損失と意思決定の効率低下コンプライアンスコストコンプライアンスコストとコンプライアンス違反のリスクの上昇世界中の組織が 73,000 エクサバイト以上の非構造化データを生成すると予測2 非構造化データは、全データの約 80% を占める1 しかし、多くの企業ではこの非構造化データを活用できていないのが現状。

Slide 63

Slide 63 text

Proprietary + Confidential https://solution.toppan.co.jp/bx/contents/cdp_contents07_0831.html 65 非構造化データの活用はなぜ難しい？構造定義を持たないため、分析や処理が難しい。分析・活用しやすい形への「変換・加工」の前処理が必要。

Slide 64

Slide 64 text

Proprietary + Confidential Google Cloud で非構造化データの変換・加工・理解が簡単に非構造化データの理解には、 Google のマルチモーダル AI Gemini を。構造化を含む変換や加工には Gemini に加えて Document AI を。 https://solution.toppan.co.jp/bx/contents/cdp_contents07_0831.html 66 by Document AI / Gemini by Gemini

Slide 65

Slide 65 text

Proprietary + Confidential 企業が扱うデータ構造化データ非構造化データ非構造化データの分析パターン ①構造化データに変換して、構造化データとして分析 ②非構造化データのまま、内容を理解させて分析 ①一度構造化挟む ②そのまま分析分析 ①

Slide 66

Slide 66 text

Proprietary + Confidential 非構造化データの中でも 2種類ある ①定型フォームから数字や文字を抽出するもの ②その他の非構造化データの意味を理解して値を生成するもの 68 意味理解 + 値生成 1. 帳票(フォーム)から数字や文字を取ればよいもの (Doc AI /Gemini を使い分け) 2. 文章や動画から意味を理解して値を生成するもの (Gemini で対応可能) 例：請求書データ入力の自動化例：動画データの内容理解＋要約やメタ情報生成

Slide 67

Slide 67 text

<非構造化データ> 紙の請求書 <構造化データ> 項目と値の自動抽出でテーブル作成 69 抽出・構造化ケース１ー請求書データ入力の自動化帳票 (フォーム ) から数字を取れば良いものの具体例 As Is To Be 業務受発注管理サービスで紙の受発注書や請求書のデータをサービスに手入力するため、時間やコストがかかりデータ活用をリアルタイムに行えない形式の異なる様々な請求書データファイルから自動で値を DBに登録することでタイムリーに集計・分析に活かし意思決定を最適化

Slide 68

Slide 68 text

Document AI とその特徴単純な OCR を超えた、書類特化の抽出・分類機。 ● 帳票などの非構造化データから情報を抽出 ● （単純な OCR として）読むだけでなく、書類の配置や間隔を理解する ○ 例）書類の分類やフォームの質問と答えを自動的にキーと値のペアとして認識可能 ● 他プロダクトと組み合わせることで、構造化データに変換した後にデータを分析や予測に活用できる 70 読みとる 01 活用する 03 認識する 02

Slide 69

Slide 69 text

Proprietary + Confidential Document AI のメリットどの企業も避けて通れないのがドキュメントの処理。 DocAI を使うことで、時間・費用・分析の三つのメリットがある。時間を節約する費用を節約する分析情報を得るドキュメントの取り扱いは煩雑で、時間やリソースもかさみます。ドキュメントの保管には多くの費用がかかります。ドキュメントは差別化要因になりますが、有用なデータを抽出するのは容易ではありません。 71

Slide 70

Slide 70 text

72 利用する際の媒体（インターフェース） Document AI は様々なインターフェースに対応。導入のしやすさ /柔軟性/拡張性/分析とのスムーズな連携に優れる。インタフェース 1. Web ブラウザで操作する Web コンソール（Google Cloud コンソール） 2. Python など各言語用のクライアントライブラリ 3. HTTPS でコールする Rest API 4. Document AI による処理を SQL で呼び出し可能（BigQuery と統合）メリット 1. 導入のしやすさ: スキルレベルやシステム環境に合った方法を選べる→スムーズに導入可 2. 柔軟性: ニーズの変化やシステム変更に合わせて、最適なインターフェースを選択・併用可 3. 拡張性: Document AI を既存システムやワークフローに組み込み、業務効率を大幅に向上 4. 深い分析: BigQuery 連携で、抽出したデータの分析から新たなビジネスインサイト獲得へ

Slide 71

Slide 71 text

Proprietary + Confidential ● API として提供 ○ 処理を自動化するスクリプトを作成可能 ● DocAI は統合エンドポイントをサポート ○ 同じエンドポイントを利用することで、すべてのプロセッサーに対して同じクライアントライブラリと認証を使用できる利点 ● API の応答 = Document Object ○ 生のテキストやレイアウト、抽出された項目、言語などの情報を含む 73 API として利用可能 API として呼び出しが可能なので、お客様のアプリケーションに柔軟に取り込める。

Slide 72

Slide 72 text

Proprietary + Confidential 74 Demo movie

Slide 73

Slide 73 text

<非構造化データ> 動画データ <構造化データ> タイトルや内容の要約、カテゴリ、キーイベントなどのメタ情報 75 意味理解・値生成 As Is To Be 動画配信サービスにおいて、動画量が大規模かつ動画の内容は多岐に渡り、従来のキーワード抽出やタグ付けでは十分な推薦品質が得られない。高品質な内容理解には人間の確認が必要。大量で多様な動画の内容を自動で理解し、内容の要約やカテゴリ、キーイベントなどのメタ情報を効率的に生成できることで、省力化と推薦品質の向上を実現。ケース２ – 動画データの内容理解＋要約やメタ情報生成文章や動画から意味を理解して値を生成するもの

Slide 74

Slide 74 text

Gemini 1.5 Pro 長いプロンプトに対するマルチモーダルな推論 Gemini 1.5 Pro Vertex AI 上の Google の基盤モデル

Slide 75

Slide 75 text

情報登録従来の作業情報登録従来の作業の自動化・負荷軽減チェック 1. 対応数の限界 2. 品質のばらつき 3. 長いリードタイム従来作業の課題 1. 自動化による対応数の増加 2. 均質化 3. 短納期 AI 活用による期待効果例：動画を説明したテキスト文書の作成業務 Gemini が自動で会話内容をテキスト化し、さらに顧客満足度や会話のポイントを分析する。

Slide 76

Slide 76 text

写っている内容（人物、建物、風景など）を説明テロップとして表示されている文字情報音声の文字起こしテキスト例：動画を説明したテキスト文書の作成業務映像内容・テロップ・音声を分離して構造化データとして自動出力

Slide 77

Slide 77 text

Gemini 1.5 Pro を用いたアプリケーションニアリアルタイムのレイテンシの映像理解・記憶・推論

Slide 78

Slide 78 text

プロンプトレスポンスこの表を要約して全体の44.8%が「非常に興味がある」と回答した。年代別では、40代が最も高く48.0%、次いで30代が39.9%、50代が 44.5%、20代が57.2%、10代が51.9%、60代以上が41.8%となった。非常に興味がある、または、やや興味がある人の割合は？全体で77.4%です。年代別に見ると、10代が最も高く86.6%、次いで、20代が85.9%、30代が 78.7%、40代が76.9%、50代が75.9%、60代以上が74.5%となっています。サンプル画像プロンプトとレスポンスの例画像に変換した ”表”の認識 Gemini 1.5 Pro の”意味理解 ”は業務上実用的なシチュエーションでも使用できる。

Slide 79

Slide 79 text

動画コンテンツをソースとした検索・ QAシステムのデモ動画理解をベースにしたアプリケーション例 Gemini 1.5 は動画の理解も得意。

Slide 80

Slide 80 text

Proprietary + Conﬁdential 本日学んだことのまとめ 05

Slide 81

Slide 81 text

Proprietary + Confidential 本日のまとめ ● 本日は BigQuery, Gemini を中心にデータ分析や生成 AI の活用についてご紹介しました ● データ分析、生成 AI の活用は専門家だけの関心事では無くなり、より様々なシチュエーションで皆さんの業務に活かせます ● 生成 AI の力をうまく使いながら、Google Cloud を皆様の業務で是非ご活用ください！