Slide 1

Slide 1 text

Google is 何? ~未経験者が調べて学んだデータ基盤史 ~ BigQuery

Slide 2

Slide 2 text

目次 ● 1. はじめに ● 2. Google BigQuery is 何? ● 3. 前提知識 ● 4. データウェアハウスの構想と実現 1980s~1990s ● 5. 分散・並列処理の普及 2000s ● 6. クラウド型データウェアハウスの登場 2010s~2020s ● 7. まとめ:Google BigQuery is 何?

Slide 3

Slide 3 text

1.はじめに

Slide 4

Slide 4 text

自己紹介 ● 島崎啓一 (@ykokubo09) ○ 元システムエンジニア、サポートエンジニア ○ 就労移行支援事業所Neuro Diveにて転職準備中 ● データを業務に活用するための貯め方・整備方法を学んでいます

Slide 5

Slide 5 text

はじめに 私と同じ悩みを持つ初学者向けに発表します。 ● BigQueryがどんなサービスなのかわからない ● 本で学ぼうにも関連書籍が少ない ● 公式ページを見ても機能が多すぎてわからない 「データ基盤の歴史」を通して、上記のBigQueryというサービスの特性を紹介し ます!

Slide 6

Slide 6 text

注意 ● スライドが40枚以上あります。 ● 質疑込みで10分では時間が足りません。 ● 理解に重要なポイントのみ発表します。 ● スライドは共有します。 ● ご興味あれば発表後に資料をご覧ください。

Slide 7

Slide 7 text

2.Google BigQuery is何?

Slide 8

Slide 8 text

Google BigQuery is 何? ● 資料を作るまでの私の理解 ○ なんかわからないけど、すごそうなデータベース ■ データを活用した分析機能 ■ SQLで分析が可能 ■ 機械学習、BI連携もできる ○ 結局、Google BigQuery is 何?

Slide 9

Slide 9 text

Google BigQuery is 何?:関連書籍より引用 ``` 単なるデータウェアハウスではなく、幅広い機能をもつことから Analytics Lakehouseと呼ばれます。 (中略) Googleにおいて大規模データ分析を実現するため開発された サービスです。 ``` 改訂新版 Gogle Cloudではじめる実践データエンジニアリング入門( P19より) 

Slide 10

Slide 10 text

「改訂新版 Gogle Cloudではじめる実践データエンジニアリング入門」 P20を基に作成  組織横断で 共有可能な ストレージ SQL スプレッドシート/ 自然言語 API BI Notebooks  エクサバイト規模も 分析可能なクエリ・ ML 経営層 ビジネス企画 アナリスト/エ ンジニア データサイエンティスト データ アプリケーション データレイク/ ストリーミング ユーザーに 合わせた インターフェイス BigQueryの機能イメージ図

Slide 11

Slide 11 text

Google BigQuery is 何?: 公式Webサイトより ● データの管理と分析 を支援するデータプラットフォーム ● サーバーレス アーキテクチャのためインフラストラクチャ管理不要 ● ML、検索、地理空間分析、ビジネスインテリジェンス を組み込む https://cloud.google.com/bigquery/docs/introduction?hl=ja

Slide 12

Slide 12 text

Google BigQuery is 何? ● データの管理と分析 を支援するデータプラットフォーム ● サーバーレス アーキテクチャのためインフラストラクチャ管理不要 ● ML、検索、地理空間分析、ビジネスインテリジェンス を組み込む https://cloud.google.com/bigquery/docs/introduction?hl=ja 多機能なのはわかった でも、 よくわからん

Slide 13

Slide 13 text

Google BigQuery is 何? ● データの管理と分析 を支援するデータプラットフォーム ● サーバーレス アーキテクチャのためインフラストラクチャ管理不要 ● ML、検索、地理空間分析、ビジネスインテリジェンス を組み込む https://cloud.google.com/bigquery/docs/introduction?hl=ja データ基盤の歴史から BigQueryを 学びます!

Slide 14

Slide 14 text

Google BigQuery is 何? ● データの管理と分析 を支援するデータプラットフォーム ● サーバーレス アーキテクチャのためインフラストラクチャ管理不要 ● ML、検索、地理空間分析、ビジネスインテリジェンス を組み込む https://cloud.google.com/bigquery/docs/introduction?hl=ja BigQueryが開発された 歴史的経緯を知る ↓ BigQueryの輪郭がわかる かもしれない

Slide 15

Slide 15 text

3.前提知識

Slide 16

Slide 16 text

前提知識:データ形式の多様化 ● 表形式など規則的な行・列 構造を持つデータ ● RDBで保管・管理できる ● 例:Excelの住所録、 売上管理表 ● JSON などの部分的に規則 的な構造があるデータ ● NoSQLで保管・管理できる ● 例:WebページのHTMLコー ド ● 規則的な構造がないデータ ○ テキスト・画像・音声・ 映像 ● RDBMSでは基本的に対応 できない ● オブジェクトストレージに保管 ● 例:メールの本文、 SNSの投稿、動画ファイル 構造化データ 半構造データ 非構造データ

Slide 17

Slide 17 text

前提知識:データ形式の多様化 ● 表形式など規則的な行・列 構造を持つデータ ● RDBで保管・管理できる ● 例:Excelの住所録、 売上管理表 ● JSON などの部分的に規則 的な構造があるデータ ● NoSQLで保管・管理できる ● 例:WebページのHTMLコー ド ● 規則的な構造がないデータ ○ テキスト・画像・音声・ 映像 ● RDBMSでは基本的に対応 できない ● オブジェクトストレージに保管 ● 例:メールの本文、 SNSの投稿、動画ファイル 構造化データ 半構造データ 非構造データ

Slide 18

Slide 18 text

1. 生データ 2. データレイク 3. データウェアハウス 4. データマート 5. データ活用 前提知識:現代のデータ基盤と分析の流れ RDBMS API SaaS File 機械学習 アプリケー ション連携 BIレポート アドホック分析 参考文献リストの書籍を元に作成 加工 保管 抽出 データを一 箇所に集 める データを 共通化する 用途ごとに DBを分ける

Slide 19

Slide 19 text

4. データウェアハウスの 構想と実現 1980s~1990s

Slide 20

Slide 20 text

オンプレミス ※1 データウェアハウス ● 企業の意思決定支援のためデータを分析するニーズ の高まり ● RDBMSを拡張したデータウェアハウスの概念が誕生 ○ 複数のRDBからデータを集める倉庫(ウェアハウス) ○ データ抽出・変換・格納 (ETL:Extract, Transform, Load)※2 を行う ● 各部署の異なるデータ・指標を一箇所にまとめて共通化 ※1 企業内にサーバーを設置してシステムを運用 ※2 データを抽出し、使いやすいように加工してから、”倉庫”に格納する イメージ

Slide 21

Slide 21 text

データ基盤の課題 1980s~1990s ● データを分析したくても、下準備(ETL)に時間がかかる ● 用途の異なる複数のRDBMSからのETLは設計・構築・実現が大変 ○ データ分析をする前処理に数ヶ月以上かかる ○ 分析元のデータを共通化するための作業コストが高い ● 現代のようなアドホック分析 ※ はまだ遠い ※「何らかのニーズが発生したとき」や 「ピンポイントかつリアルタイム」で分析する手法

Slide 22

Slide 22 text

1. 生データ 3. データウェアハウス 4. データマート 5. データ活用 前提知識:現代のデータ基盤と分析の流れ RDBMS API SaaS File 機械学習 アプリケー ション連携 BIレポート アドホック分析 参考文献リストの書籍を元に作成 加工 保管 抽出 データを 共通化する 用途ごとに DBを分ける

Slide 23

Slide 23 text

5.分散・並列処理の構想と登場 2000s

Slide 24

Slide 24 text

従来型ETL・データウェアハウスの限界 ● データが多すぎて従来のETL処理では業務が間に合わない ● eコマース, eメール, SNS等の普及で従来以上にデータが多様化 →上記課題を 解決するため、データレイク が誕生

Slide 25

Slide 25 text

データレイクという新管理手法の誕生 ● ETL処理の高速化 と柔軟な管理 を背景に誕生 ● データが多すぎて従来のETL処理では業務が間に合わない ○ 複数のコンピュータを利用して分散・並列処理が実現 ● eコマース, eメール, SNS等の普及で従来以上にデータが多様化 ○ ファイル形式や種類・構造に問わず一元管理が可能

Slide 26

Slide 26 text

データレイクの背景: Hadoopフレームワークの普及 特徴 ①分散処理:MapReduce※ ● 大規模データを分散・並列実行 を可能に ②分散ファイル管理:HDFS ● 複数のコンピュータを1つの大きなストレージのように扱う ● ファイル形式や種類・構造に問わずまとめて管理 ※ Hadoopで作成した巨大なスーパーコンピュータに、効率よく仕事を分担させるための『賢い指示書』 のイメージ

Slide 27

Slide 27 text

Hadoopフレームワークの詳細 ● Hadoop:分散処理・分散ファイル管理フレームワーク ○ MapReduce:分散処理ライブラリ ■ Googleが論文を公開, Apache Hadoop MapReduceとして開発 ■ 大規模データを分散・並列実行を可能にした ○ HDFS:分散ファイルシステム ■ 複数のコンピュータのストレージを1つの大きなストレージのように 扱うシステム ■ ファイル形式や種類・構造に関係なくまとめることができる ■ 分散して保存しているため、冗長性が確保できる

Slide 28

Slide 28 text

1. 生データ 2. データレイク 3. データウェアハウス 4. データマート 5. データ活用 前提知識:現代のデータ基盤と分析の流れ RDBMS API SaaS File 機械学習 アプリケー ション連携 BIレポート アドホック分析 参考文献リストの書籍を元に作成 加工 保管 抽出 データを一 箇所に集 める データを 共通化する 用途ごとに DBを分ける

Slide 29

Slide 29 text

データ基盤の課題 2000s ● Hadoopの普及 ○ データレイクによる多様なデータの一元管理が実現 ○ 分散・並列処理によるETLの高速化が実現 ● まだ「誰でも手軽にデータ分析」はできない 状況 ● Hadoopとその関連技術(エコシステム)には 高度な専門知識が必須 ○ データ基盤を構築・運用できる人は限られていた

Slide 30

Slide 30 text

6. クラウド型データウェアハウス の登場 2000s~2010s

Slide 31

Slide 31 text

    Amazon Redshiftの登場 2010s ● クラウドコンピューティング の誕生・普及 ○ クラウドデータウェアハウス の誕生 ● インフラ構築から開放 ○ ハードウェアの購入・設定不要 ○ OS・ミドルウェアのインストール・構成不要

Slide 32

Slide 32 text

    Amazon Redshiftの課題 2010s ● データ分析だけに集中するにはまだ手間がかかる状況 ○ インフラ運用作業が必要 ■ クラスタ構成 ■ ノード管理 ■ 性能チューニングなど ○ リソースの拡張(スケーリング)は手動対応中心

Slide 33

Slide 33 text

    Google BigQueryの誕生 2010s ● クラウドデータウェアハウスの課題を解決 ○ サーバーレスによるインフラ管理からの開放 ○ データ分析の本質業務に集中しやすい利用環境 を提供

Slide 34

Slide 34 text

    Google BigQueryのアーキテクチャ ● 以下の特徴によって、柔軟性とコスト効率が向上 ○ ストレージとコンピューティングの分離 ■ それぞれを独立して拡張可能 ○ 自動リソース割り当てによって負荷に応じて動的に拡張可能

Slide 35

Slide 35 text

● 以下の変更によって、柔軟性とコスト効率が向上 ○ ストレージとコンピューティングの分離により独立して拡張可能 ■ BigQueryやSnowflakeが有名 ○ 自動リソース割り当てによって負荷に応じて動的に拡張可能 https://cloud.google.com/bigquery/docs/storage_overview?hl=ja     Google BigQueryのアーキテクチャ

Slide 36

Slide 36 text

データレイクハウスの誕生 ● データレイク+データウェアハウスの良いとこ取り ○ 柔軟性 ■ データを一箇所で管理 ■ どんな形式のデータ構造でも管理可能 ○ データの一貫性 ● 上記特徴によりアドホック分析 ※が実現 ※「何らかのニーズが発生したとき」や 「ピンポイントかつリアルタイム」で分析する手法

Slide 37

Slide 37 text

ELT(Extract, Load, Transform)という新潮流 ● データ分析の手法が変化 ○ 時間のかかるデータ加工を先にやらなくても良くなった ○ ひとまず生データをBigQueryに投入し、その場で加工・分析

Slide 38

Slide 38 text

ELT(Extract, Load, Transform)という新潮流 ● データ分析の手法が変化 ○ 時間のかかるデータ加工を先にやらなくても良くなった ○ ひとまず生データをBigQueryに投入し、その場で加工・分析 ■ アドホックな分析が可能に ● ”データレイクハウス ”の誕生 レージ https://cloud.google.com/bigquery/docs/load-transform-export-intro?hl=ja

Slide 39

Slide 39 text

1. 生データ 2. データレイク 3. データウェアハウス 4. データマート 5. データ活用 前提知識:現代のデータ基盤と分析の流れ RDBMS API SaaS File 機械学習 アプリケー ション連携 BIレポート アドホック分析 加工 保管 抽出 https://cloud.google.com/discover/what-is-a -data-lakehouse?hl=ja データを一 箇所に集 める データを 共通化する 用途ごとに DBを分ける 「データを一箇所に集めて共通化」 データレイクとウェアハウスの良いと こ取り データレイクハウス

Slide 40

Slide 40 text

7. まとめ

Slide 41

Slide 41 text

データ基盤の抱えてきた課題 ● 1980s~1990s データウェアハウスによりデータ分析が実現 ○ 課題:ETL処理に時間と手間がかかる ● 2000s 分散処理によって多様なデータを一元管理・高速ETL処理 ○ 課題:構築・運用に高度な専門知識が必須 ● 2010s クラウドデータウェアハウスによりインフラ構築不要 ○ 課題:インフラ運用作業は未だ必要

Slide 42

Slide 42 text

まとめ:Google BigQuery is 何? ● Google BigQuery ○ サーバーレスのデータ基盤 ■ それまで課題だった「インフラ管理」不要 ○ 誰でも手軽に高速な分析 可能 ■ データの保管と管理 ■ SQLでのアドホック分析 ■ BI、AIとの連携

Slide 43

Slide 43 text

Google BigQuery is 何?:関連書籍より引用 ``` 単なるデータウェアハウスではなく、幅広い機能をもつことから Analytics Lakehouseと呼ばれます。 (中略) Googleにおいて大規模データ分析を実現するため開発された サービスです。 ``` 改訂新版 Gogle Cloudではじめる実践データエンジニアリング入門( P19より) 

Slide 44

Slide 44 text

「改訂新版 Gogle Cloudではじめる実践データエンジニアリング入門」 P20を基に作成  組織横断で 共有可能な ストレージ SQL スプレッドシート/ 自然言語 API BI Notebooks  エクサバイト規模も 分析可能なクエリ・ ML 経営層 ビジネス企画 アナリスト/エ ンジニア データサイエンティスト データ アプリケーション データレイク/ ストリーミング ユーザーに 合わせた インターフェイス BigQueryの機能イメージ図

Slide 45

Slide 45 text

BigQuery is 何? ● データの管理と分析 を支援するデータプラットフォーム ● ML、検索、地理空間分析、ビジネスインテリジェンス を組み込む ● サーバーレス アーキテクチャのためインフラストラクチャ管理不要 https://cloud.google.com/bigquery/docs/introduction?hl=ja

Slide 46

Slide 46 text

参考文献リスト 書籍 ● 実践的データ基盤への処方箋 (技術評論社) ● 改訂版 エンジニアのためのデータ分析基盤入門 基本編 (技術評論社) ● 改訂新版 Google Cloudではじめる実践データエンジニアリング入門 (技 術評論社) ● データエンジニアリングの基礎 (O'REIILY' Japan, オーム社)

Slide 47

Slide 47 text

参考文献リスト 書籍以外 ● Google Cloud公式ドキュメント ○ BigQuery ドキュメント ○ BigQueryのストレージ概要 ○ データレイクハウスの概要とは ○ データの読み込み、変換、エクスポートの概要 ● あるデータサイエンティストのデータマネジメントとの向き合い方 ● Google Cloudで学ぶデータエンジニアリング入門 2025年版 ● Google Cloud認定 Professional Data Engineeri(PED)対策トレーニング