What is BigQuery?

Google is 何？ ~未経験者が調べて学んだデータ基盤史 ~ BigQuery

目次 • 1. はじめに • 2. Google BigQuery is 何？
• 3. 前提知識 • 4. データウェアハウスの構想と実現 1980s~1990s • 5. 分散・並列処理の普及 2000s • 6. クラウド型データウェアハウスの登場 2010s~2020s • 7. まとめ：Google BigQuery is 何？

１．はじめに

自己紹介 • 島崎啓一 (@ykokubo09) ◦ 元システムエンジニア、サポートエンジニア ◦ 就労移行支援事業所Neuro Diveにて転職準備中 •
データを業務に活用するための貯め方・整備方法を学んでいます

はじめに私と同じ悩みを持つ初学者向けに発表します。 • BigQueryがどんなサービスなのかわからない • 本で学ぼうにも関連書籍が少ない • 公式ページを見ても機能が多すぎてわからない「データ基盤の歴史」を通して、上記のBigQueryというサービスの特性を紹介します！

注意 • スライドが40枚以上あります。 • 質疑込みで10分では時間が足りません。 • 理解に重要なポイントのみ発表します。 • スライドは共有します。 •
ご興味あれば発表後に資料をご覧ください。

２．Google BigQuery is何？

Google BigQuery is 何？ • 資料を作るまでの私の理解 ◦ なんかわからないけど、すごそうなデータベース ▪ データを活用した分析機能
▪ SQLで分析が可能 ▪ 機械学習、BI連携もできる ◦ 結局、Google BigQuery is 何？

Google BigQuery is 何？：関連書籍より引用 ``` 単なるデータウェアハウスではなく、幅広い機能をもつことから Analytics Lakehouseと呼ばれます。（中略） Googleにおいて大規模データ分析を実現するため開発された
サービスです。 ``` 改訂新版　Gogle Cloudではじめる実践データエンジニアリング入門（ P19より）　

「改訂新版　Gogle Cloudではじめる実践データエンジニアリング入門」 P20を基に作成　組織横断で共有可能なストレージ SQL スプレッドシート/ 自然言語 API
BI Notebooks 　エクサバイト規模も分析可能なクエリ・ ML 経営層ビジネス企画アナリスト/エンジニアデータサイエンティストデータアプリケーションデータレイク/ ストリーミングユーザーに合わせたインターフェイス BigQueryの機能イメージ図

Google BigQuery is 何？: 公式Webサイトより • データの管理と分析を支援するデータプラットフォーム • サーバーレス
アーキテクチャのためインフラストラクチャ管理不要 • ML、検索、地理空間分析、ビジネスインテリジェンスを組み込む https://cloud.google.com/bigquery/docs/introduction?hl=ja

Google BigQuery is 何？ • データの管理と分析を支援するデータプラットフォーム • サーバーレスアーキテクチャのためインフラストラクチャ管理不要
• ML、検索、地理空間分析、ビジネスインテリジェンスを組み込む https://cloud.google.com/bigquery/docs/introduction?hl=ja 多機能なのはわかったでも、よくわからん

• ML、検索、地理空間分析、ビジネスインテリジェンスを組み込む https://cloud.google.com/bigquery/docs/introduction?hl=ja データ基盤の歴史から BigQueryを学びます！

• ML、検索、地理空間分析、ビジネスインテリジェンスを組み込む https://cloud.google.com/bigquery/docs/introduction?hl=ja BigQueryが開発された歴史的経緯を知る ↓ BigQueryの輪郭がわかるかもしれない

３．前提知識

前提知識：データ形式の多様化 • 表形式など規則的な行・列構造を持つデータ • RDBで保管・管理できる • 例：Excelの住所録、売上管理表 •
JSON などの部分的に規則的な構造があるデータ • NoSQLで保管・管理できる • 例：WebページのHTMLコード • 規則的な構造がないデータ ◦ テキスト・画像・音声・映像 • RDBMSでは基本的に対応できない • オブジェクトストレージに保管 • 例：メールの本文、 SNSの投稿、動画ファイル構造化データ半構造データ非構造データ

1. 生データ 2. データレイク 3. データウェアハウス 4. データマート 5. データ活用
前提知識：現代のデータ基盤と分析の流れ RDBMS API SaaS File 機械学習アプリケーション連携 BIレポートアドホック分析参考文献リストの書籍を元に作成加工保管抽出データを一箇所に集めるデータを共通化する用途ごとに DBを分ける

4. データウェアハウスの構想と実現 1980s~1990s

オンプレミス ※1 データウェアハウス • 企業の意思決定支援のためデータを分析するニーズの高まり • RDBMSを拡張したデータウェアハウスの概念が誕生 ◦ 複数のRDBからデータを集める倉庫（ウェアハウス）
◦ データ抽出・変換・格納（ETL：Extract, Transform, Load）※2 を行う • 各部署の異なるデータ・指標を一箇所にまとめて共通化 ※1 企業内にサーバーを設置してシステムを運用 ※2 データを抽出し、使いやすいように加工してから、”倉庫”に格納するイメージ

データ基盤の課題 1980s~1990s • データを分析したくても、下準備（ETL）に時間がかかる • 用途の異なる複数のRDBMSからのETLは設計・構築・実現が大変 ◦ データ分析をする前処理に数ヶ月以上かかる ◦ 分析元のデータを共通化するための作業コストが高い
• 現代のようなアドホック分析 ※ はまだ遠い ※「何らかのニーズが発生したとき」や「ピンポイントかつリアルタイム」で分析する手法

1. 生データ 3. データウェアハウス 4. データマート 5. データ活用前提知識：現代のデータ基盤と分析の流れ RDBMS
API SaaS File 機械学習アプリケーション連携 BIレポートアドホック分析参考文献リストの書籍を元に作成加工保管抽出データを共通化する用途ごとに DBを分ける

5.分散・並列処理の構想と登場 2000s

従来型ETL・データウェアハウスの限界 • データが多すぎて従来のETL処理では業務が間に合わない • eコマース, eメール, SNS等の普及で従来以上にデータが多様化 →上記課題を解決するため、データレイクが誕生

データレイクという新管理手法の誕生 • ETL処理の高速化と柔軟な管理を背景に誕生 • データが多すぎて従来のETL処理では業務が間に合わない ◦ 複数のコンピュータを利用して分散・並列処理が実現 •
eコマース, eメール, SNS等の普及で従来以上にデータが多様化 ◦ ファイル形式や種類・構造に問わず一元管理が可能

データレイクの背景： Hadoopフレームワークの普及特徴 ①分散処理：MapReduce※ • 大規模データを分散・並列実行を可能に ②分散ファイル管理：HDFS • 複数のコンピュータを1つの大きなストレージのように扱う
• ファイル形式や種類・構造に問わずまとめて管理 ※ Hadoopで作成した巨大なスーパーコンピュータに、効率よく仕事を分担させるための『賢い指示書』のイメージ

Hadoopフレームワークの詳細 • Hadoop:分散処理・分散ファイル管理フレームワーク ◦ MapReduce:分散処理ライブラリ ▪ Googleが論文を公開, Apache Hadoop MapReduceとして開発
▪ 大規模データを分散・並列実行を可能にした ◦ HDFS:分散ファイルシステム ▪ 複数のコンピュータのストレージを1つの大きなストレージのように扱うシステム ▪ ファイル形式や種類・構造に関係なくまとめることができる ▪ 分散して保存しているため、冗長性が確保できる

前提知識：現代のデータ基盤と分析の流れ RDBMS API SaaS File 機械学習アプリケーション連携 BIレポートアドホック分析参考文献リストの書籍を元に作成加工保管抽出データを一箇所に集めるデータを共通化する用途ごとに DBを分ける

データ基盤の課題 2000s • Hadoopの普及 ◦ データレイクによる多様なデータの一元管理が実現 ◦ 分散・並列処理によるETLの高速化が実現 • まだ「誰でも手軽にデータ分析」はできない
状況 • Hadoopとその関連技術（エコシステム）には高度な専門知識が必須 ◦ データ基盤を構築・運用できる人は限られていた

6. クラウド型データウェアハウスの登場 2000s~2010s

　　　 Amazon Redshiftの登場 2010s • クラウドコンピューティングの誕生・普及 ◦ クラウドデータウェアハウスの誕生
• インフラ構築から開放 ◦ ハードウェアの購入・設定不要 ◦ OS・ミドルウェアのインストール・構成不要

　　　 Amazon Redshiftの課題 2010s • データ分析だけに集中するにはまだ手間がかかる状況 ◦ インフラ運用作業が必要 ▪ クラスタ構成
▪ ノード管理 ▪ 性能チューニングなど ◦ リソースの拡張(スケーリング)は手動対応中心

　　　　Google BigQueryの誕生 2010s • クラウドデータウェアハウスの課題を解決 ◦ サーバーレスによるインフラ管理からの開放 ◦ データ分析の本質業務に集中しやすい利用環境を提供

　　　 Google BigQueryのアーキテクチャ • 以下の特徴によって、柔軟性とコスト効率が向上 ◦ ストレージとコンピューティングの分離 ▪ それぞれを独立して拡張可能 ◦
自動リソース割り当てによって負荷に応じて動的に拡張可能

• 以下の変更によって、柔軟性とコスト効率が向上 ◦ ストレージとコンピューティングの分離により独立して拡張可能 ▪ BigQueryやSnowﬂakeが有名 ◦ 自動リソース割り当てによって負荷に応じて動的に拡張可能 https://cloud.google.com/bigquery/docs/storage_overview?hl=ja 　　　
Google BigQueryのアーキテクチャ

データレイクハウスの誕生 • データレイク+データウェアハウスの良いとこ取り ◦ 柔軟性 ▪ データを一箇所で管理 ▪ どんな形式のデータ構造でも管理可能 ◦
データの一貫性 • 上記特徴によりアドホック分析 ※が実現 ※「何らかのニーズが発生したとき」や「ピンポイントかつリアルタイム」で分析する手法

ELT(Extract, Load, Transform)という新潮流 • データ分析の手法が変化 ◦ 時間のかかるデータ加工を先にやらなくても良くなった ◦ ひとまず生データをBigQueryに投入し、その場で加工・分析

ELT(Extract, Load, Transform)という新潮流 • データ分析の手法が変化 ◦ 時間のかかるデータ加工を先にやらなくても良くなった ◦ ひとまず生データをBigQueryに投入し、その場で加工・分析 ▪
アドホックな分析が可能に • ”データレイクハウス ”の誕生レージ https://cloud.google.com/bigquery/docs/load-transform-export-intro?hl=ja

前提知識：現代のデータ基盤と分析の流れ RDBMS API SaaS File 機械学習アプリケーション連携 BIレポートアドホック分析加工保管抽出 https://cloud.google.com/discover/what-is-a -data-lakehouse?hl=ja データを一箇所に集めるデータを共通化する用途ごとに DBを分ける「データを一箇所に集めて共通化」データレイクとウェアハウスの良いとこ取りデータレイクハウス

7. まとめ

データ基盤の抱えてきた課題 • 1980s~1990s データウェアハウスによりデータ分析が実現 ◦ 課題：ETL処理に時間と手間がかかる • 2000s 分散処理によって多様なデータを一元管理・高速ETL処理 ◦
課題：構築・運用に高度な専門知識が必須 • 2010s クラウドデータウェアハウスによりインフラ構築不要 ◦ 課題：インフラ運用作業は未だ必要

まとめ：Google BigQuery is 何？ • Google BigQuery ◦ サーバーレスのデータ基盤 ▪
それまで課題だった「インフラ管理」不要 ◦ 誰でも手軽に高速な分析可能 ▪ データの保管と管理 ▪ SQLでのアドホック分析 ▪ BI、AIとの連携

Google BigQuery is 何？：関連書籍より引用 ``` 単なるデータウェアハウスではなく、幅広い機能をもつことから Analytics Lakehouseと呼ばれます。（中略） Googleにおいて大規模データ分析を実現するため開発された
サービスです。 ``` 改訂新版　Gogle Cloudではじめる実践データエンジニアリング入門（ P19より）　

「改訂新版　Gogle Cloudではじめる実践データエンジニアリング入門」 P20を基に作成　組織横断で共有可能なストレージ SQL スプレッドシート/ 自然言語 API
BI Notebooks 　エクサバイト規模も分析可能なクエリ・ ML 経営層ビジネス企画アナリスト/エンジニアデータサイエンティストデータアプリケーションデータレイク/ ストリーミングユーザーに合わせたインターフェイス BigQueryの機能イメージ図

BigQuery is 何？ • データの管理と分析を支援するデータプラットフォーム • ML、検索、地理空間分析、ビジネスインテリジェンスを組み込む •
サーバーレスアーキテクチャのためインフラストラクチャ管理不要 https://cloud.google.com/bigquery/docs/introduction?hl=ja

参考文献リスト書籍 • 実践的データ基盤への処方箋（技術評論社） • 改訂版エンジニアのためのデータ分析基盤入門基本編（技術評論社）
• 改訂新版 Google Cloudではじめる実践データエンジニアリング入門（技術評論社） • データエンジニアリングの基礎（O'REIILY' Japan, オーム社）

参考文献リスト書籍以外 • Google Cloud公式ドキュメント ◦ BigQuery ドキュメント ◦ BigQueryのストレージ概要
◦ データレイクハウスの概要とは ◦ データの読み込み、変換、エクスポートの概要 • あるデータサイエンティストのデータマネジメントとの向き合い方 • Google Cloudで学ぶデータエンジニアリング入門 2025年版 • Google Cloud認定 Professional Data Engineeri(PED)対策トレーニング

What is BigQuery?

What is BigQuery?

More Decks by Aizack

Other Decks in Technology

Featured

Transcript