Upgrade to Pro — share decks privately, control downloads, hide ads and more …

What is BigQuery?

Avatar for Aizack Aizack
September 27, 2025

What is BigQuery?

データ分析、データ基盤を学んでいる中で、疑問となった「BigQueryとはなにか?」をデータ基盤の歴史という切り口で紹介するスライドです。

データラーニングギルドmeetup#1 にて発表したスライドです。

Avatar for Aizack

Aizack

September 27, 2025
Tweet

More Decks by Aizack

Other Decks in Technology

Transcript

  1. 目次 • 1. はじめに • 2. Google BigQuery is 何?

    • 3. 前提知識 • 4. データウェアハウスの構想と実現 1980s~1990s • 5. 分散・並列処理の普及 2000s • 6. クラウド型データウェアハウスの登場 2010s~2020s • 7. まとめ:Google BigQuery is 何?
  2. 「改訂新版 Gogle Cloudではじめる実践データエンジニアリング入門」 P20を基に作成  組織横断で 共有可能な ストレージ SQL スプレッドシート/ 自然言語 API

    BI Notebooks  エクサバイト規模も 分析可能なクエリ・ ML 経営層 ビジネス企画 アナリスト/エ ンジニア データサイエンティスト データ アプリケーション データレイク/ ストリーミング ユーザーに 合わせた インターフェイス BigQueryの機能イメージ図
  3. Google BigQuery is 何?: 公式Webサイトより • データの管理と分析 を支援するデータプラットフォーム • サーバーレス

    アーキテクチャのためインフラストラクチャ管理不要 • ML、検索、地理空間分析、ビジネスインテリジェンス を組み込む https://cloud.google.com/bigquery/docs/introduction?hl=ja
  4. Google BigQuery is 何? • データの管理と分析 を支援するデータプラットフォーム • サーバーレス アーキテクチャのためインフラストラクチャ管理不要

    • ML、検索、地理空間分析、ビジネスインテリジェンス を組み込む https://cloud.google.com/bigquery/docs/introduction?hl=ja 多機能なのはわかった でも、 よくわからん
  5. Google BigQuery is 何? • データの管理と分析 を支援するデータプラットフォーム • サーバーレス アーキテクチャのためインフラストラクチャ管理不要

    • ML、検索、地理空間分析、ビジネスインテリジェンス を組み込む https://cloud.google.com/bigquery/docs/introduction?hl=ja データ基盤の歴史から BigQueryを 学びます!
  6. Google BigQuery is 何? • データの管理と分析 を支援するデータプラットフォーム • サーバーレス アーキテクチャのためインフラストラクチャ管理不要

    • ML、検索、地理空間分析、ビジネスインテリジェンス を組み込む https://cloud.google.com/bigquery/docs/introduction?hl=ja BigQueryが開発された 歴史的経緯を知る ↓ BigQueryの輪郭がわかる かもしれない
  7. 前提知識:データ形式の多様化 • 表形式など規則的な行・列 構造を持つデータ • RDBで保管・管理できる • 例:Excelの住所録、 売上管理表 •

    JSON などの部分的に規則 的な構造があるデータ • NoSQLで保管・管理できる • 例:WebページのHTMLコー ド • 規則的な構造がないデータ ◦ テキスト・画像・音声・ 映像 • RDBMSでは基本的に対応 できない • オブジェクトストレージに保管 • 例:メールの本文、 SNSの投稿、動画ファイル 構造化データ 半構造データ 非構造データ
  8. 前提知識:データ形式の多様化 • 表形式など規則的な行・列 構造を持つデータ • RDBで保管・管理できる • 例:Excelの住所録、 売上管理表 •

    JSON などの部分的に規則 的な構造があるデータ • NoSQLで保管・管理できる • 例:WebページのHTMLコー ド • 規則的な構造がないデータ ◦ テキスト・画像・音声・ 映像 • RDBMSでは基本的に対応 できない • オブジェクトストレージに保管 • 例:メールの本文、 SNSの投稿、動画ファイル 構造化データ 半構造データ 非構造データ
  9. 1. 生データ 2. データレイク 3. データウェアハウス 4. データマート 5. データ活用

    前提知識:現代のデータ基盤と分析の流れ RDBMS API SaaS File 機械学習 アプリケー ション連携 BIレポート アドホック分析 参考文献リストの書籍を元に作成 加工 保管 抽出 データを一 箇所に集 める データを 共通化する 用途ごとに DBを分ける
  10. オンプレミス ※1 データウェアハウス • 企業の意思決定支援のためデータを分析するニーズ の高まり • RDBMSを拡張したデータウェアハウスの概念が誕生 ◦ 複数のRDBからデータを集める倉庫(ウェアハウス)

    ◦ データ抽出・変換・格納 (ETL:Extract, Transform, Load)※2 を行う • 各部署の異なるデータ・指標を一箇所にまとめて共通化 ※1 企業内にサーバーを設置してシステムを運用 ※2 データを抽出し、使いやすいように加工してから、”倉庫”に格納する イメージ
  11. 1. 生データ 3. データウェアハウス 4. データマート 5. データ活用 前提知識:現代のデータ基盤と分析の流れ RDBMS

    API SaaS File 機械学習 アプリケー ション連携 BIレポート アドホック分析 参考文献リストの書籍を元に作成 加工 保管 抽出 データを 共通化する 用途ごとに DBを分ける
  12. データレイクの背景: Hadoopフレームワークの普及 特徴 ①分散処理:MapReduce※ • 大規模データを分散・並列実行 を可能に ②分散ファイル管理:HDFS • 複数のコンピュータを1つの大きなストレージのように扱う

    • ファイル形式や種類・構造に問わずまとめて管理 ※ Hadoopで作成した巨大なスーパーコンピュータに、効率よく仕事を分担させるための『賢い指示書』 のイメージ
  13. Hadoopフレームワークの詳細 • Hadoop:分散処理・分散ファイル管理フレームワーク ◦ MapReduce:分散処理ライブラリ ▪ Googleが論文を公開, Apache Hadoop MapReduceとして開発

    ▪ 大規模データを分散・並列実行を可能にした ◦ HDFS:分散ファイルシステム ▪ 複数のコンピュータのストレージを1つの大きなストレージのように 扱うシステム ▪ ファイル形式や種類・構造に関係なくまとめることができる ▪ 分散して保存しているため、冗長性が確保できる
  14. 1. 生データ 2. データレイク 3. データウェアハウス 4. データマート 5. データ活用

    前提知識:現代のデータ基盤と分析の流れ RDBMS API SaaS File 機械学習 アプリケー ション連携 BIレポート アドホック分析 参考文献リストの書籍を元に作成 加工 保管 抽出 データを一 箇所に集 める データを 共通化する 用途ごとに DBを分ける
  15. データ基盤の課題 2000s • Hadoopの普及 ◦ データレイクによる多様なデータの一元管理が実現 ◦ 分散・並列処理によるETLの高速化が実現 • まだ「誰でも手軽にデータ分析」はできない

    状況 • Hadoopとその関連技術(エコシステム)には 高度な専門知識が必須 ◦ データ基盤を構築・運用できる人は限られていた
  16.     Amazon Redshiftの登場 2010s • クラウドコンピューティング の誕生・普及 ◦ クラウドデータウェアハウス の誕生

    • インフラ構築から開放 ◦ ハードウェアの購入・設定不要 ◦ OS・ミドルウェアのインストール・構成不要
  17.     Amazon Redshiftの課題 2010s • データ分析だけに集中するにはまだ手間がかかる状況 ◦ インフラ運用作業が必要 ▪ クラスタ構成

    ▪ ノード管理 ▪ 性能チューニングなど ◦ リソースの拡張(スケーリング)は手動対応中心
  18. データレイクハウスの誕生 • データレイク+データウェアハウスの良いとこ取り ◦ 柔軟性 ▪ データを一箇所で管理 ▪ どんな形式のデータ構造でも管理可能 ◦

    データの一貫性 • 上記特徴によりアドホック分析 ※が実現 ※「何らかのニーズが発生したとき」や 「ピンポイントかつリアルタイム」で分析する手法
  19. ELT(Extract, Load, Transform)という新潮流 • データ分析の手法が変化 ◦ 時間のかかるデータ加工を先にやらなくても良くなった ◦ ひとまず生データをBigQueryに投入し、その場で加工・分析 ▪

    アドホックな分析が可能に • ”データレイクハウス ”の誕生 レージ https://cloud.google.com/bigquery/docs/load-transform-export-intro?hl=ja
  20. 1. 生データ 2. データレイク 3. データウェアハウス 4. データマート 5. データ活用

    前提知識:現代のデータ基盤と分析の流れ RDBMS API SaaS File 機械学習 アプリケー ション連携 BIレポート アドホック分析 加工 保管 抽出 https://cloud.google.com/discover/what-is-a -data-lakehouse?hl=ja データを一 箇所に集 める データを 共通化する 用途ごとに DBを分ける 「データを一箇所に集めて共通化」 データレイクとウェアハウスの良いと こ取り データレイクハウス
  21. データ基盤の抱えてきた課題 • 1980s~1990s データウェアハウスによりデータ分析が実現 ◦ 課題:ETL処理に時間と手間がかかる • 2000s 分散処理によって多様なデータを一元管理・高速ETL処理 ◦

    課題:構築・運用に高度な専門知識が必須 • 2010s クラウドデータウェアハウスによりインフラ構築不要 ◦ 課題:インフラ運用作業は未だ必要
  22. まとめ:Google BigQuery is 何? • Google BigQuery ◦ サーバーレスのデータ基盤 ▪

    それまで課題だった「インフラ管理」不要 ◦ 誰でも手軽に高速な分析 可能 ▪ データの保管と管理 ▪ SQLでのアドホック分析 ▪ BI、AIとの連携
  23. 「改訂新版 Gogle Cloudではじめる実践データエンジニアリング入門」 P20を基に作成  組織横断で 共有可能な ストレージ SQL スプレッドシート/ 自然言語 API

    BI Notebooks  エクサバイト規模も 分析可能なクエリ・ ML 経営層 ビジネス企画 アナリスト/エ ンジニア データサイエンティスト データ アプリケーション データレイク/ ストリーミング ユーザーに 合わせた インターフェイス BigQueryの機能イメージ図
  24. BigQuery is 何? • データの管理と分析 を支援するデータプラットフォーム • ML、検索、地理空間分析、ビジネスインテリジェンス を組み込む •

    サーバーレス アーキテクチャのためインフラストラクチャ管理不要 https://cloud.google.com/bigquery/docs/introduction?hl=ja
  25. 参考文献リスト 書籍 • 実践的データ基盤への処方箋 (技術評論社) • 改訂版 エンジニアのためのデータ分析基盤入門 基本編 (技術評論社)

    • 改訂新版 Google Cloudではじめる実践データエンジニアリング入門 (技 術評論社) • データエンジニアリングの基礎 (O'REIILY' Japan, オーム社)
  26. 参考文献リスト 書籍以外 • Google Cloud公式ドキュメント ◦ BigQuery ドキュメント ◦ BigQueryのストレージ概要

    ◦ データレイクハウスの概要とは ◦ データの読み込み、変換、エクスポートの概要 • あるデータサイエンティストのデータマネジメントとの向き合い方 • Google Cloudで学ぶデータエンジニアリング入門 2025年版 • Google Cloud認定 Professional Data Engineeri(PED)対策トレーニング