Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データウェアハウスを使ってみよう
Search
みかん大学
June 01, 2024
Technology
0
53
データウェアハウスを使ってみよう
- データウェアハウスを使ってみよう
- BigQuery の使用例
みかん大学
June 01, 2024
Tweet
Share
More Decks by みかん大学
See All by みかん大学
VRChatのワールド情報が大量に集まっていた
hidetobara
0
120
VRChat と cluster ワールドの違い-その1-
hidetobara
0
320
VRChat 続・日本語圏のワールドの特徴
hidetobara
0
140
VRChat日本語圏のワールドの特徴
hidetobara
0
190
VRChat Lab抜けの条件
hidetobara
0
1.7k
アンドロイドは電気羊の絵を描くか?
hidetobara
2
59
Other Decks in Technology
See All in Technology
250627 関西Ruby会議08 前夜祭 RejectKaigi「DJ on Ruby Ver.0.1」
msykd
PRO
2
330
Tech-Verse 2025 Global CTO Session
lycorptech_jp
PRO
0
530
生まれ変わった AWS Security Hub (Preview) を紹介 #reInforce_osaka / reInforce New Security Hub
masahirokawahara
0
240
rubygem開発で鍛える設計力
joker1007
2
220
AWS Organizations 新機能!マルチパーティ承認の紹介
yhana
1
160
Kotlin Coroutine Mechanisms: A Surprisingly Deep Rabbithole
amanda_hinchman
2
100
Amazon S3標準/ S3 Tables/S3 Express One Zoneを使ったログ分析
shigeruoda
4
560
「Chatwork」の認証基盤の移行とログ活用によるプロダクト改善
kubell_hr
1
200
第9回情シス転職ミートアップ_テックタッチ株式会社
forester3003
0
260
Yamla: Rustでつくるリアルタイム性を追求した機械学習基盤 / Yamla: A Rust-Based Machine Learning Platform Pursuing Real-Time Capabilities
lycorptech_jp
PRO
4
140
「良さそう」と「とても良い」の間には 「良さそうだがホンマか」がたくさんある / 2025.07.01 LLM品質Night
smiyawaki0820
1
340
Node-RED × MCP 勉強会 vol.1
1ftseabass
PRO
0
160
Featured
See All Featured
jQuery: Nuts, Bolts and Bling
dougneiner
63
7.8k
Balancing Empowerment & Direction
lara
1
380
Statistics for Hackers
jakevdp
799
220k
Done Done
chrislema
184
16k
Unsuck your backbone
ammeep
671
58k
YesSQL, Process and Tooling at Scale
rocio
173
14k
The World Runs on Bad Software
bkeepers
PRO
69
11k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
48
5.4k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
30
2.1k
Git: the NoSQL Database
bkeepers
PRO
430
65k
A Tale of Four Properties
chriscoyier
160
23k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Transcript
データウェアハウスを 使ってみよう みかん電機
DWH (Data Warehouse)とは • 「データの倉庫」を意味する言葉 • 大量のデータを管理し、分析計算を高速に行うシステム • 例 ◦
Apache Hadoop, Spark, Hive ◦ AWS Athena, Redshift ◦ GCP BigQuery ◦ Azure SQL Data Warehouse ◦ Snowflake ◦ Databricks etc…
RDB (Relational Database) とは何が違うの? • 方言の違いはあるものの SQL でクエリを記述できるのは共通 • RDB
は行指向データベース、DWH は列指向データベース • DWH はデータ量がテラ、ペタ級になっても実用的に動作 • RDB はレコードの更新も速い、DWH だと更新は遅いもしくは不可 • RDB を使うのはWebアプリケーションなどのシステム、DWH を使うのは分析基盤 などのシステム user_id ・・・ 名前 年齢 1234 山田 21 1235 田中 30 1236 伊藤 60 行指向 列指向
Datalake とは何が違うの? • Datalake は生ログが置いてあり、DWH はそれらを整形して入れたものだったはず が・・・ ◦ AWS S3,
Athena は Datalake で、AWS Redshift が DWH • BigQuery は、改善によって、JSON形式の生ログを入れても大丈夫になっていた ・・・ ◦ 境界はあいまいな気が ◦ 本によっても言葉がぶれており
例)ECサイトの中での立ち位置 • Web Framework に Laravel • RDB に、AWS RDS
• Datalake として、AWS S3 / Athena • DWH に、AWS Redshift DWH RDB WEB サーバ Datalake ユーザデータ 生ログ • 購買ログ • ページ遷移
わざわざ分けるの面倒だし RDB でも良くないんですか? 「購買ログ・テーブルも、RDBに入れますね」 「カラムは、購買日時、ユーザID、商品ID でいいか」 「えっ、どこの県の人が買っているか調べたい?」 「ユーザ情報と JOIN して検索すると今の県しか分からないって?」
「購買ログ・テーブルのカラムにその時点での住所情報も追加しますね」 「え、年齢も年収も所帯も子供数もさらに必要って?」 「大変です、CMの影響でユーザ数が増大しています」 「RDBの容量の9割以上が購買ログなのですが!」 ・・・・・( ゚Д゚)
RDB
大量のデータを集めて分析するために作られたのが DWH 課題 • 分析用ログは正規化できないのでデータ量は膨大に • 分析対象となる膨大なデータは、RDB の検索性を圧迫しコストも増大 解決策 •
DWH を使おう! • BigQuery は、DWH の中でスタートアップや個人でも使いやすい ◦ 1ヶ月1Gのデータ保存で約3円、長期になると1.5円 ◦ スキャンしたデータ量だけ課金される、いわゆるサーバーレスの課金方式 ▪ 他のサービスのように最低でも月に〇万円かかる、ということは無い ▪ 1Gのスキャンで約0.937円 ◦ 初期の契約でも、GCP上の計算リソースが空いているならば最大 2000並列で計算してくれるので、 めっちゃ速い
まとめ • DWHは、大量のデータを管理することができます • そのデータの分析を高速に行うことができます • 餅は餅屋 • SQL でデータの操作はできるので実例は略
• DWH おススメの本→ • おまけ ◦ VRChat のワールドデータ公開します
おまけ)VRChat ワールドデータ (Parquet) • VRC API にて、ワールドの更新があるとその一覧が取得できるので、そこからデー タ取得 • ワールド名や作者名、訪問数、お気に入り数、説明文、タグなどがあります
おまけ)BigQuery で、月毎のワールド公開数を調べる • クエリを実行する前に、スキャンするデー タ量が表示され、計算コストが分かるので うれしい↑ • WITH 構文が使えるので、サブクエリのネ ストしなくても良い
• 最大2000並列で計算するので速い • クエリ結果は見やすいとは言えないので、 スプレッドシートや JupyterLab などにエク スポート