Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データウェアハウスを使ってみよう
Search
みかん大学
June 01, 2024
Technology
0
60
データウェアハウスを使ってみよう
- データウェアハウスを使ってみよう
- BigQuery の使用例
みかん大学
June 01, 2024
Tweet
Share
More Decks by みかん大学
See All by みかん大学
VRChatのワールド情報が大量に集まっていた
hidetobara
0
150
VRChat と cluster ワールドの違い-その1-
hidetobara
0
340
VRChat 続・日本語圏のワールドの特徴
hidetobara
0
150
VRChat日本語圏のワールドの特徴
hidetobara
0
220
VRChat Lab抜けの条件
hidetobara
0
2.3k
アンドロイドは電気羊の絵を描くか?
hidetobara
2
61
Other Decks in Technology
See All in Technology
All About Sansan – for New Global Engineers
sansan33
PRO
1
1.3k
AWS re:Inventre:cap ~AmazonNova 2 Omniのワークショップを体験してきた~
nrinetcom
PRO
0
120
RALGO : AIを組織に組み込む方法 -アルゴリズム中心組織設計- #RSGT2026 / RALGO: How to Integrate AI into an Organization – Algorithm-Centric Organizational Design
kyonmm
PRO
2
360
[Data & AI Summit '25 Fall] AIでデータ活用を進化させる!Google Cloudで作るデータ活用の未来
kirimaru
0
4.2k
First-Principles-of-Scrum
hiranabe
2
610
M&Aで拡大し続けるGENDAのデータ活用を促すためのDatabricks権限管理 / AEON TECH HUB #22
genda
0
310
Eight Engineering Unit 紹介資料
sansan33
PRO
0
6.1k
202512_AIoT.pdf
iotcomjpadmin
0
180
AI: The stuff that nobody shows you
jnunemaker
PRO
1
130
あの夜、私たちは「人間」に戻った。 ── 災害ユートピア、贈与、そしてアジャイルの再構築 / 20260108 Hiromitsu Akiba
shift_evolve
PRO
0
300
名刺メーカーDevグループ 紹介資料
sansan33
PRO
0
1k
スクラムマスターが スクラムチームに入って取り組む5つのこと - スクラムガイドには書いてないけど入った当初から取り組んでおきたい大切なこと -
scrummasudar
0
750
Featured
See All Featured
We Have a Design System, Now What?
morganepeng
54
8k
sira's awesome portfolio website redesign presentation
elsirapls
0
100
Efficient Content Optimization with Google Search Console & Apps Script
katarinadahlin
PRO
0
270
Building an army of robots
kneath
306
46k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
254
22k
Build your cross-platform service in a week with App Engine
jlugia
234
18k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.6k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3.1k
More Than Pixels: Becoming A User Experience Designer
marktimemedia
2
270
The Power of CSS Pseudo Elements
geoffreycrofte
80
6.1k
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
210
How To Stay Up To Date on Web Technology
chriscoyier
791
250k
Transcript
データウェアハウスを 使ってみよう みかん電機
DWH (Data Warehouse)とは • 「データの倉庫」を意味する言葉 • 大量のデータを管理し、分析計算を高速に行うシステム • 例 ◦
Apache Hadoop, Spark, Hive ◦ AWS Athena, Redshift ◦ GCP BigQuery ◦ Azure SQL Data Warehouse ◦ Snowflake ◦ Databricks etc…
RDB (Relational Database) とは何が違うの? • 方言の違いはあるものの SQL でクエリを記述できるのは共通 • RDB
は行指向データベース、DWH は列指向データベース • DWH はデータ量がテラ、ペタ級になっても実用的に動作 • RDB はレコードの更新も速い、DWH だと更新は遅いもしくは不可 • RDB を使うのはWebアプリケーションなどのシステム、DWH を使うのは分析基盤 などのシステム user_id ・・・ 名前 年齢 1234 山田 21 1235 田中 30 1236 伊藤 60 行指向 列指向
Datalake とは何が違うの? • Datalake は生ログが置いてあり、DWH はそれらを整形して入れたものだったはず が・・・ ◦ AWS S3,
Athena は Datalake で、AWS Redshift が DWH • BigQuery は、改善によって、JSON形式の生ログを入れても大丈夫になっていた ・・・ ◦ 境界はあいまいな気が ◦ 本によっても言葉がぶれており
例)ECサイトの中での立ち位置 • Web Framework に Laravel • RDB に、AWS RDS
• Datalake として、AWS S3 / Athena • DWH に、AWS Redshift DWH RDB WEB サーバ Datalake ユーザデータ 生ログ • 購買ログ • ページ遷移
わざわざ分けるの面倒だし RDB でも良くないんですか? 「購買ログ・テーブルも、RDBに入れますね」 「カラムは、購買日時、ユーザID、商品ID でいいか」 「えっ、どこの県の人が買っているか調べたい?」 「ユーザ情報と JOIN して検索すると今の県しか分からないって?」
「購買ログ・テーブルのカラムにその時点での住所情報も追加しますね」 「え、年齢も年収も所帯も子供数もさらに必要って?」 「大変です、CMの影響でユーザ数が増大しています」 「RDBの容量の9割以上が購買ログなのですが!」 ・・・・・( ゚Д゚)
RDB
大量のデータを集めて分析するために作られたのが DWH 課題 • 分析用ログは正規化できないのでデータ量は膨大に • 分析対象となる膨大なデータは、RDB の検索性を圧迫しコストも増大 解決策 •
DWH を使おう! • BigQuery は、DWH の中でスタートアップや個人でも使いやすい ◦ 1ヶ月1Gのデータ保存で約3円、長期になると1.5円 ◦ スキャンしたデータ量だけ課金される、いわゆるサーバーレスの課金方式 ▪ 他のサービスのように最低でも月に〇万円かかる、ということは無い ▪ 1Gのスキャンで約0.937円 ◦ 初期の契約でも、GCP上の計算リソースが空いているならば最大 2000並列で計算してくれるので、 めっちゃ速い
まとめ • DWHは、大量のデータを管理することができます • そのデータの分析を高速に行うことができます • 餅は餅屋 • SQL でデータの操作はできるので実例は略
• DWH おススメの本→ • おまけ ◦ VRChat のワールドデータ公開します
おまけ)VRChat ワールドデータ (Parquet) • VRC API にて、ワールドの更新があるとその一覧が取得できるので、そこからデー タ取得 • ワールド名や作者名、訪問数、お気に入り数、説明文、タグなどがあります
おまけ)BigQuery で、月毎のワールド公開数を調べる • クエリを実行する前に、スキャンするデー タ量が表示され、計算コストが分かるので うれしい↑ • WITH 構文が使えるので、サブクエリのネ ストしなくても良い
• 最大2000並列で計算するので速い • クエリ結果は見やすいとは言えないので、 スプレッドシートや JupyterLab などにエク スポート