Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
DWH御三家の各特徴と選び方〜SnowflakeとBigQueryとRedshiftと〜
Search
tama-chang
December 02, 2020
Technology
0
9.5k
DWH御三家の各特徴と選び方〜SnowflakeとBigQueryとRedshiftと〜
https://forkwell.connpass.com/event/194269/
tama-chang
December 02, 2020
Tweet
Share
More Decks by tama-chang
See All by tama-chang
データ分析の世界で今後必要とされる役割 「Purple People」とは
cmtamai
3
2.8k
Transform〜メトリクスレイヤーとは何か? データ分析に必要な「指標」を管理する
cmtamai
0
2.1k
アナリティクスエンジニアとは(What is Analytics Engineer)
cmtamai
1
8.7k
禁忌解放~TableauとLookerを連携して究極のBI環境を召喚する
cmtamai
0
3.3k
Lookerはじめの一歩
cmtamai
0
2.2k
Snowflakeはじめの一歩
cmtamai
2
2.4k
スティーブン・セガール出演作品の邦題に「沈黙」がつくかどうか判別する機械学習モデルを作ろうとしてみた
cmtamai
0
870
osaka_tamai.pdf
cmtamai
0
1.8k
スティーブン・セガール出演作品の邦題に「沈黙」がつくかどうか判別する機械学習モデルを作ろうとしてみた
cmtamai
0
1.4k
Other Decks in Technology
See All in Technology
Terraform CI/CD パイプラインにおける AWS CodeCommit の代替手段
hiyanger
1
240
初心者向けAWS Securityの勉強会mini Security-JAWSを9ヶ月ぐらい実施してきての近況
cmusudakeisuke
0
130
Making your applications cross-environment - OSCG 2024 NA
salaboy
0
190
Security-JAWS【第35回】勉強会クラウドにおけるマルウェアやコンテンツ改ざんへの対策
4su_para
0
180
オープンソースAIとは何か? --「オープンソースAIの定義 v1.0」詳細解説
shujisado
9
1.1k
OCI Network Firewall 概要
oracle4engineer
PRO
0
4.2k
Evangelismo técnico: ¿qué, cómo y por qué?
trishagee
0
360
OCI Security サービス 概要
oracle4engineer
PRO
0
6.5k
BLADE: An Attempt to Automate Penetration Testing Using Autonomous AI Agents
bbrbbq
0
320
テストコード品質を高めるためにMutation Testingライブラリ・Strykerを実戦導入してみた話
ysknsid25
7
2.6k
いざ、BSC討伐の旅
nikinusu
2
780
SREが投資するAIOps ~ペアーズにおけるLLM for Developerへの取り組み~
takumiogawa
1
380
Featured
See All Featured
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
93
16k
A better future with KSS
kneath
238
17k
Code Review Best Practice
trishagee
64
17k
Designing for humans not robots
tammielis
250
25k
The Art of Programming - Codeland 2020
erikaheidi
52
13k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
42
9.2k
Building a Modern Day E-commerce SEO Strategy
aleyda
38
6.9k
Writing Fast Ruby
sferik
627
61k
Six Lessons from altMBA
skipperchong
27
3.5k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
26
1.4k
Faster Mobile Websites
deanohume
305
30k
Transcript
DWH御三家の各特徴と選び方 〜SnowflakeとBigQueryとRedshiftと〜 玉井 励 クラスメソッド株式会社 データアナリティクス事業本部 1
2 自己紹介 玉井 励(タマイ レイ) • クラスメソッド株式会社 ◦ Snowflakeの国内初ソリューションパート ナー
• 自分の職種 ◦ BIツールの技術支援など ◦ BIとDWHは切っても切り離せない関係 • 奈良県出身、奈良県在住
3 今回お話すること(アジェンダ)
4 今回お話すること • DWHの簡単なおさらい(DWHとは?) • DWHの選び方における結論 • DWH御三家の特徴を簡単にご紹介 ◦ Snowflake
◦ Google BigQuery ◦ Amazon Redshift • DWH御三家の選び方
5 データウェアハウス(DWH)とは?
6 データウェアハウスとは 分析しやすいようにデータを蓄積するDB
7 DWHをもっと知りたい方は https://youtu.be/G7weKwUE6KY
8 DWHの選び方における結論
9 世の中そんなに甘くない 「これを選んでおけば間違いない」 というDWHはありません
10 結局はこれ 自分たちの(データ分析における)要件に 合ったDWHが一番良い
11 いちばんだいじなこと 自分たちが計画している データ分析の要件を徹底的に洗い出す
12 DWH御三家の紹介
13 Snowflake • Snowflake社が提供する サービス • フルマネージド • 従量課金 ◦
メインは仮想ウェアハウス の稼働時間
14 Snowflakeのいいところ • 面倒な管理不要 ◦ コンピュート部分は管理可能 • 最先端の機能が多数存 在 ◦
仮想ウェアハウス ◦ ステージ ◦ ゼロコピークローン ◦ タイムトラベル ◦ snowpipe ◦ 半構造化データの取り扱い ◦ データシェアリング
15 Snowflakeの注意点 • 主要なパブリッククラウド サービスと独立してしまう ◦ 料金支払等がバラける ◦ 各種連携は可能 •
事前の見積は難しい
16 Google BigQuery • GCPサービスの1つ • フルマネージド • 従量課金 ◦
メインは処理するデータ 量(スキャン量)
17 Google BigQueryのいいところ • 管理不要 • GCPやGoogleサービスと の連携 • SQLだけで機械学習
(BQML)
18 Google BigQueryの注意点 • コストマネジメントに一定 のスキルが必要 ◦ パーティショニングなど • BQ独自のデータの扱い
方がある ◦ STRUCT型、UNNEST • 事前の見積は難しい
19 Amazon Redshift • AWSのサービスの1つ • マネージドサービス • 従量課金 ◦
起動している時間
20 Amazon Redshiftのいいところ • とっつきやすい ◦ 従来のDBと似た感覚で使 える ◦ オンプレDWHの知見を流
用できる • 事前の見積がしやすい • AWSである ◦ 既存AWSサービスとの連 携
21 Amazon Redshiftの注意点 • それなりに管理は必要 ◦ スケーラビリティ ◦ WLM ◦
VACUUM • それなりにチューニング は必要 ◦ 列圧縮タイプ ◦ 分散スタイル ◦ 各種キー
22 DWHの選び方
23 切り口は人それぞれ どういう観点で選ぶか
24 DWHを選ぶ観点の例 • パフォーマンス • セキュリティ • バックアップ(&リカバリー) • スケーラビリティ
• エコシステム • コスト
25 DWHを選ぶ観点の例 • パフォーマンス • セキュリティ • バックアップ(&リカバリー) • スケーラビリティ
• エコシステム • コスト
26 ぶっちゃけ パフォーマンスはどれも同じ (環境や状況による)
27 ベンチマーク記事は冷静に https://aws.amazon.com/jp/blogs/big-data/fact-or-fiction-google-big-query-outperforms-amazon-redshift-as-an-enterprise-data-warehouse/
28 DWHを選ぶ観点の例 • パフォーマンス • セキュリティ • バックアップ(&リカバリー) • スケーラビリティ
• エコシステム • コスト
29 セキュリティもバックアップも どのDWHもしっかりしてる
30 サービスとしてのセキュリティ https://www.snowflake.com/%E8%A3%BD%E5%93%81/snowflake%E3%82%BB%E3%82%AD%E3%83%A5%E3%83%AA%E3%83%86%E3%82%A3%E3%81%A8% E3%83%88%E3%83%A9%E3%82%B9%E3%83%88%E3%82%BB%E3%83%B3%E3%82%BF%E3%83%BC/?lang=ja https://cloud.google.com/data-security-governance?hl=JA https://docs.aws.amazon.com/ja_jp/redshift/latest/mgmt/iam-redshift-user-mgmt.html
31 機能としてのセキュリティ • アクセス制御 ◦ IP縛りとか • 認証 • 権限管理
• 暗号化
32 バックアップについて • タイムトラベル • Fail-safe • 各種ステージへの UNLOAD •
7日間の自動履歴保存 • Cloud Storageへのエク スポート • 自動スナップショット • 手動スナップショット • S3へのUNLOAD
33 DWHを選ぶ観点の例 • パフォーマンス • セキュリティ • バックアップ(&リカバリー) • スケーラビリティ
• エコシステム • コスト
34 データが加速度的に増えていく時代 https://iotnews.jp/archives/150335
35 自分で管理 vs サービスにおまかせ https://fivetran.com/blog/warehouse-benchmark
36 BigQueryが楽そうだが…? • 仮想ウェアハウスのサイ ズ変更 • 自動 • インスタンスタイプの変 更
• ノード数の変更 • Spectrum • RA3
37 DWHを選ぶ観点の例 • パフォーマンス • セキュリティ • バックアップ(&リカバリー) • スケーラビリティ
• エコシステム • コスト
38 基盤を1つのエコシステムで統一するメリット
39 DWHを選ぶ観点の例 • パフォーマンス • セキュリティ • バックアップ(&リカバリー) • スケーラビリティ
• エコシステム • コスト
40 まずはSnowflakeとBigQueryの2つで考えてみる • 仮想ウェアハウスが起動し ていた時間(秒単位) • クエリで処理するデータの 量(スキャン量)
41 Snowflakeのコストマネジメント • 仮想ウェアハウスの扱い がコストの鍵を握る • ワークロード別に用意し て調整 ◦ サイズ
◦ 稼働時間 ◦ クラスタ数 ◦ オートサスペンド(&レ ジューム) • いつでも変更可
42 BigQueryのコストマネジメント • スキャンデータ量 ◦ LIMIT句は無意味 • 無駄なスキャンを避けるテクニックが必要 ◦ テーブル分割(パーティショニング)
◦ 無駄なクエリは実行しない(中身を見るだけ等) ◦ 必要なカラムのみ対象にする ◦ 実行前にクエリの見積をする(見積ツールあり) ◦ 処理可能サイズに制限をかける
43 考え方の例 • 仮想ウェアハウスが起動し ていた時間(秒単位) • 大量のデータを定期的に 処理し続ける要件がある 場合はSnowflakeの方が よい?
• クエリで処理するデータの 量(スキャン量) • 特定のタイミングだけ重い 処理が行われる(アイドル 状態も多い)要件がある場 合はBigQueryの方がよ い?
44 Redshiftという選択肢 • 立ち上がっている時間=コ スト ◦ クエリの処理量や処理時 間を気にしなくて良い ◦ 見積がしやすい
◦ リザーブドインスタンス
45 まとめ
46 まとめ • DWHとは、データ分析に特化したDB • 一番いいDWH = 自分の要件に合ったDWH • 実際に使ってみるのが一番の近道(トライアル、無料枠)
47