Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
DWH御三家の各特徴と選び方〜SnowflakeとBigQueryとRedshiftと〜
Search
tama-chang
December 02, 2020
Technology
0
9.8k
DWH御三家の各特徴と選び方〜SnowflakeとBigQueryとRedshiftと〜
https://forkwell.connpass.com/event/194269/
tama-chang
December 02, 2020
Tweet
Share
More Decks by tama-chang
See All by tama-chang
データ分析の世界で今後必要とされる役割 「Purple People」とは
cmtamai
3
2.8k
Transform〜メトリクスレイヤーとは何か? データ分析に必要な「指標」を管理する
cmtamai
0
2.2k
アナリティクスエンジニアとは(What is Analytics Engineer)
cmtamai
1
8.9k
禁忌解放~TableauとLookerを連携して究極のBI環境を召喚する
cmtamai
0
3.5k
Lookerはじめの一歩
cmtamai
0
2.3k
Snowflakeはじめの一歩
cmtamai
2
2.6k
スティーブン・セガール出演作品の邦題に「沈黙」がつくかどうか判別する機械学習モデルを作ろうとしてみた
cmtamai
0
950
osaka_tamai.pdf
cmtamai
0
1.9k
スティーブン・セガール出演作品の邦題に「沈黙」がつくかどうか判別する機械学習モデルを作ろうとしてみた
cmtamai
0
1.5k
Other Decks in Technology
See All in Technology
ABWG2024採択者が語るエンジニアとしての自分自身の見つけ方〜発信して、つながって、世界を広げていく〜
maimyyym
1
200
Ruby on Railsで持続可能な開発を行うために取り組んでいること
am1157154
3
160
AWSアカウントのセキュリティ自動化、どこまで進める? 最適な設計と実践ポイント
yuobayashi
7
1.1k
Potential EM 制度を始めた理由、そして2年後にやめた理由 - EMConf JP 2025
hoyo
2
3k
手を動かしてレベルアップしよう!
maruto
0
250
【5分でわかる】セーフィー エンジニア向け会社紹介
safie_recruit
0
19k
開発者のための FinOps/FinOps for Engineers
oracle4engineer
PRO
2
240
Two Blades, One Journey: Engineering While Managing
ohbarye
4
2.4k
プルリクエストレビューを終わらせるためのチーム体制 / The Team for Completing Pull Request Reviews
nekonenene
1
850
クラウド食堂とは?
hiyanger
0
130
E2Eテスト自動化入門
devops_vtj
1
110
AIエージェント入門
minorun365
PRO
33
19k
Featured
See All Featured
Reflections from 52 weeks, 52 projects
jeffersonlam
348
20k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
45
9.4k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.5k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
46
2.4k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Done Done
chrislema
182
16k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
Making the Leap to Tech Lead
cromwellryan
133
9.1k
Designing for Performance
lara
605
68k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
227
22k
Java REST API Framework Comparison - PWX 2021
mraible
29
8.4k
Building Flexible Design Systems
yeseniaperezcruz
328
38k
Transcript
DWH御三家の各特徴と選び方 〜SnowflakeとBigQueryとRedshiftと〜 玉井 励 クラスメソッド株式会社 データアナリティクス事業本部 1
2 自己紹介 玉井 励(タマイ レイ) • クラスメソッド株式会社 ◦ Snowflakeの国内初ソリューションパート ナー
• 自分の職種 ◦ BIツールの技術支援など ◦ BIとDWHは切っても切り離せない関係 • 奈良県出身、奈良県在住
3 今回お話すること(アジェンダ)
4 今回お話すること • DWHの簡単なおさらい(DWHとは?) • DWHの選び方における結論 • DWH御三家の特徴を簡単にご紹介 ◦ Snowflake
◦ Google BigQuery ◦ Amazon Redshift • DWH御三家の選び方
5 データウェアハウス(DWH)とは?
6 データウェアハウスとは 分析しやすいようにデータを蓄積するDB
7 DWHをもっと知りたい方は https://youtu.be/G7weKwUE6KY
8 DWHの選び方における結論
9 世の中そんなに甘くない 「これを選んでおけば間違いない」 というDWHはありません
10 結局はこれ 自分たちの(データ分析における)要件に 合ったDWHが一番良い
11 いちばんだいじなこと 自分たちが計画している データ分析の要件を徹底的に洗い出す
12 DWH御三家の紹介
13 Snowflake • Snowflake社が提供する サービス • フルマネージド • 従量課金 ◦
メインは仮想ウェアハウス の稼働時間
14 Snowflakeのいいところ • 面倒な管理不要 ◦ コンピュート部分は管理可能 • 最先端の機能が多数存 在 ◦
仮想ウェアハウス ◦ ステージ ◦ ゼロコピークローン ◦ タイムトラベル ◦ snowpipe ◦ 半構造化データの取り扱い ◦ データシェアリング
15 Snowflakeの注意点 • 主要なパブリッククラウド サービスと独立してしまう ◦ 料金支払等がバラける ◦ 各種連携は可能 •
事前の見積は難しい
16 Google BigQuery • GCPサービスの1つ • フルマネージド • 従量課金 ◦
メインは処理するデータ 量(スキャン量)
17 Google BigQueryのいいところ • 管理不要 • GCPやGoogleサービスと の連携 • SQLだけで機械学習
(BQML)
18 Google BigQueryの注意点 • コストマネジメントに一定 のスキルが必要 ◦ パーティショニングなど • BQ独自のデータの扱い
方がある ◦ STRUCT型、UNNEST • 事前の見積は難しい
19 Amazon Redshift • AWSのサービスの1つ • マネージドサービス • 従量課金 ◦
起動している時間
20 Amazon Redshiftのいいところ • とっつきやすい ◦ 従来のDBと似た感覚で使 える ◦ オンプレDWHの知見を流
用できる • 事前の見積がしやすい • AWSである ◦ 既存AWSサービスとの連 携
21 Amazon Redshiftの注意点 • それなりに管理は必要 ◦ スケーラビリティ ◦ WLM ◦
VACUUM • それなりにチューニング は必要 ◦ 列圧縮タイプ ◦ 分散スタイル ◦ 各種キー
22 DWHの選び方
23 切り口は人それぞれ どういう観点で選ぶか
24 DWHを選ぶ観点の例 • パフォーマンス • セキュリティ • バックアップ(&リカバリー) • スケーラビリティ
• エコシステム • コスト
25 DWHを選ぶ観点の例 • パフォーマンス • セキュリティ • バックアップ(&リカバリー) • スケーラビリティ
• エコシステム • コスト
26 ぶっちゃけ パフォーマンスはどれも同じ (環境や状況による)
27 ベンチマーク記事は冷静に https://aws.amazon.com/jp/blogs/big-data/fact-or-fiction-google-big-query-outperforms-amazon-redshift-as-an-enterprise-data-warehouse/
28 DWHを選ぶ観点の例 • パフォーマンス • セキュリティ • バックアップ(&リカバリー) • スケーラビリティ
• エコシステム • コスト
29 セキュリティもバックアップも どのDWHもしっかりしてる
30 サービスとしてのセキュリティ https://www.snowflake.com/%E8%A3%BD%E5%93%81/snowflake%E3%82%BB%E3%82%AD%E3%83%A5%E3%83%AA%E3%83%86%E3%82%A3%E3%81%A8% E3%83%88%E3%83%A9%E3%82%B9%E3%83%88%E3%82%BB%E3%83%B3%E3%82%BF%E3%83%BC/?lang=ja https://cloud.google.com/data-security-governance?hl=JA https://docs.aws.amazon.com/ja_jp/redshift/latest/mgmt/iam-redshift-user-mgmt.html
31 機能としてのセキュリティ • アクセス制御 ◦ IP縛りとか • 認証 • 権限管理
• 暗号化
32 バックアップについて • タイムトラベル • Fail-safe • 各種ステージへの UNLOAD •
7日間の自動履歴保存 • Cloud Storageへのエク スポート • 自動スナップショット • 手動スナップショット • S3へのUNLOAD
33 DWHを選ぶ観点の例 • パフォーマンス • セキュリティ • バックアップ(&リカバリー) • スケーラビリティ
• エコシステム • コスト
34 データが加速度的に増えていく時代 https://iotnews.jp/archives/150335
35 自分で管理 vs サービスにおまかせ https://fivetran.com/blog/warehouse-benchmark
36 BigQueryが楽そうだが…? • 仮想ウェアハウスのサイ ズ変更 • 自動 • インスタンスタイプの変 更
• ノード数の変更 • Spectrum • RA3
37 DWHを選ぶ観点の例 • パフォーマンス • セキュリティ • バックアップ(&リカバリー) • スケーラビリティ
• エコシステム • コスト
38 基盤を1つのエコシステムで統一するメリット
39 DWHを選ぶ観点の例 • パフォーマンス • セキュリティ • バックアップ(&リカバリー) • スケーラビリティ
• エコシステム • コスト
40 まずはSnowflakeとBigQueryの2つで考えてみる • 仮想ウェアハウスが起動し ていた時間(秒単位) • クエリで処理するデータの 量(スキャン量)
41 Snowflakeのコストマネジメント • 仮想ウェアハウスの扱い がコストの鍵を握る • ワークロード別に用意し て調整 ◦ サイズ
◦ 稼働時間 ◦ クラスタ数 ◦ オートサスペンド(&レ ジューム) • いつでも変更可
42 BigQueryのコストマネジメント • スキャンデータ量 ◦ LIMIT句は無意味 • 無駄なスキャンを避けるテクニックが必要 ◦ テーブル分割(パーティショニング)
◦ 無駄なクエリは実行しない(中身を見るだけ等) ◦ 必要なカラムのみ対象にする ◦ 実行前にクエリの見積をする(見積ツールあり) ◦ 処理可能サイズに制限をかける
43 考え方の例 • 仮想ウェアハウスが起動し ていた時間(秒単位) • 大量のデータを定期的に 処理し続ける要件がある 場合はSnowflakeの方が よい?
• クエリで処理するデータの 量(スキャン量) • 特定のタイミングだけ重い 処理が行われる(アイドル 状態も多い)要件がある場 合はBigQueryの方がよ い?
44 Redshiftという選択肢 • 立ち上がっている時間=コ スト ◦ クエリの処理量や処理時 間を気にしなくて良い ◦ 見積がしやすい
◦ リザーブドインスタンス
45 まとめ
46 まとめ • DWHとは、データ分析に特化したDB • 一番いいDWH = 自分の要件に合ったDWH • 実際に使ってみるのが一番の近道(トライアル、無料枠)
47