”Hadoop: The Definitive Guide” (象本)の初版出版が2009年 • 現在の総データ量: 2.5PB+ • 大部分はオンプレミス( 2015年頃からBigQuery を利用) 6 旧データ プラットフォームの全体像 Service Env Data Platform Service A Hadoop Argus Batch Server BigQuery App Server DB Server app logs snapshot Jenkins Hue batch job management Service B Service C …
プラットフォームの特徴: マルチテナント Hadoop Cluster Service B のログ Service C のログ Vertica Cluster Service A のデータ Service B のデータ Service C のデータ Service A のログ 10 Batch Server Service A のアナリスト Service B のアナリスト Service C のアナリスト … … …
特定の事業に合わせた環境の カスタマイズ が難しい • 影響範囲が広く計画停止するのも一苦労、 ス ピーディーな改善が難しい • ただでさえコンポーネントが多く複雑な システムが、権限管理等の要件により 更に複雑化 On-Premises Service A Service B Service C … … Service A Service B Service C …
DB Server Data Platform Service A BigQuery Cloud Storage GKE digdag batch web app Argus app logs snapshot Service B Service C Service B Service C ・・・ ・・・ サービス毎に環境分離 ワークロード毎にリ ソース分離
• 「どのサービスで何にいくら使ったか 」が明 確に ポリモフの設計方針: サービス毎に環境分離 権限管理上のメリット • 権限管理(IAM)が プロジェクト毎 = サービス毎 に明確に分離される • 誤って不要な権限を付けてしまう リス クが低い 22 … Service A Service B Service C
col3 FROM foo.bar1 ), table2 as ( SELECT col1, col2, col3 FROM foo.bar2 ), except_table as ( SELECT “comp_dist”, * FROM (SELECT * FROM table1 EXCEPT DISTINCT SELECT * FROM table2) UNION ALL SELECT “comp_source”,* FROM (SELECT * FROM table2 EXCEPT DISTINCT SELECT * FROM table1) ) SELECT * FROM except_table 差分が一目瞭然 オンプレテーブル クラウドテーブル