Starburst Enterprise について

Starburst Enterpriseのご紹介 JDMCエンジニアの会 2024年1月18日 Starburst ソフトウェアエンジニア & Trino (旧PrestoSQL) メンテナー
蛯原裕弥

Starburst 会社紹介 August 2012 January 2024 Facebook と Teradataのメンバーにより
Starburstを創業 Total Valuation Mar ‘22 $3.35B Trino (旧 Presto) 35,000コミットへ到達 Teradata によるコミュニティへの投資 Facebookが Prestoをオープンソース化 Facebookの 4人の開発者が Prestoプロジェクトを開始 Matthew Fuller Kamil Bajda-Pawlikowski Justin Borgman Martin Traverso Dain Sundstrom David Phillips +

BI Integration Client Support Real-time analytics NoSQL Stores Applications 分析エンジン
MPPクエリエンジンデータプロダクト耐障害性実行クエリオプティマイザオートスケーリング Smart Indexing & Caching メトリクス&ロギングセキュリティ End-to-End暗号化データのマスククエリの監査アクセスコントロール Data Lakes / Lakehouses Relational DBs snowflake Data Consumptionレイヤー S3 Starburstの全体像

Starburstを採用するメリット • 50以上のコネクタを提供 • ハイブリッド/クロスクラウド向けの Stargateコネクタ • Iceberg, Delta Lake,
Hudiをサポート • データレイクハウス • マテリアライズドビュー • タイムトラベル、スキーマ進化 • Warp Speedコネクタ (smart indexing & caching) • データプロダクト • スキーマディスカバリ多様なデータに対するフェデレーションレガシーなデータレイクを近代化データウェアハウスの補完 Relational NoSQL Applications Streaming Data Lake データウェアハウスオブジェクトストレージフェデレーションデータレイクの分析

Parse Worker node Coordinator node Metastore Add worker node BI
& SQL Clients Data storage Add worker node Analyze Optimize Schedule Trino cluster Compute engine Worker node アーキテクチャ概要 • ストレージと計算処理を完全に分離 • ワーカー数やクラスター自体を追加することで水平にスケール • 最も計算コストの低いJOINを決定するためのコストベースのオプティマイザー • 実行中のクエリに影響をあたえることなくワーカーをシャットダウンするAPI • 重要なユーザーやクエリはリソースグループを利用して優先化 Starburst EnterpriseはOSS Trinoをベースにした MPPクエリエンジンで、コネクタを使って多様なデータソースにアクセスできます

Source systems Enterprise data warehouse Data lakes Data source Data
source Data source Data source ETL ETL ETL Data science Applications Dashboard & reports ETL ETL ETL ETL ETL ETL ETL ETL ETL ETL ETL 導入前のイメージ (複雑なパイプラインや散在した権限管理)

Source systems Enterprise data warehouse Data lake analytics platform Data
source D Data source Data source Data source ETL ETL ETL Data science Applications Dashboard & reports 導入後のイメージ (シンプルなパイプライン、一元的な権限管理) 既存の分析環境と同居しつつ仮想的なDWHを提供できます

Starburstが環境を管理するSaaS製品 • メインターゲットはクラウド • クラスターサイズに応じた料金モデル • バージョンアップは自動 • Data lineageのサポート
• Cache serviceは非サポート • Rangerは非サポート https://www.starburst.io/platform/starburst-galaxy/ 無料枠もあります Starburst GalaxyとStarburst Enterprise お客様が環境を管理する製品 • オンプレ/クラウドどこでもデプロイ可能 • vCPUに応じた料金モデル • バージョンアップは手動 • Data lineageは非サポート • Cache serviceのサポート • Rangerのサポート https://www.starburst.io/platform/starburst-enterprise/ Starburst Galaxy Starburst Enterprise (SEP) 共通の機能が多いですが、一方のみでサポートされている機能もあります

データソース側には何もインストールする必要はありません Deploy in cloud ecosystems AWS, Google Cloud, Microsoft Azure,
Red Hat OpenShiftにてテンプレートを利用 starburst-admin K8sを利用した本番環境向けで推奨のインストール方法。中身はAnsibleのファイル群、よく使用するコマンドが用意されています。 Local installation RPM, tar.gz, Dockerを使って自分でインスールすることも可能です。サポート対象ですが、本番環境での利用は推奨していません。 Starburst Enterpriseインストール方法

フェデレーションデータサイロを解決する50以上のコネクタ、権限管理

データレイクリレーショナルDB NoSQLストアリアルタイム分析アプリケーション 50+ 対応コネクタ BIツールとクライアントシングルポイントアクセス

オンプレミスやクラウドに問わず様々なデータソースに対してSQLを実行可能抽象的な構文木に変換してから各データソースに対して処理を行います SELECT cust.custkey , cust.first_name||' '||cust.last_name as full_name ,
cust.state , cust.dob , cust.ssn , custp.career , custp.risk_appetite , acc.acctkey , acc.cc_number , sum(cred.payment_amount) AS total_payments_to_date FROM glue.burst_bank.customer cust JOIN snowflake_jdbc.burst_bank.account acc ON cust.custkey = acc.custkey JOIN iceberg.burst_bank.card_payments cred ON cred.cc_number = acc.cc_number JOIN mongodb.burst_bank_large.customer_profile custp ON custp.custkey = cust.custkey WHERE cust.country = 'US' AND custp.profilekey = '1746499' GROUP BY 1,2,3,4,5,6,7,8,9 ORDER BY 10 DESC; クエリフェデレーション { profilekey: { $eq: "1746499" } } JOIN JOIN JOIN SUM Filter country = 'US' Glueからテーブル定義、S3からデータを取得 ※この例ではSELECTを挙げていますがCREATE TABLEやINSERTもサポートしています

データレイク向けコネクタ以下のテーブルフォーマットをサポートしています。元々Hiveの代替として始まったこともあり最も力を入れているコネクターです。 • Hive • Iceberg • Delta Lake
• Hudi • Kudu HiveコネクターはHiveQLに依存はしておらず、Hiveのメタストア(ThriftやGlue)からテーブル情報を取得したあとは直接ストレージにデータを取得しに行きます。これらのコネクタはStarburstを使う上で必須ではありませんが、後述のデータプロダクトなど一部の機能はHiveコネクタに依存しています。

リレーショナルDB向けコネクタ JDBCドライバを利用しているコネクタでは DatabaseMetaDataからメタデータを取得します。その他のコネクタではDBが提供するJava/C++ SDKを利用します。 Azure Data Explorer, BigQuery, IBM
Db2, ClickHouse, Druid , Generic JDBC, Greenplum, Ignite, MariaDB, MySQL, Netezza, Oracle, Phoenix, Redshift, SingleStore, Synapse, SQL Server, Teradata, Vertica 特徴 • 豊富なプッシュダウン - WHERE句、集約、テーブル結合 • コネクタによってはパラレルな読み込みをサポートしています • サポートしていない型を持つカラムはデフォルトで除外されます ◦ 設定(unsupported-type-handling, jdbc-types-mapped-to-varchar )で変更可能

リアルタイム分析向けコネクタリレーショナルDB系のコネクタとは異なり、テーブルへ容易に変換できないのでコネクタによってはマッピング用の変換ルールをJSONファイルで提供する必要があります。 • ClickHouse • Druid • Kafka
• Amazon Kinesis • Pinot 例えば、Kafkaコネクタではトピック/メッセージがStarburstのテーブル/レコードにマッピングされます。

NoSQLストア向けコネクタリアルタイム分析向けコネクタと同様に、コネクタによってはテーブル定義を JSONファイルで提供する必要があります。 • CosmosDB • DynamoDB • Elasticsearch •
MongoDB • Redis 例えば、MongoDBではコレクション/ドキュメントがStarburstのテーブル/レコードにマッピングされます。初回の読み込み時にテーブル定義を推測します。 Mongodb ドキュメント Starburst レコード

アプリケーション向けコネクタ従来はSQLでの分析が難しかったデータに対してもStarburstを利用することで SQLによるアクセスが可能となります。 • Neo4j • Salesforce • SAP HANA
• Splunk • Google Sheets • Prometheus Note コネクタが存在しない場合、自分で開発してデプロイすることも可能です。多くの企業で独自のコネクタが開発されています。

• Starburstのクラスタ同士を接続するコネクタです • SQLクエリをリモートのクラスタへプッシュダウンしコストの削減や性能の向上を図ります • オンプレミスやクラウドが混在していても接続が可能です Stargateコネクタ

利用しているデータソースの種類を問わずアクセスコントロールを行えます。 Hadoop系の分析環境ではRangerを利用していることが多いですが、 Starburstではビルトインのアクセスコントロールを提供しています。 • Roles • Privileges • Masks and
filters • Audit log Rangerとの違いは以下のページに載っています。例えばTagベースのポリシー管理はBIACではサポートされていません。 https://docs.starburst.io/latest/security/biac-vs-ranger.html BIAC (Built-In Role-based Access Control)

カラムのマスクおよびレコードのフィルタリング SELECT orderkey, clerk FROM tpch.tiny.orders ORDER BY 1, 2
LIMIT 3; SELECT DISTINCT state FROM glue.burst_bank.customer; カラムのマスクレコードのフィルタリング "$sb_internal_mask_varchar"(cast("@column" as varchar)) state in ('NY','NJ') adminで実行 adminで実行別ロールで実行別ロールで実行スキーマやテーブルよりさらに細かい粒度で権限をコントロール可能です。

データレイクハウスレガシーなデータレイクを近代化

モダンなデータレイク = データレイク + ウエアハウス + フェデレーションストレージと計算処理の分離 Elastic
compute オブジェクトストレージオープンファイルフォーマット Global federated access to data sources beyond the lake Scalable, cost effective Vendor agnostic Benefits Single point of access and governance for all data Advanced warehouse- like capabilities MPPクエリエンジンオープンテーブルフォーマットデータレイク分析プラットフォーム単一アクセスポイントデータのガバナンス DWHと同レベルの機能を提供ベンダー非依存スケーラブル、費用対効果

Hiveコネクタの課題を解決するためにIcebergコネクタを推奨しています。 Hive Thriftメタストア, AWS Glue, JDBC, REST, Nessieカタログをサポート。 • 同時読み書き
• 柔軟なスキーマの変更 • レコード単位の読み書き編集 • 過去状態の復元やタイムトラベル • Change Data Capture (CDC) • Hiveメタストアの負荷の削減 HiveからIcebergへの変換はmigrateプロシージャを使うことで可能 https://www.starburst.io/blog/how-to-migrate-your-hive-tables-to-apache-iceberg/ Icebergコネクタの機能

Starburst EnterpriseにはRDBMSを内部的に使用するバックエンドサービスが付属しており、以下の機能を提供します。 • クエリの完了等の詳細情報の保存 • クラスタのメトリクス管理 • データプロダクト •
ビルトインロールベースアクセスコントロール(BIAC) • 統計情報の管理 • キャッシュサービス (マテリアライズドビュー＆リダイレクション) MySQL, Oracle, PostgreSQLがサポートされています。バックエンドサービス

デプロイ方法はEmbeddedとStandaloneの2種類がサポートされています。 • Embeddedはコーディネータ上で稼働 • Standaloneは別サーバー上で稼働キャッシュサービス OSS TrinoではIcebergコネクタのみでマテリアライズドビューがサポートされていますが、StarburstではHiveコネ
クタでも利用可能になっています。性能の遅いコネクタ (例 JDBC系のテーブル) にアクセスする際に、より高速なコネクタ(例 Hive)を使用しているテーブルを透過的に読み込みます。テーブル同士をincremental/fullリフレッシュで同期可能。マテリアライズドビューテーブルスキャンリダイレクション

データウェアハウスの補完 Warp Speedコネクタ、データプロダクト

インデックス(bitmap, dictionary, tree)を自動で作成します。 predicates, joins, filtersなどを高速化し、データをスキャンする量を最小化。 Warp
Speedコネクタオブジェクトストレージからデータを読み込み、ワーカー上の SSD NVMeへキャッシュとして保存。 Apache Luceneを内部的に利用し、大きな文字列を持つカラムに対するLIKE句を高速化。 Data cache acceleration Index acceleration Text search acceleration Hive, Iceberg, Delta Lakeコネクターを高速化するコネクターです。 AmazonのEKS, MicrosoftのAKSもしくはGoogleのGKEが必要です。オンプレミスは今後サポート予定。 https://docs.starburst.io/latest/connector/starburst-warp-speed.html

Streamlined visibility. 複数のデータセットを管理するデータプロダクトを作成、公開、検索できます。利用頻度などのメトリクスも管理されています。 Consistent governance. データプロダクトもテーブルと同様にアクセスコントールにより制御されています。
Ultimate accessibility. データプロダクトに対してテーブルと同様にクエリを実行可能です。データプロダクト複数のデータセットに基づくデータプロダクトの検索、作成、公開、管理、共有

• 過去に利用されたクエリ数、ユーザー数 • データプロダクトの説明 • ViewおよびMaterialized viewのリスト • タグ、ドメイン、関連リンクを管理よく使用するクエリの例の登録や、簡単な議論もデ
ータプロダクト上で行えますデータプロダクト Overview, Usage examples, Discussion

現時点ではStarburst Galaxyでのみサポートされています。 Starburst EnterpriseとOpenLineage/Apache Atlasの連携はサポートされています。データのリネージュや品質についてテーブルや(マテリアライズド) ビューが生成された流れを視覚的に表示カラムのNULLの割合/Min/Maxなどの情報
やスケジューラでデータの品質を確認可能リネージュカラムプロファイル&データクオリティ

デモクエリの実行、クラスタの監視、セキュリティ

• 接続されたデータソース内のスキーマ、テーブル、ビュー、カラムなどを確認するエクスプローラー • クエリの実行および結果のダウンロード • 保存されたクエリの確認やクエリの実行履歴、実行時のダイアグラムを利用した性能の確認 Insights
(Query editor) A full environment to write and execute SQL statements

Insights 以下の情報を表示します。 Query text • 実行されたクエリのテキスト Basic information • 実行したユーザーやクライアントの情報
Query execution • AnalyzingやPlanning等にかかった時間 Query details - General

Insights ステージの情報をリストまたはグラフ形式で表示します。 • CPU usage • Cluster size •
Memory • Queries グレーの縦線が入っている部分がクエリが実行されたタイミングを表しています。 Query details - Cluster resources

Insights ステージ毎のかかった時間をリストまたはグラフ形式で確認できます。 Query details - Stages

Insights Tables • クエリ内でアクセスされたテーブルを表示します Query plan • 実行計画をテキストベースで表示します Execution details
• CPU時間や読み込まれた行数などを表示します Query details - Advanced

Thank you!

Starburst Enterprise について

Starburst Enterprise について

Japan Data Management Consotrium

More Decks by Japan Data Management Consotrium

Other Decks in Technology

Featured

Transcript

Starburst Enterpriseのご紹介 JDMCエンジニアの会 2024年1月18日 Starburst ソフトウェアエンジニア & Trino (旧PrestoSQL) メンテナー

Starburst 会社紹介 August 2012 January 2024 Facebook と Teradataのメンバーにより

BI Integration Client Support Real-time analytics NoSQL Stores Applications 分析エンジン

Starburstを採用するメリット • 50以上のコネクタを提供 • ハイブリッド/クロスクラウド向けの Stargateコネクタ • Iceberg, Delta Lake,

Parse Worker node Coordinator node Metastore Add worker node BI

Source systems Enterprise data warehouse Data lakes Data source Data

Source systems Enterprise data warehouse Data lake analytics platform Data

Starburstが環境を管理するSaaS製品 • メインターゲットはクラウド • クラスターサイズに応じた料金モデル • バージョンアップは自動 • Data lineageのサポート

データソース側には何もインストールする必要はありません Deploy in cloud ecosystems AWS, Google Cloud, Microsoft Azure,

フェデレーションデータサイロを解決する50以上のコネクタ、権限管理

データレイクリレーショナルDB NoSQLストアリアルタイム分析アプリケーション 50+ 対応コネクタ BIツールとクライアントシングルポイントアクセス

オンプレミスやクラウドに問わず様々なデータソースに対してSQLを実行可能抽象的な構文木に変換してから各データソースに対して処理を行います SELECT cust.custkey , cust.first_name||' '||cust.last_name as full_name ,

データレイク向けコネクタ以下のテーブルフォーマットをサポートしています。元々Hiveの代替として始まったこともあり最も力を入れているコネクターです。 • Hive • Iceberg • Delta Lake

リレーショナルDB向けコネクタ JDBCドライバを利用しているコネクタでは DatabaseMetaDataからメタデータを取得します。その他のコネクタではDBが提供するJava/C++ SDKを利用します。 Azure Data Explorer, BigQuery, IBM

NoSQLストア向けコネクタリアルタイム分析向けコネクタと同様に、コネクタによってはテーブル定義を JSONファイルで提供する必要があります。 • CosmosDB • DynamoDB • Elasticsearch •

アプリケーション向けコネクタ従来はSQLでの分析が難しかったデータに対してもStarburstを利用することで SQLによるアクセスが可能となります。 • Neo4j • Salesforce • SAP HANA

• Starburstのクラスタ同士を接続するコネクタです • SQLクエリをリモートのクラスタへプッシュダウンしコストの削減や性能の向上を図ります • オンプレミスやクラウドが混在していても接続が可能です Stargateコネクタ

カラムのマスクおよびレコードのフィルタリング SELECT orderkey, clerk FROM tpch.tiny.orders ORDER BY 1, 2

データレイクハウスレガシーなデータレイクを近代化

モダンなデータレイク = データレイク + ウエアハウス + フェデレーションストレージと計算処理の分離 Elastic

Hiveコネクタの課題を解決するためにIcebergコネクタを推奨しています。 Hive Thriftメタストア, AWS Glue, JDBC, REST, Nessieカタログをサポート。 • 同時読み書き

Starburst EnterpriseにはRDBMSを内部的に使用するバックエンドサービスが付属しており、以下の機能を提供します。 • クエリの完了等の詳細情報の保存 • クラスタのメトリクス管理 • データプロダクト •

データウェアハウスの補完 Warp Speedコネクタ、データプロダクト

インデックス(bitmap, dictionary, tree)を自動で作成します。 predicates, joins, filtersなどを高速化し、データをスキャンする量を最小化。 Warp

• 過去に利用されたクエリ数、ユーザー数 • データプロダクトの説明 • ViewおよびMaterialized viewのリスト • タグ、ドメイン、関連リンクを管理よく使用するクエリの例の登録や、簡単な議論もデ

デモクエリの実行、クラスタの監視、セキュリティ

Insights 以下の情報を表示します。 Query text • 実行されたクエリのテキスト Basic information • 実行したユーザーやクライアントの情報

Insights ステージの情報をリストまたはグラフ形式で表示します。 • CPU usage • Cluster size •

Insights ステージ毎のかかった時間をリストまたはグラフ形式で確認できます。 Query details - Stages

Insights Tables • クエリ内でアクセスされたテーブルを表示します Query plan • 実行計画をテキストベースで表示します Execution details

Thank you!