Slide 1

Slide 1 text

2024/12/10 クラスメソッド株式会社 相樂悟 2024年のModern Data Stackを振り返ろう! 〜分野別の⽬⽟アップデート情報まとめ〜

Slide 2

Slide 2 text

⾃⼰紹介 2 ● 2020年9⽉ ⼊社 ○ Modern Data Stackに該当する製品の 技術⽀援‧プリセールスを担当 ○ 新しい技術情報を定期的に収集し、 ブログで情報発信 ● 部署‧役割 ○ Modern Data Stackチーム テックリード ● 名前(ニックネーム) ○ 相樂 悟 (さがら) ● 最近のトピック ○ ⼦どもが1歳になりました!

Slide 3

Slide 3 text

本⽇の登壇資料について 3 ①資料の公開について 後⽇、Speaker Deckに投稿予定です (DevelopersIOでブログも投稿予定) Speaker DeckからPDFをダウンロードすることで、 スライド上の機能名から関連ドキュメントへリンク可能です ②内容について 対象製品の全アップデートを含んでおりません、 個⼈的に「熱い!」と感じたアップデートを中⼼に紹介します

Slide 4

Slide 4 text

⽬次 4 ● 前置き ○ Modern Data Stackとは ○ 対象分野‧製品 ● 今年の主要アップデート情報まとめ ● 2025年以降のアップデート予想 ● 最後に

Slide 5

Slide 5 text

⽬次 5 ● 前置き ○ Modern Data Stackとは ○ 対象分野‧製品 ● 今年の主要アップデート情報まとめ ● 2025年以降のアップデート予想 ● 最後に

Slide 6

Slide 6 text

「Modern Data Stack」とは 6 最新のクラウドネイティブの技術やサービスを組み合わせた データ基盤、あるいはその考え⽅や該当するサービス群を指す⾔葉 引用元:Who’s Who in the Modern Data Stack Ecosystem (Spring 2022) 引用元:Understanding the Modern Data Stack

Slide 7

Slide 7 text

私が定期調査している分野‧製品 7 下記の製品のブログやリリースノートを2週間毎にざっとチェックしています ● Data Extract/Load ○ Fivetran、Airbyte、dlt、Omnata ● Data Warehouse/Data Lakehouse ○ Snowflake、BigQuery、Redshift、Databricks、Onehouse、DuckDB/MotherDuck、Starburst ● Data Transform ○ dbt、Datacoves、Dataform、SDF、SQLMesh、Coalesce ● Semantic Layer ○ dbt Semantic Layer、Cube、AtScale、Honeydew ● Business Intelligence ○ Looker、Tableau、Power BI、Sigma、ThoughtSpot、Hex、Preset、Lightdash、Omni、Steep ● Data Catalog ○ Atlan、Select Star、Secoda、CastorDoc、Alation、OpenMetadata ● Data Activation (Reverse ETL) ○ Hightouch、Census ● Data Observability‧Data Quality ○ Monte Carlo、Sifflet、Acceldata、Metaplane、Decube、Anomalo、Soda、Datafold、Great Expectations、Recce、Elementary、re_data ● Data Orchestration ○ Dagster、Prefect、Astronomer、Kestra、Mage、Orchestra

Slide 8

Slide 8 text

私が定期調査している分野‧製品 8 下記の製品のブログやリリースノートを2週間毎にざっとチェックしています ● Data Extract/Load ○ Fivetran、Airbyte、dlt、Omnata ● Data Warehouse/Data Lakehouse ○ Snowflake、BigQuery、Redshift、Databricks、Onehouse、DuckDB/MotherDuck、Starburst ● Data Transform ○ dbt、Datacoves、Dataform、SDF、SQLMesh、Coalesce ● Semantic Layer ○ dbt Semantic Layer、Cube、AtScale、Honeydew ● Business Intelligence ○ Looker、Tableau、Power BI、Sigma、ThoughtSpot、Hex、Preset、Lightdash、Omni、Steep ● Data Catalog ○ Atlan、Select Star、Secoda、CastorDoc、Alation、OpenMetadata ● Data Activation (Reverse ETL) ○ Hightouch、Census ● Data Observability‧Data Quality ○ Monte Carlo、Sifflet、Acceldata、Metaplane、Decube、Anomalo、Soda、Datafold、Great Expectations、Recce、Elementary、re_data ● Data Orchestration ○ Dagster、Prefect、Astronomer、Kestra、Mage、Orchestra ⾚字の分野を中⼼にお話します

Slide 9

Slide 9 text

⽬次 9 ● 前置き ○ Modern Data Stackとは ○ 対象分野‧製品 ● 今年の主要アップデート情報まとめ ○ Data Extract/Load ○ Data Warehouse/Data Lakehouse ○ Data Transform ○ Semantic Layer ○ Business Intelligence ○ Data Activation (Reverse ETL) ● 2025年以降のアップデート予想 ● 最後に

Slide 10

Slide 10 text

Airbyte 1.0がリリース 10 ● 2024年9⽉に、Airbyte初のメジャーバージョンである1.0がリリース (以下、1.0の主要機能を紹介) ● Connector BuilderにおけるAI Assistant(右図) ○ APIドキュメントのリンクを貼るだけで、 Connector Builderの主要項⽬を⾃動で⼊⼒ ○ 2024年12⽉時点、Beta機能 ● Self-Managed Enterpriseの⼀般提供開始 ○ ユーザー⾃⾝の環境にホストできる Airbyte Cloud(Airbyte社のサポートがある) ○ セキュリティ要件が厳しいユーザー向け

Slide 11

Slide 11 text

ETL/ELTパイプラインに使⽤できるPythonライブラリが出てきた 11 ● Airbyteの「PyAirbyte」 ○ 2024年2⽉に初リリース、2024年12⽉時点ver0.20.1 ● dltHubの「dlt」 ○ 2022年6⽉に初リリース、2024年9⽉にver1.0をリリース、2024年12⽉時点ver1.4.1 ○ 右のコードはdltのリポジトリのQuick Start Chess.comのAPIからデータを取得しDuckDBへ

Slide 12

Slide 12 text

Fivetranもユーザー側でコネクタを作成可能に 12 ● 2024年11⽉にConnector SDKをFivetranがリリース ※2024年12⽉時点、Beta機能 ● Connector SDKを使うと、Fivetranと同じ機能を備えたコネクタを開発可能 ○ 増分更新 ○ ソースデータの型の推論 ○ スキーマ定義の⾃動更新 ○ レコードの論理削除 ● これまで通り、By Request programよりユーザーからFivetranにリクエストして コネクタを開発してもらうことも可能

Slide 13

Slide 13 text

SnowflakeとDatabricksも各コネクタを提供開始 13 ● Snowflakeが2024年にリリースしたコネクタ ○ ⼀般提供:GA4(Aggregate Data/Raw Data)、ServiceNow ○ プレビュー:PostgreSQL、MySQL ● Databricksが2024年にリリースしたコネクタ(LakeFlow Connect) ○ プレビュー:Salesforce、SQL Server、Workday

Slide 14

Slide 14 text

⽬次 14 ● 前置き ○ Modern Data Stackとは ○ 対象分野‧製品 ● 今年の主要アップデート情報まとめ ○ Data Extract/Load ○ Data Warehouse/Data Lakehouse ○ Data Transform ○ Semantic Layer ○ Business Intelligence ○ Data Activation (Reverse ETL) ● 2025年以降のアップデート予想 ● 最後に

Slide 15

Slide 15 text

各製品のレイクハウス関連の動きが活発に 15 ● 前提知識:レイクハウスって何がいいの? ○ ユーザー管理のS3などのクラウドストレージで全てのデータを保存できる ○ クエリの実⾏環境を柔軟に選択できる(例:ユーザー管理のSparkのサーバーなど) ● Databricks ○ 2024年6⽉にUnity CatalogをOSSとしてリリース ● Snowflake ○ 2024年6⽉にPolaris Catalogを発表 ※その後、Apache Polarisに名称変更しOSSとしてリリース ○ 2024年10⽉にApache PolarisのSaaS版としてSnowflake Open Catalogが⼀般提供 ● BigQuery ○ 2024年10⽉にBigQuery tables for Apache Icebergがパブリックプレビュー ● AWS ○ 2024年12⽉にSageMaker Lakehouse、S3 Tablesがプレビューでリリース

Slide 16

Slide 16 text

Snowflakeがより広い領域をカバーするように 16 ● MLOpsをサポートする各機能 ○ 2024年5⽉にModel Registry、2024年9⽉にFeature Storeが⼀般提供 ● Notebookを⽤いた分析環境 ○ 2024年11⽉にSnowflake Notebooksが⼀般提供 ※Container Runtimeはプレビュー ● GPUも選択可能なコンテナアプリ‧プログラムの実⾏環境 ○ 2024年8⽉にAWS上のアカウントでSnowpark Container Servicesが⼀般提供 ● OLTP‧OLAPどちらのワークロードにも対応 ○ 2024年10⽉にHybrid tablesが⼀般提供 ● データカタログに近しい機能 ○ 2024年6⽉にアカウント内オブジェクトを検索できるUniversal Searchが⼀般提供 ○ 2024年11⽉にオブジェクト間のリネージを表⽰できる機能がプレビュー ● Semantic Layer×LLMの分析環境 ○ 2024年8⽉にCortex Analystがプレビュー

Slide 17

Slide 17 text

Snowflakeがより広い領域をカバーするように ※補⾜資料 17 ● 2024年11⽉にオブジェクト間のリネージを表⽰できる機能がプレビュー ● 2024年11⽉にSnowflake Notebooksが⼀般提供

Slide 18

Slide 18 text

DuckDBがver1.0をリリース、MotherDuckが⼀般提供 18 ● 2024年6⽉にDuckDBがver1.0をリリース、MotherDuckが⼀般提供 ※以下、DuckDB/MotherDuckで気になったアップデートを紹介 ● PostgreSQL上のDuckDBでOLAPワークロードを処理するpg_duckdb ○ PostgreSQLのデータはそのままに、分析⽤途のクエリもDuckDBで⾼速に処理 ○ 参考記事:pg_duckdb - PostgreSQL プロセス上の DuckDB で OLAP ワークロードを処理する ● Unity Catalogに関するExtensionを開発‧検証中 ○ DuckDBからUnity Catalogで定義されたレイクハウス上のテーブルに接続できるかも? ● GoogleスプレッドシートのデータをRead/Writeできるduckdb_gsheets ○ BigQueryのコネクテッドシートを使⽤せずとも、スプレッドシート上のデータを ⽤いた分析が容易に

Slide 19

Slide 19 text

⽬次 19 ● 前置き ○ Modern Data Stackとは ○ 対象分野‧製品 ● 今年の主要アップデート情報まとめ ○ Data Extract/Load ○ Data Warehouse/Data Lakehouse ○ Data Transform ○ Semantic Layer ○ Business Intelligence ○ Data Activation (Reverse ETL) ● 2025年以降のアップデート予想 ● 最後に

Slide 20

Slide 20 text

dbt Cloudがより独⾃性を持ったプロダクトに 20 ● 2024年5⽉にdbt Meshが⼀般提供 ○ 複数のdbt project間でのref関数での参照や、dbt Modelのバージョン管理(Versions)、 データ型の統制(Contracts)、Modelのアクセス制御(Access‧Groups)が可能となる ● 2024年10⽉にdbt Explorerがよりカタログとしての機能強化 ※プレビュー ○ 各Modelのクエリ回数の確認 ○ dbt ModelとTableau間のリネージの可視化

Slide 21

Slide 21 text

dbt-coreも新機能をリリース 21 ● 2024年12⽉のdbt-core ver1.9でmicrobatchが追加 ○ クエリサイズを⽇時で分割できる、 新しいIncremental Model ○ ある過去時点のデータを更新したい場合、 従来のIncremental Modelよりも容易に可能 ○ 右図は公式Docより ● 2024年5⽉のdbt-core ver1.8でUnit testsが追加 ○ 各Modelに「加⼯前のデータ」「加⼯後の正解となるデータ」をモックデータとして与 え、加⼯前のデータを実際にModelに書いたSQLで処理して、正解となるデータと 実際に値が合っているかを確認できる、単体テスト機能

Slide 22

Slide 22 text

dbtの対抗⾺がDataform以外にも出始めました 22 ● SDF ○ 2024年6⽉にOSSとして提供開始、SaaSとしても販売開始 ○ SQLを解析して⾃動で依存関係を判断したり、 ローカルでのコンパイル時にエラーを検知する仕組みなどがある ● SQL Mesh ○ 2023年2⽉にOSSとして提供開始、 2024年6⽉にSaaS版をTobiko Cloudとして販売開始 ○ SQLを解析して⾃動で依存関係を判断したり、 dbtよりも早く⽇時で分割した増分処理を提供している

Slide 23

Slide 23 text

⽬次 23 ● 前置き ○ Modern Data Stackとは ○ 対象分野‧製品 ● 今年の主要アップデート情報まとめ ○ Data Extract/Load ○ Data Warehouse/Data Lakehouse ○ Data Transform ○ Semantic Layer ○ Business Intelligence ○ Data Activation (Reverse ETL) ● 2025年以降のアップデート予想 ● 最後に

Slide 24

Slide 24 text

SnowflakeがCortex AnalystでSemantic Layerにも参⼊ 24 ● 2024年8⽉にCortex Analystがプレビュー ○ Snowflake内のテーブルデータに関して、 LLMを⽤いた質問を⾏えるAPIを提供する機能 ○ yaml形式のSemantic Modelを定義することで、 データの背景情報(コンテキスト)を提⽰ ○ 右図はSlackからCortex Analystを使⽤した例 ※Dash⽒のブログより引⽤ ● LookMLやdbt Semantic LayerのコードをCortex AnalystのSemantic Modelの コードに変換するsemantic-model-generatorも提供されている

Slide 25

Slide 25 text

dbt Semantic Layerも対応範囲と機能が拡⼤ 25 ● 対応ツールが増えています ○ 2024年10⽉にPythonから参照するためのPython SDKが⼀般提供 ○ 2024年10⽉にExcelから参照するためのExcel add-onが⼀般提供 ○ 2024年5⽉にTableau、Google Sheetsからの参照機能が⼀般提供 ○ 他のサードパーティもdbt Semantic Layerに対応する機能を発表‧リリース ■ Hex、Lightdash、Sigma、Steep、など ● 2024年9⽉にdbt Cloud IDE上でSemantic Layerを参照するコマンドが⼀般提供 ● dbt Copilotでdbt Semantic Layerのコードを ⾃動⽣成する機能 ※プライベートプレビュー

Slide 26

Slide 26 text

Cubeも多くの機能をリリース 26 ● 2024年10⽉にVisual Modelerをリリース ○ GUIベースでディメンションやメジャーを定義 ○ 結合定義もカラム間のマウス操作で(右上図) ● 2024年6⽉にSemantic Catalogをリリース ○ Cube上の各アセットに関するカタログ ● 2024年5⽉にChart Prototypingをリリース ○ Cube上で作成したグラフを⽣成する フロントエンドのコードを⽣成する機能 (右下図)

Slide 27

Slide 27 text

⽬次 27 ● 前置き ○ Modern Data Stackとは ○ 対象分野‧製品 ● 今年の主要アップデート情報まとめ ○ Data Extract/Load ○ Data Warehouse/Data Lakehouse ○ Data Transform ○ Semantic Layer ○ Business Intelligence ○ Data Activation (Reverse ETL) ● 2025年以降のアップデート予想 ● 最後に

Slide 28

Slide 28 text

TableauはSalesforceとより統合する⽅向性に 28 ● 2024年9⽉にSalesforce上にTableauとAIを 組み込んだTableau Einsteinを発表 ○ セールスやマーケターなどビジネス寄りの ユーザーにとってデータ分析がより⾝近に ● 2024年2⽉にMetricsを定義するタイプの 新機能としてTableau Pulseをリリース ○ GUIベースでMetricsを定義し、各Metricsの変化を 時系列で確認‧配信できる機能 ○ 2024年10⽉、dbt Semantic Layerとの連携も発表

Slide 29

Slide 29 text

LookerはLooker Studioとより統合する⽅向性に 29 ● 2024年1⽉のロードマップイベントで LookerとLooker Studioが統合していく ことを発表 ● 2024年10⽉にLooker Studioが Lookerの中で使えるようになる 「Studio in Looker」がプレビュー

Slide 30

Slide 30 text

個⼈的に注⽬しているBIツール:「Steep」と「Omni」 30 ● Steep ○ 事前にMetricsの定義を⾏い、 ⾮常にシンプルなUIで分析が⾏えるBIツール ○ dbt Semantic LayerやCubeとの連携も可能な、 「Metricsファースト」な製品 ● Omni ○ GUIベースで定義したメジャーや結合定義を ⾃動でコード化したり、スプレッドシートライクな 操作で集計結果の加⼯も⾏えるBIツール ○ 集計結果をdbtのModelとして書き出せる ○ 個⼈的に「Tableau+Looker+Sigma」の 良い所取りと感じる製品

Slide 31

Slide 31 text

⽬次 31 ● 前置き ○ Modern Data Stackとは ○ 対象分野‧製品 ● 今年の主要アップデート情報まとめ ○ Data Extract/Load ○ Data Warehouse/Data Lakehouse ○ Data Transform ○ Semantic Layer ○ Business Intelligence ○ Data Activation (Reverse ETL) ● 2025年以降のアップデート予想 ● 最後に

Slide 32

Slide 32 text

HightouchはAI機能とCDP機能を強化 32 ● 2024年9⽉にAI Decisioningを発表 ○ Hightouch側でセグメンテーションや A/Bテストなどを⾃動で制御してくれる機能 ● 2024年5⽉にJourneysをリリース ○ カスタマーの属性に応じて配信先を切り替えることが できるフローチャートを作成できる機能(右上図) ● 2024年5⽉にCampaign Intelligenceをリリース ○ Hightouch上でキャンペーンの施策結果を 分析できる機能(右下図)

Slide 33

Slide 33 text

Censusはデータを活⽤するプラットフォームとしての機能を強化 33 ● 2024年7⽉にUniversal Data Platformを発表 ○ データチームとビジネスチームが共に データを管理していくための機能を 備えたプラットフォーム、という Censusの今後の⽅向性をまとめたもの ● 2024年8⽉にGPT Columnsをリリース ○ プロンプトを⼊⼒することで、指⽰内容に 沿ったカラムを追加できる機能(右下図)

Slide 34

Slide 34 text

⽬次 34 ● 前置き ○ Modern Data Stackとは ○ 対象分野‧製品 ● 今年の主要アップデート情報まとめ ○ Data Extract/Load ○ Data Warehouse/Data Lakehouse ○ Data Transform ○ Semantic Layer ○ Business Intelligence ○ Data Activation (Reverse ETL) ● 2025年以降のアップデート予想 ● 最後に

Slide 35

Slide 35 text

レイクハウスやオープンテーブルフォーマットが更に浸透 35 ● 各社がIcebergやDelta Lake、対応するカタログの新機能開発をしているため、 今後更にレイクハウスやオープンテーブルフォーマットの普及が進むと思います ● 近い将来、構築出来そうなアーキテクチャイメージ(現時点では部分的に可能) 社内のデータ ストレージ(S3等) Bronze Silver Gold 分析‧機械学習 BIの探索的分析 & カタログ‧パイプラインのクエリエンジン 機械学習

Slide 36

Slide 36 text

⽣成AI系の機能がより実⽤的かつ容易なものとなっていく 36 ● 2024年はDWH‧BIツール‧データカタログなど、 あらゆる分野で⽣成AIを組み込んだ機能が追加されました ● しかし、実⽤性を伴ったものがまだ少ない印象です ○ ⽇本語に対応していない ○ 想定通りのデータ‧グラフを⽣成AIが出してくれない ● この⽣成AIの機能が、Semantic Layerも絡めてより実⽤的になると予想します (以下、個⼈的に出てきてほしいアップデート) ○ Snowflake Cortex Analystの⽇本語対応 ○ LookerのSemantic Layer × Geminiのネイティブ対応(Explore Assistantを使⽤せずに) ○ dbt Semantic LayerやCube × ⽣成AI機能の強化

Slide 37

Slide 37 text

Data Contracts、Data Meshなどの新興分野の動向にも注⽬ 37 ● Data Contracts ○ データの⽣産者と消費者の間で合意された、データの構造‧品質に関する 明確な仕様や期待値を定義するもの ○ 個⼈的に注⽬している企業‧製品 ■ Gable(Convoy社という貨物技術スタートアップのメンバーが創業した会社) ■ Data Contract Manager(INNOQ社が提供) ● Data Mesh ○ 中央集権的なアプローチで管理するのではなく、各ビジネスドメインへ権利を分散して データを管理していく考え ○ 個⼈的に注⽬している企業‧製品 ■ Nextdata(Data Meshの概念を考えたZhamak Dehghani⽒が創業した会社) ■ Data Mesh Manager(上述のData Contract Managerと同じINNOQ社が提供)

Slide 38

Slide 38 text

⽬次 38 ● 前置き ○ Modern Data Stackとは ○ 対象分野‧製品 ● 今年の主要アップデート情報まとめ ○ Data Extract/Load ○ Data Warehouse/Data Lakehouse ○ Data Transform ○ Semantic Layer ○ Business Intelligence ○ Data Activation (Reverse ETL) ● 2025年以降のアップデート予想 ● 最後に

Slide 39

Slide 39 text

最後に:今後、何を考慮すればよいか? 39 ● レイクハウスの動きはありますが、クラウドDWHを軸としたアーキテクチャから、 直近で劇的にアーキテクチャを変更する必要はありません ○ ロード前のファイルをIcebergにしてDWHのIceberg対応機能で扱うようにする、 レイクハウスをデータマート層(Gold層)だけで採⽤する、など 部分的にレイクハウスを取り⼊れるのも⾯⽩いと考えています(下図⾚枠内) ● ⽣成AI×データ分析基盤を検証する⽅も増えてくると思います ○ 各Semantic LayerのYAML整備、頑張りましょう!

Slide 40

Slide 40 text

No content