Slide 1

Slide 1 text

2025/11/6 クラスメソッド株式会社 相樂悟 激動の2025年、 Modern Data Stackの最新技術動向

Slide 2

Slide 2 text

⾃⼰紹介 2 ● 2020年9⽉ ⼊社 ○ Modern Data Stackに該当する製品の 技術⽀援‧プリセールスを担当 ○ 新しい技術情報を定期的に収集し、 ブログで情報発信 ● 部署‧役割 ○ Modern Data Stackチーム テックリード ● 名前(ニックネーム) ○ 相樂 悟 (さがら)

Slide 3

Slide 3 text

本⽇の登壇資料について 3 ①資料の公開について 後⽇、Speaker Deckに投稿予定です (DevelopersIOでブログも投稿予定) ②内容について 対象製品の全アップデートは含んでおらず、 個⼈的に「熱い!」と感じたアップデートを中⼼に紹介します

Slide 4

Slide 4 text

⽬次 4 ● 前置き ● 今年の主要アップデート情報まとめ ● 2026年以降の動向予想 ● 最後に

Slide 5

Slide 5 text

⽬次 5 ● 前置き ● 今年の主要アップデート情報まとめ ● 2026年以降の動向予想 ● 最後に

Slide 6

Slide 6 text

「Modern Data Stack」とは 6 最新のクラウドネイティブの技術やサービスを組み合わせた データ基盤、あるいはその考え⽅や該当するサービス群を指す⾔葉 引用元:Who’s Who in the Modern Data Stack Ecosystem (Spring 2022) 引用元:Understanding the Modern Data Stack

Slide 7

Slide 7 text

私が定期調査している分野‧製品 7 下記の製品のブログやリリースノートを2週間毎にざっとチェックしています ● Data Extract/Load ○ Fivetran、Airbyte、Meltano、Snowplow、dlt、Omnata ● Data Warehouse/Data Lakehouse ○ Snowflake、BigQuery、Redshift、Databricks、ClickHouse、Onehouse、DuckDB/MotherDuck、Starburst、LakeFS、Bauplan ● Data Transform ○ dbt、Datacoves、Dataform、Coalesce ● Semantic Layer ○ dbt Semantic Layer、Cube、AtScale、Honeydew ● Business Intelligence ○ Looker、Tableau、Power BI、Sigma、ThoughtSpot、Hex、Preset、Lightdash、Omni、Steep、Evidence ● Data Catalog ○ Atlan、Select Star、Secoda、Alation、OpenMetadata ● Data Activation (Reverse ETL) ○ Hightouch、Census ● Data Observability‧Data Quality ○ Monte Carlo、Sifflet、Acceldata、Decube、Anomalo、Soda、Datafold、Great Expectations、Recce、Elementary、re_data ● Data Orchestration ○ Dagster、Prefect、Astronomer(Airflow)、Kestra、Mage、Orchestra

Slide 8

Slide 8 text

私が定期調査している分野‧製品 8 下記の製品のブログやリリースノートを2週間毎にざっとチェックしています ● Data Extract/Load ○ Fivetran、Airbyte、Meltano、Snowplow、dlt、Omnata ● Data Warehouse/Data Lakehouse ○ Snowflake、BigQuery、Redshift、Databricks、ClickHouse、Onehouse、DuckDB/MotherDuck、Starburst、LakeFS、Bauplan ● Data Transform ○ dbt、Datacoves、Dataform、Coalesce ● Semantic Layer ○ dbt Semantic Layer、Cube、AtScale、Honeydew ● Business Intelligence ○ Looker、Tableau、Power BI、Sigma、ThoughtSpot、Hex、Preset、Lightdash、Omni、Steep、Evidence ● Data Catalog ○ Atlan、Select Star、Secoda、Alation、OpenMetadata ● Data Activation (Reverse ETL) ○ Hightouch、Census ● Data Observability‧Data Quality ○ Monte Carlo、Sifflet、Acceldata、Decube、Anomalo、Soda、Datafold、Great Expectations、Recce、Elementary、re_data ● Data Orchestration ○ Dagster、Prefect、Astronomer(Airflow)、Kestra、Mage、Orchestra ⾚字の分野を中⼼にお話します

Slide 9

Slide 9 text

⽬次 9 ● 前置き ● 今年の主要アップデート情報まとめ ○ 企業買収‧合併 ○ Data Extract/Load ○ Data Warehouse/Data Lakehouse ○ Data Transform ○ Semantic Layer ○ Business Intelligence ○ Data Catalog ○ Data Orchestration ● 2026年以降の動向予想 ● 最後に

Slide 10

Slide 10 text

Fivetranとdbtの合併 10 ● 2025年10⽉のdbt Coalesce開催に合わせ、Fivetran社とdbt Labs社の合併が発表 ● Fivetran、dbt、それぞれ名称変更や混乱をもたらすような仕様変更は予定なし ● 参考:Fivetran社のブログ、dbt Labs社のブログ

Slide 11

Slide 11 text

Fivetranとdbtの合併:新しいビジョン「Open data infrastructure」 11 ● 特定のコンピュートエンジンに依存せず、標準規格による連携を重視した データインフラ。統合の⼿間を省きつつ、コンピュートの選択肢を柔軟にする考え ● Modern Data Stackのツールの多さに起因した統合の複雑さ、 All-in-oneプラットフォームの⾼コストやベンダーロックイン、 という課題解決に向けたビジョン ● 参考:dbt Labs社のブログ

Slide 12

Slide 12 text

2025年に買収されたModern Data Stack界隈の企業 ※⼀例 12

Slide 13

Slide 13 text

特筆すべき買収その1:dbt Labs社によるSDF社の買収 13 ● dbt Labs社が2025年1⽉にSDF社を買収 ● SDFとは ○ dbtと同じく、DB/DWH内でのデータ変換に特化したサービス ○ Rust製による動作速度の速さ、カラムレベルの情報伝播などが強み ● 買収後の動き ○ SDFの機能を新しいdbtのエンジン「Fusion」としてリリース ※Fusionについては後述します

Slide 14

Slide 14 text

特筆すべき買収その2:Fivetran社によるCensus社‧Tobiko Data社の買収 14 ● Fivetran社が2025年5⽉にCensus社を買収、2025年9⽉Tobiko Data社を買収 ● 各製品について ○ Census:DWH上のデータを別のSaaSなどへ連携するReverse ETLのサービス ○ Tobiko Data:dbtのような、データ変換を担うOSSであるSQL Meshの開発会社 ● 買収後の動き ○ 今のところは⼤きな動きなし

Slide 15

Slide 15 text

特筆すべき買収その3:Salesforce社によるInformatica社の買収 15 ● Salesforce社が2025年5⽉にInformatica社を買収 ● Informaticaとは ○ 抽出〜変換だけでなく、カタログ等も含めた包括的なデータ統合管理サービス ● 買収後の動き ○ 今のところは⼤きな動きなし

Slide 16

Slide 16 text

⽬次 16 ● 前置き ● 今年の主要アップデート情報まとめ ○ 企業買収‧合併 ○ Data Extract/Load ○ Data Warehouse/Data Lakehouse ○ Data Transform ○ Semantic Layer ○ Business Intelligence ○ Data Catalog ○ Data Orchestration ● 2026年以降の動向予想 ● 最後に

Slide 17

Slide 17 text

セキュアなネットワーク内のデータへの各製品の対応策 17 ● 「セキュアなネットワーク内に各製品のエージェントを⼊れる⽅式」が主流に ○ DockerコンテナベースのエージェントがData Planeとして機能 ● Fivetran ○ Hybrid Deployment ○ 参考:⾃分の検証ブログ ● Airbyte ○ Enterprise Flex

Slide 18

Slide 18 text

⽣成AI×データロード分野の各社のアピール 18 ● Fivetran ○ Fivetran⽤のコネクタを独⾃に開発できるConnector SDKを⽤いて、 Claude Codeで1時間未満でFivetran⽤のコネクタを開発する事例 ○ 参考:Fivetran社のブログ ● dlt(データロード⽤のPythonライブラリ) ○ dltでデータパイプラインを構築し、DuckDBにデータを格納、Visivoでインタラ クティブなダッシュボードを作成するプロセスをClaude Codeで実⾏した事例 ○ 参考:dlt社のブログ

Slide 19

Slide 19 text

Snowflake‧Databricksもデータロード分野の機能拡充 19 ● Snowflake ○ ⾮構造化データ、構造化データ、問わず 対応するOpenflowをリリース ○ 参考:公式Doc ● SAP連携(Snowflake‧Databricks共に) ○ SAP Business Data Cloudとの双⽅向の ライブデータ共有をゼロコピーで⾏える機能 ○ SAPの拡張機能として動く、 SAP Databricks、SAP Snowflake

Slide 20

Slide 20 text

⽬次 20 ● 前置き ● 今年の主要アップデート情報まとめ ○ 企業買収‧合併 ○ Data Extract/Load ○ Data Warehouse/Data Lakehouse ○ Data Transform ○ Semantic Layer ○ Business Intelligence ○ Data Catalog ○ Data Orchestration ● 2026年以降の動向予想 ● 最後に

Slide 21

Slide 21 text

AIをより⾝近に使いやすくするための導線が増えてきた 21 ● Snowflake:Snowflake Intelligence ○ 事前定義したCortex SearchとCortex Analystへ ⾃然⾔語で質問できるエージェント機能 ○ 参考:⾃分の検証ブログ ● Databricks:Databricks One ○ ビジネスユーザーが⾃然⾔語で質問することで 該当するダッシュボードやグラフを表⽰する機能 ● BigQuery:Gemini Enterprise(旧称Agentspace) ○ Gemini EnterpriseからBigQueryのデータに 接続できるData Insights agentがプレビュー

Slide 22

Slide 22 text

各プラットフォーム内での開発機能強化 22 ● Snowflake ○ Gitと連携したIDE機能、Workspace ○ dbtの開発が⾏えるdbt Projects on Snowflake ■ 参考:⾃分の検証ブログ ● Databricks ○ Lakeflow Pipelines Editor ○ Lakeflow Declarative Pipelinesの 開発‧デバッグが⾏えるIDE機能

Slide 23

Slide 23 text

OLTPへの対応強化 23 ● Snowflake:Snowflake Postgres ※未リリース ○ Crunchy Dataが⻑年培ってきた堅牢なエンタープライズ向け機能を Snowflakeプラットフォーム上で提供 ○ 100%のPostgreSQL互換 ● Databricks:Lakebase ※プレビュー ○ レイクハウスと統合されたフルマネージドなPostgreSQLデータベース ○ Lakebase はコンピューティングとストレージを分離しており、 低レイテンシ (10ミリ秒未満) かつ⾼同時実⾏性 (10k qps超) をサポート ○ 買収したNeonの技術を⽤いた、Gitのようなデータセットのブランチ機能

Slide 24

Slide 24 text

SQLを⽤いて⾮構造化データも処理できるようになってきた 24 ● Snowflakeの2025年リリース機能 ○ FILE型が⼀般提供(参考:Snowflake社のエンジニアのブログ) ■ S3などストレージ上の画像や⾳声など含むファイルに対するメタデータを持 つデータ型、Cortex AISQLの関数の引数にできる ○ AI_EXTRACT関数(参考:Snowflake社のエンジニアのブログ) ■ PDFなどの情報から欲しい情報を抜き出し構造化データとして出⼒

Slide 25

Slide 25 text

Iceberg関係の機能強化 25 ● Snowflake ○ 外部のIceberg RESTカタログ上のテーブルへの書き込みサポートをリリース ■ これまでSnowflakeから外部のIceberg RESTカタログで管理されている テーブルは読み取り専⽤だった ● Databricks ○ Unity Catalogで管理するManaged Iceberg tablesがパブリックプレビュー ■ Unity Catalog Apache Iceberg REST Catalog APIも提供 ○ Lakehouse Federationを⽤いた外部のIceberg RESTカタログ上のテーブルの 読み取り機能がパブリックプレビュー

Slide 26

Slide 26 text

Redshift‧BigQueryも⾃動の最適化機能をリリース 26 ● RedshiftのMultidimensional Data Layouts(MDDL)が⼀般提供 ○ 従来の固定列によるソートとは異なり、MDDLは実際のクエリフィルターを分析 して動的にデータを並べ替える仕様。ソートキーがAUTOに設定されたテーブルで は、Redshiftがクエリ履歴を基にMDDLを⾃動適⽤される ● BigQueryのCMETA(Column Metadata Index)がリリース ※明確にリリースノートでの⾔及はなし ○ データブロック内の列メタデータ(最⼩値/最⼤値など)を保持するインデックス ○ クエリプランナーが早期に不要なデータブロックをプルーニングすることで、 スキャン量やスロット使⽤量を削減し、パフォーマンスを向上させる ○ インデックスはBigQueryによってバックグラウンドで⾃動的に作成‧管理され、 ユーザーによるメンテナンスは不要

Slide 27

Slide 27 text

他ベンダーはどう抗っているか 27 ● Onehouse(Apache Hudiの創始者が創業した会社) ○ レイクハウスアーキテクチャ向けに設計されたデータロード機能「OneFlow」 ■ OneFlowはデータをユーザー⾃⾝のクラウドストレージに保存し、 OneSyncを⽤いて複数のカタログに同期させることで、Trino‧ Spark‧ Snowflakeなど任意のエンジンでのデータ活⽤を可能にするという仕組み ● DuckDB/MotherDuck ○ メタデータ管理をDBで担う新しいレイクハウスフォーマット「DuckLake」 ■ 従来のレイクハウスフォーマットと異なり、メタデータ管理をDuckDBや PostgreSQLなどのデータベースで⾏う

Slide 28

Slide 28 text

⽬次 28 ● 前置き ● 今年の主要アップデート情報まとめ ○ 企業買収‧合併 ○ Data Extract/Load ○ Data Warehouse/Data Lakehouse ○ Data Transform ○ Semantic Layer ○ Business Intelligence ○ Data Catalog ○ Data Orchestration ● 2026年以降の動向予想 ● 最後に

Slide 29

Slide 29 text

dbt Fusionと専⽤のVS Code拡張がBeta⇛Previewに 29 ● dbt Fusion ○ 2025年1⽉にSDF社を買収して開発された、Rustベースの新しいdbtエンジン ○ 加⼯履歴がわかるカラムレベルリネージ、DWHにクエリを発⾏せずエラー検知、 テーブルやカラムの定義元へのリンク、など開発体験を向上させる機能が多い

Slide 30

Slide 30 text

dbtの開発にコーディングAIを⽤いる事例が増えてきた 30 ● Tokyo dbt meeupでも2回連続でコーディングAIを⽤いた開発をテーマにした イベントを開催するなど、LLM × dbtの話題が急上昇

Slide 31

Slide 31 text

⽬次 31 ● 前置き ● 今年の主要アップデート情報まとめ ○ 企業買収‧合併 ○ Data Extract/Load ○ Data Warehouse/Data Lakehouse ○ Data Transform ○ Semantic Layer ○ Business Intelligence ○ Data Catalog ○ Data Orchestration ● 2026年以降の動向予想 ● 最後に

Slide 32

Slide 32 text

Open Semantic Interchangeの発⾜ 32 ● Snowflake、Salesforce、dbt Labsなどが中⼼となり、AIのためのデータ活⽤を促進 する「Open Semantic Interchange (OSI)」の発⾜を発表 ○ 各製品ごとに異なる仕様で散在する断⽚的なSemantic Layerの定義を、オープン な仕様によって標準化し、共通のフレームワーク構築を⽬指すもの ○ Databricks、Microsoft、Google Cloud、AWSは…?

Slide 33

Slide 33 text

⽬次 33 ● 前置き ● 今年の主要アップデート情報まとめ ○ 企業買収‧合併 ○ Data Extract/Load ○ Data Warehouse/Data Lakehouse ○ Data Transform ○ Semantic Layer ○ Business Intelligence ○ Data Catalog ○ Data Orchestration ● 2026年以降の動向予想 ● 最後に

Slide 34

Slide 34 text

各BIの主要アップデート 34 ● Tableau ○ Salesforce内で動くBIとして、 Tableau Nextがリリース ● Looker ○ Conversational Analyticsがリリース ■ 参考:⾃分の検証ブログ ○ LookMLで前期⽐など定義できる、 period_over_periodがリリース ■ 参考:⾃分の検証ブログ

Slide 35

Slide 35 text

新興BIの発展 35 ● Hex ○ 2025年5⽉にシリーズCで 7000万USDの資⾦調達 ● Omni ○ 創業から3年となる2025年3⽉に、 シリーズBで6900万USD資⾦調達 ■ 評価額6億5000万USDと前年⽐8倍の成⻑

Slide 36

Slide 36 text

⽬次 36 ● 前置き ● 今年の主要アップデート情報まとめ ○ 企業買収‧合併 ○ Data Extract/Load ○ Data Warehouse/Data Lakehouse ○ Data Transform ○ Semantic Layer ○ Business Intelligence ○ Data Catalog ○ Data Orchestration ● 2026年以降の動向予想 ● 最後に

Slide 37

Slide 37 text

どのデータカタログもMCP Serverをリリース 37 ● ⽣成AIとの親和性が⾼いデータカタログにおいて、各製品がMCP Serverをリリース ○ Atlan、Select Star、Secoda、OpenMetadata、など ● できること ○ ⾃然⾔語を通じた各アセットの検索 ○ 説明、タグ、データ品質、所有者、 ⼈気度、などのメタデータ取得 ○ データリネージについての質問

Slide 38

Slide 38 text

⽬次 38 ● 前置き ● 今年の主要アップデート情報まとめ ○ 企業買収‧合併 ○ Data Extract/Load ○ Data Warehouse/Data Lakehouse ○ Data Transform ○ Semantic Layer ○ Business Intelligence ○ Data Catalog ○ Data Orchestration ● 2026年以降の動向予想 ● 最後に

Slide 39

Slide 39 text

Kestraの急成⻑ 39 ● KestraのリポジトリのGitHubスター数がDagster、Prefectを超えた ○ 右下図は、Airflow、Dagster、Prefect、Kestraのスター数の履歴(⾚がKestra) ○ 2024年9⽉に⾏われた800万USDの資⾦調達に併せて伸びている印象 ● Kestraの特徴 ○ YAMLを⽤いた宣⾔型ワークフロー ○ 2025年9⽉にv1.0をリリース

Slide 40

Slide 40 text

⽬次 40 ● 前置き ○ Modern Data Stackとは ○ 対象分野‧製品 ● 今年の主要アップデート情報まとめ ○ Data Extract/Load ○ Data Warehouse/Data Lakehouse ○ Data Transform ○ Semantic Layer ○ Business Intelligence ○ Data Activation (Reverse ETL) ● 2026年以降の動向予想 ● 最後に

Slide 41

Slide 41 text

買収等による企業統合はまだ終わらない 41 ● 2025年は多くのデータ関係の企業の買収がありましたが、 この動きはまだ終わらないと思います ● 今後も買収‧統合が予想される分野 ○ Data Catalog、Data Observability ■ SnowflakeやDatabricksはこれらの機能もリリースしてきており、 Fivetran & dbt Labsの合併会社で⾜りないパーツとも感じる

Slide 42

Slide 42 text

Snowflake‧Databricksの2強時代が続く 42 ● 今⽇の登壇内容を⾒ていただくと分かる通り、圧倒的にSnowflakeとDatabricksの トピックが多かったと思います ○ それだけ、この2製品が魅⼒的な機能リリースを連発していた ● 参考:この2製品の動向をウォッチするポイント ○ 毎年6⽉に開催される両社のイベントは必ず確認 ○ 情報発信しているアカウントをフォロー ■ Snowflake:公式アカウント、What's New Bot、国内のData Superhero ■ Databricks:公式アカウント、@taka_akiさんのQiita

Slide 43

Slide 43 text

⽬次 43 ● 前置き ○ Modern Data Stackとは ○ 対象分野‧製品 ● 今年の主要アップデート情報まとめ ○ Data Extract/Load ○ Data Warehouse/Data Lakehouse ○ Data Transform ○ Semantic Layer ○ Business Intelligence ○ Data Activation (Reverse ETL) ● 2026年以降の動向予想 ● 最後に

Slide 44

Slide 44 text

最後に:今後、何を考慮すればよいか? 44 ● SnowflakeとDatabricksの最新動向は確認していきましょう ● 「AI-Readyな基盤」を意識しましょう ○ データモデリング、Semantic LayerなどAIの回答精度を⾼められるデータ整備は⾏えているか ○ AIの回答精度を⾼められる、データ品質が担保された基盤か ○ ⾳声‧画像‧⽂書も対応できる技術があり、パイプラインは整備可能か ○ 組織固有の、開発ガイドラインやドメイン知識が集約されたドキュメントはあるか (かつ、AIにそのドキュメントをスムーズに渡せるか) ○ etc ● ⼀⽅で、技術はあくまで1つの⼿段であり、以前よりもデータ基盤の構築は楽になってきています ○ そのため、「どうデータ基盤を普及し事業に貢献するか」の意識が更に重要となります (私⾃⾝への⾃戒も込めて)

Slide 45

Slide 45 text

No content