Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Azure SynapseからAzure Databricksへ 移行してわかった新時代のコス...
Search
Databricks Japan
September 30, 2025
Technology
0
290
Azure SynapseからAzure Databricksへ 移行してわかった新時代のコスト問題!?
「第2回 Youは何しにDatabricksへ!?」でお話いただいたアドインテ様の資料です
Databricks Japan
September 30, 2025
Tweet
Share
More Decks by Databricks Japan
See All by Databricks Japan
[2025年10月版] Databricks Data + AI Boot Camp
databricksjapan
1
310
Microsoft Tech Brief 【2025年10月最新版!】 Fabric & Databricks が導く "未来型 AI Agentic Analytics" の最新アップデートを徹底解説!
databricksjapan
0
270
動画データのポテンシャルを引き出す! Databricks と AI活用への奮闘記(現在進行形)
databricksjapan
1
250
RedshiftからDatabricksに引っ越してみたら、 想像以上に良かった話
databricksjapan
0
240
Databricks連携で実現する DWHモダナイゼーション
databricksjapan
0
190
[2025年7月版] AI/BI 最新機能アップデート / AIBI update on July
databricksjapan
0
190
AIもデータも、もっと身近に。Databricksで広がる金融業界の可能性 / FDUA-Study
databricksjapan
0
270
OTFSG勉強会 / Introduction to the History of Delta Lake + Iceberg
databricksjapan
0
320
[2025年5月版] Azure Databricks最新機能アップデート / 202505 Azure Databricks Latest Updates
databricksjapan
0
310
Other Decks in Technology
See All in Technology
Zabbix Conference Japan 2025 ダッシュボードコンテストLT
katayamatg
0
140
ubuntu-latest から ubuntu-slim へ移行しよう!コスト削減うれしい~!
asumikam
0
430
開発者が知っておきたい複雑さの正体/where-the-complexity-comes-from
hanhan1978
6
2.2k
The Twin Mandate of Observability
charity
1
1.2k
バグと向き合い、仕組みで防ぐ
____rina____
0
150
NOT A HOTEL SOFTWARE DECK (2025/11/06)
notahotel
0
3.8k
[JDDStudy #10] 社内Agent勉強会の取り組み紹介
yp_genzitsu
1
130
品質保証の取り組みを広げる仕組みづくり〜スキルの移譲と自律を支える実践知〜
tarappo
2
770
[Oracle TechNight#94] Oracle AI World 2025 Oracle Database関連フィードバック
oracle4engineer
PRO
0
240
【AWS reInvent 2025 関西組 事前勉強会】re:Inventの“感動と興奮”を思い出してモチベ爆上げしたいです
ttelltte
0
120
メタプログラミングRuby問題集の活用
willnet
2
630
Master Dataグループ紹介資料
sansan33
PRO
1
3.9k
Featured
See All Featured
Practical Orchestrator
shlominoach
190
11k
Building Adaptive Systems
keathley
44
2.8k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.7k
We Have a Design System, Now What?
morganepeng
54
7.9k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.5k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
36
6.1k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
Gamification - CAS2011
davidbonilla
81
5.5k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
48
9.8k
How GitHub (no longer) Works
holman
315
140k
How To Stay Up To Date on Web Technology
chriscoyier
791
250k
For a Future-Friendly Web
brad_frost
180
10k
Transcript
Confidential Retail media Data Management Platform AI Beacon Agriculture Digital
Transformation Online to Offline Digital Marketing Data Source 第2回 Youは何しにDatabricksへ!? 株式会社アドインテ 分析オペレーションDiv. シニアマネージャー 髙松 築 Azure SynapseからAzure Databricksへ 移行してわかった新時代のコスト問題!? @2025 AdInte Co., Ltd. All Rights Reserved. 1
Confidential Retail media Data Management Platform AI Beacon Agriculture Digital
Transformation Online to Offline Digital Marketing Data Source Agenda • 登壇者・会社紹介 • Synapse時代 • Databricks時代 • 新時代のコスト問題!? • AI時代の挑戦 @2025 AdInte Co., Ltd. All Rights Reserved. 2
Confidential Confidential 自己紹介 @2025 AdInte Co., Ltd. All Rights Reserved.
3
Confidential 自己紹介 4 ➢ 2022年、株式会社アドインテに入社。弱冠28歳。 ➢ 初めて触れるデータ基盤がDatabricksであったため、生粋のPySparkネイ ティブエンジニアとして爆誕。 ➢ 主に小売業のID-POSデータを活用したCDP・分析基盤構築を行う。
➢ 現在はデータエンジニアリングマネージャーとして、Azure Databricksを 用いたデータプラットフォームやGenAIプロダクトの開発に従事。 ➢ DatabricksやMicrosoftのコミュニティで幹事をやってます! ➢ Jedai Masterです! 分析オペレーションDiv. シニアマネージャー 髙松 築|Kizuku Takamatsu @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential Confidential 会社紹介 @2025 AdInte Co., Ltd. All Rights Reserved.
6
Confidential 会社概要 株式会社ベクトル 株式会社三越伊勢丹イノベーションズ 株式会社ビジョン 株式会社博報堂DYホールディングス 株式会社ファミマデジタルワン 株式会社クロスベンチャーズ 三井物産株式会社 株式会社東京ドーム
株式会社新生銀行 株式会社ヒト・コミュニケーションズ・ホールディングス 株式会社丸井グループ グローリー株式会社 株式会社オリエンタルランド・イノベーションズ 大日本印刷株式会社 Sony Innovation Fund 【メディア掲載】 RETAIL AI TECHNOLOGY アジア太平洋地域TOP10社 【受賞】 社名 : 株式会社アドインテ 設立 : 2009年4月 代表者 : 代表取締役 十河 慎治 資本金 : 1億円 従業員数 : 186名(2024年10月時点) オフィス : 京都(本社)/東京/大阪/高知/韓国/上海 主要株主 : Japan Partner of the Year 2024 リテールアワード受賞 7 @2025 AdInte Co., Ltd. All Rights Reserved. 7
Confidential 事業領域 8 @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential C o p y r i g h t
© 2 0 2 5 A d I n t e c o . , l t d A l l R i g h t s R e s e r v e d . Retail Media Summit 2025 公式Webサイト https://www.retailmedia-japan.com/ リテールメディアサミット
Confidential Confidential お仕事紹介 @2025 AdInte Co., Ltd. All Rights Reserved.
10
Confidential 主な業務 リテールメディアで使用するデータに関わる業務全般 具体的には • データ分析基盤の構築 • データの管理・運用 • 広告配信用データの抽出
• 購買分析レポート用データの抽出 • 速度改善や業務効率化の検討、対応 • 新ツールの導入検討、対応 • リテールメディア関連のデータ連携 • その他データに関わるすべてのアプリケーション開発 など、多岐にわたる業務を分担して行っているチーム @2024 AdInte Co., Ltd. All Rights Reserved. 11
Confidential リテールメディアで主に使用するデータ • 各リテールのID-POSデータ 実店舗、EC、その他CRMデータ • AIBeaconで取得したデータ アドインテで収集しているデータ • 各種広告媒体の配信ログデータ
12 @2024 AdInte Co., Ltd. All Rights Reserved.
Confidential Confidential Synapse時代 @2025 AdInte Co., Ltd. All Rights Reserved.
13
Confidential アドインテのシステム構成 14 @2024 AdInte Co., Ltd. All Rights Reserved.
AWS S3 FTP Google Cloud Storage 対向先クラウド or サーバ 生データコピー Azure Blob Storage DMP・CDP構築 ※ 分析資料作成 ETL クレンジング マッチング Azure Blob Storage Power BI ※補足 DMP:アドインテデータについてのプラットフォーム CDP:お客様データについてのプラットフォーム 各リテールで 管理・運用を行っている範囲 アドインテで管理・運用を行っている範囲
Confidential アドインテのシステム構成 15 @2024 AdInte Co., Ltd. All Rights Reserved.
AWS S3 FTP Google Cloud Storage 対向先クラウド or サーバ 生データコピー Azure Blob Storage DMP・CDP構築 ※ 分析資料作成 ETL クレンジング マッチング Azure Blob Storage Power BI ※補足 DMP:アドインテデータについてのプラットフォーム CDP:お客様データについてのプラットフォーム 各リテールで 管理・運用を行っている範囲 アドインテで管理・運用を行っている範囲 • Functions • Databricks • EventGrid • Event Hubs • Datafactry
Confidential なぜAzure Synapseにしたのか 分散アーキテクチャで大規 模データ処理がとても早く 行え • 既存のDatabricksでの処 理だと一つのjobに2時間 くらいかかる
SQLベースで分析メンバー も使いやすい!(Pythonを 覚えなくていい!) • Python=エンジニア ユ ーザーはエンジニアでは ない ウェアハウスのスケーリン グが無限! • 日中の使用と夜間バッチ でサイズを任意に変更で きてコスパがいい
Confidential なぜAzure Synapseにしたのか 分散アーキテクチャで大規 模データ処理がとても早く 行え • 既存のDatabricksでの処 理だと一つのjobに2時間 くらいかかる
SQLベースで分析メンバー も使いやすい!(Pythonを 覚えなくていい!) • Python=エンジニア ユ ーザーはエンジニアでは ない ウェアハウスのスケーリン グが無限! • 日中の使用と夜間バッチ でサイズを任意に変更で きてコスパがいい そもそもApache Sparkなので、 Databricksがプロバイダー Migration前に SQLウェアハウスがGA VMサイズで無限に拡張可能
Confidential Confidential Azure Synapseで困ったこと @2025 AdInte Co., Ltd. All Rights
Reserved. 18
Confidential Synapseにして困ったこと • DWU100cで動く想定 → 最終DWU3000cでもきびしい($54/1hour) • 並列でバッチを組むと並列でパフォーマンスが下がる • スケーリングのたびに10分の待機時間、今までの処理はすべて吹っ飛ぶ
• SQLしか使えないのでETL、クレンジングがめちゃくちゃ大変 • 環境分離ができない(高すぎてリソース共有以外の選択肢がない) • ストレージレイヤーは分離しているが、Synapseでマネージドされるので他のウェアハウスにア クセスできない • 復元という概念がほぼない(トラブったら地獄) • エラーが読みづらい • みれるログがExplainかポータルの簡易オペレーションのみ • クレンジングかアドホックのデータ抽出か、どちらか一方しか最適化ができない • ガバナンスがSQLコードベースでしか設定できない • 1年分のデータをリカバリするのに1ヶ月かかる • データの出力方法が60個のtxtファイルのみ • 例外処理書きづらい • 型指定きつい • めちゃくちゃ高い • つらい • むずい @2025 AdInte Co., Ltd. All Rights Reserved. 19
Confidential Synapseのお勉強 @2025 AdInte Co., Ltd. All Rights Reserved. 20
Azure Synapse Analytics : Optimize for Distributions (Dedicated SQL Pools) Azure Synapse Analytics : Choose Right Index and Partition (Dedicated SQL Pools) Azure Synapse Analytics : How Statistics and Cache Works (Dedicated SQL Pools) ア ー キ テ ク チ ャ と は Azure Synapse SQL Distribution戦略(Azure Synapse Analytics : Optimize for Distributions (Dedicated SQL Pools)) Index,Partition戦略(Azure Synapse Analytics : Choose Right Index and Partition (Dedicated SQL Pools)) Statistics戦略(Azure Synapse Analytics : How Statistics and Cache Works (Dedicated SQL Pools)) Synapseアーキテクチャ(Azure Synapse SQL アーキテクチャとは)
Confidential @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential 22
Confidential
Confidential Synapseきびしい 24 @2025 AdInte Co., Ltd. All Rights Reserved.
むずくね?
Confidential ポストSynapse 25 @2025 AdInte Co., Ltd. All Rights Reserved.
ETL、クレンジングとアドホック処理の完全分離 • 一切のリソース共有を行わない • 個別に最適化されたリソース • 即時起動、即時実行、即時削除
Confidential データ階層と環境分離 26 @2025 AdInte Co., Ltd. All Rights Reserved.
基盤データ層 = 実データを置く 場所、ETL・クレンジングを行う環 境 作業ゾーン = プロジェクトや部 署ごとで作業する環境 開発と商用は物理分離したいが データは本番データを使いたい! コストはプロジェクト、部署ごとで管理したい!
Confidential Confidential Databricks時代 27 @2025 AdInte Co., Ltd. All Rights
Reserved.
Confidential データ階層と環境分離のアーキテクチャ 28 Adinte Data Extra Data AI Agent Retail
CDP 1 Retail CDP 2 AI・Data Apps Central Workspace @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential
Confidential Databricksもむずい 31 @2025 AdInte Co., Ltd. All Rights Reserved.
むずくね?
Confidential Databricksもむずい 32 @2025 AdInte Co., Ltd. All Rights Reserved.
安心してください 必須科目は全部マネージドになりました
Confidential Databricksもむずい? • サーバレスでクラスタ管理不要 • エージェントブリックス、Genieなどなどいい感じに やってくれます • ガバナンス周りがGUIで完結します •
アシスタントに聞いてください @2025 AdInte Co., Ltd. All Rights Reserved. 33
Confidential Databricksもむずい 34 @2025 AdInte Co., Ltd. All Rights Reserved.
Databricksの熱いサポートと一緒に 学んでいきましょう! きっと幸せになれます
Confidential Synapseにして困ったこと • DWU100cで動く想定 → 最終DWU3000cでもきびしい($54/1hour) • 並列でバッチを組むと並列でパフォーマンスが下がる • スケーリングのたびに10分の待機時間、今までの処理はすべて吹っ飛ぶ
• SQLしか使えないのでETL、クレンジングがめちゃくちゃ大変 • 環境分離ができない(高すぎてリソース共有以外の選択肢がない) • ストレージレイヤーは分離しているが、Synapseでマネージドされるので他のウェアハウ スにアクセスできない • 復元という概念がほぼない(トラブったら地獄) • エラーが読みづらい • みれるログがExplainかポータルの簡易オペレーションのみ • クレンジングかアドホックのデータ抽出か、どちらか一方しか最適化ができない • ガバナンスがSQLコードベースでしか設定できない • 1年分のデータをリカバリするのに1ヶ月かかる • データの出力方法が60個のtxtファイルのみ • 例外処理下記づらい • めちゃくちゃ高い • つらい • むずい @2025 AdInte Co., Ltd. All Rights Reserved. 35
Confidential Databricksにして解決したこと • DWU100cで動く想定 → 最終DWU3000cでもきびしい ($54/1hour) → サーバレスで解決 •
並列でバッチを組むと並列でパフォーマンスが下がる → 各処理が完全独立 • スケーリングのたびに10分の待機時間、今までの処理はすべて 吹っ飛ぶ → サーバレスで解決、完全独立なので他の処理に影響なし • SQLしか使えないのでETL、クレンジングがめちゃくちゃ大変 → Pysparkですべて解決、ML、データ、LLM、APIなんでもOK • 環境分離ができない(高すぎてリソース共有以外の選択肢がな い) → SQLウェアハウスもクラスターも可能、用途に合わせて共有と 分離の共存 @2025 AdInte Co., Ltd. All Rights Reserved. 36 • ストレージレイヤーは分離しているが、Synapseでマネージドさ れるので他のウェアハウスにアクセスできない → ワークスペース、サブスクリプションが分かれても同一メタス トアで解決、Lakehouseフェデレーション、DCR、デルタシェアリン グで環境間連携が容易 • 復元という概念がほぼない(トラブったら地獄) → テーブルのバージョン管理が標準搭載、コマンド一つで高速リ カバリ • エラーが読みづらい → アシスタントで解決、SQLの何も情報がないエラーより常によ い • みれるログがExplainかポータルの簡易オペレーションのみ → クエリプロファイルが標準搭載(ガングリアは返して欲しい) 以下省略
Confidential 付随して得られたこと 37 @2025 AdInte Co., Ltd. All Rights Reserved.
• データ:Lakehouse/LakeBase、OLAPとOLTPの共存 • 外部連携:フェデレーション、DCR、Deltasharing • 実行:SQL Warehouse、Photon/Spark、notebook/Jobs (サーバレス) • AI:Vector Search、Model Serving(任意モデル) • アプリ:Databricks Apps(Next.js/React=商用品質UI) • 統治:Unity Catalog(権限・メタ・Lineage・監査) MLflow(実験→登録→Serving) AI・データアプリケーションに必要な RDB/DWH/Apps/Vector/Serving/Job をすべて同じUXで完結! データをいかに扱うか=データとアプ リケーションを近い距離に配置! データ屋さんが語るアプリケーション の世界線へ 詳しくはみんつよ第5回を参照くださ い!
Confidential Confidential 新時代のコスト問題!? 38 @2025 AdInte Co., Ltd. All Rights
Reserved.
Confidential コストを下げるとコストが上がる!? @2025 AdInte Co., Ltd. All Rights Reserved. 39
処理速度 ≠ 人間の労働時間 人間の無尽蔵の 欲求
Confidential ビジネスの加速、コストの加速 40 1時間で6処理可能!! 1処理1時間から10分に短縮 もっと複雑で重い処理をしてもよい!!! コストは1/6に圧縮 @2025 AdInte Co.,
Ltd. All Rights Reserved.
Confidential より一層コスト管理が重要に @2025 AdInte Co., Ltd. All Rights Reserved. 41
処理コストとそれによって発生する売り上げの紐付けが重要 「なんでもできる」はビジネス的にはメリットにもデメリットにもなり得る 管理コストは数字に表れない
Confidential Confidential AI時代の挑戦〜ビッグデータ解析エージェント〜 42 @2025 AdInte Co., Ltd. All Rights
Reserved.
Confidential 43 @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential 44 @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential 45 @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential Confidential AI時代の挑戦〜データ駆動型アプリケーション〜 46 @2025 AdInte Co., Ltd. All Rights
Reserved.
Confidential @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential Confidential AI時代の挑戦〜VibeDataEngineering〜 48 @2025 AdInte Co., Ltd. All Rights
Reserved.
Confidential エージェント用の環境 • ジョブ作成→実行までエージェントが自走 • Notebook/Python/SQLを任意生成・即時実行できる試行環境 • 安全を考えるとセレクト権限のみにしたいが、真価を発揮させるためにはすべての権限を渡す必要がある • データソースはクレンジング後の大きなテーブルをセレクト権限のみで渡し、作業用のカタログとして
Read write可能なものを用意する 49 @2025 AdInte Co., Ltd. All Rights Reserved. Agentごとにワークスペースを切り出す Agent用のEntraアカウントの発行と管理
Confidential VibeDataEngineering 50 @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential VibeDataEngineering 51 @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential VibeDataEngineering 52 @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential VibeDataEngineering 53 @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential 最後に Databricksコミュニティやデータ系コミュニティ たくさんあります! Cross Data Platforms Meetup datatech-jp JEDAI
- The Data & AI Meetup ぜひいろいろご参加ください!!! 54 @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential