Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Databricks Lakebaseで見る、ML/LLMシステムでのPostgreSQLの使...
Search
camay
November 21, 2025
580
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Databricks Lakebaseで見る、ML/LLMシステムでのPostgreSQLの使いどころ
PostgreSQL Conference Japan 2025(
https://www.postgresql.jp/jpug-pgcon2025
) での発表スライドです。
camay
November 21, 2025
More Decks by camay
See All by camay
Databricks (と気合い)で頑張るAI Agent 運用
kameitomohiro
0
560
Databricks AI/BI Genie の「値ディクショナリー」をAmazonの奥地(S3)まで見に行く
kameitomohiro
1
600
Lakebaseを使ったAIエージェントを実装してみる
kameitomohiro
0
490
新卒3年目の後悔〜機械学習モデルジョブの運用を頑張った話〜
kameitomohiro
0
600
SnowflakeとDatabricks両方でRAGを構築してみた
kameitomohiro
1
1.7k
SPCSでMLflow~初心者によるMLOps事始め~
kameitomohiro
0
220
Featured
See All Featured
YesSQL, Process and Tooling at Scale
rocio
174
15k
Information Architects: The Missing Link in Design Systems
soysaucechin
0
960
Leo the Paperboy
mayatellez
7
1.8k
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
2
840
The Hidden Cost of Media on the Web [PixelPalooza 2025]
tammyeverts
2
330
Why Your Marketing Sucks and What You Can Do About It - Sophie Logan
marketingsoph
0
160
Typedesign – Prime Four
hannesfritz
42
3.1k
Rails Girls Zürich Keynote
gr2m
96
14k
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.6k
Technical Leadership for Architectural Decision Making
baasie
3
400
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
3.5k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.3k
Transcript
Databricks Lakebaseで見る、 ML/LLMシステムでの PostgreSQLの使いどころ DATUM STUDIO株式会社 亀井友裕 2025/11/21 PostgreSQL Conference
Japan 2025
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 2
今日話すこと、話さないこと 話すこと 話さないこと ✓ OLTP の DB が絡む ML/LLM システムの紹介 ✓ Databricks Lakebase を使った際の実装イメージ ✓ Lakebase の独自機能 ✓ 他 RDBMS 製品(MySQL など)を使った実装との違い ✓ 各種ユースケースにおける詳細な実装 ✓ PostgreSQL の内部構造まで立ち入った機能紹介
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 3
講演者 亀井 友裕 会社 DATUM STUDIO 株式会社 職業 データエンジニア / AIエンジニア 主な 業務経験 データパイプラインの構築(Databricks) 需要予測モデルの運用(Databricks) RAGの精度改善(AWS) AIエージェントの構築(AWS, Databricks) X @Camay119 (アイコンは→)
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. イントロ
今、データプラットフォームの間で PostgreSQL がアツい!!
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 6
データプラットフォームって? データ分析~AI活用の一連の業務を担うサービスは「データプラットフォーム」と呼ばれ、Snowflake と Databricks はDWH構築からAI・データアプリのホスティングまで幅広いワークロードに対応しています。 Snowflake Databricks ETL AI・ML DWH BI オーケストレー ション データシェアリング アプリケーション
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 7
Databricks Mooncake Labsの買収を発表 今、データプラットフォームの間で PostgreSQL がアツい!! 2025年6月、Databricks / Snowflake 両社が PostgreSQL のマネージドプロバイダを買収し、マネージド PostgreSQL 機能を公開しました。両サービスのユーザーグループでは今、PostgreSQLは激アツトピックです! Snowflake Crunchy Dataの買収を発表 併せて Snowflake Postgres の開発をアナウンス Databricks Lakebase のパブリックプレビューを発表 Databricks Neon の買収を発表 2025/05/14 2025/06/02 2025/06/11 2025/10/01 Snowflake PostgreSQL Conference Japan 2025 にてキーノートを発表 Snowflake Snowflake Postgres の 開発チーム紹介ブログを公開 2025/09/24 2025/11/21 2025年、Snowflake/Databricks での PostgreSQL 関連の出来事
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 8
両社が示す PostgreSQL 機能のユースケース 両社が示す PostgreSQL 機能のユースケースには若干の戦略の違いが現れつつも、共通して AI/ML 機 能との統合をあげています。 Snowflake Databricks データ戦略(トランザクション・分析・非構造化データ)の統合 AI 開発の加速 運用の複雑さを軽減 エンタープライズ グレードのセキュリティとガバナンスを実現 顧客向けアプリケーションへの分析データの提供 オンライン特徴サービング アプリケーションの状態を保存 両社とも、AI/ML 機能との統合をユースケースとして取り上げている
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 9
ML/LLM システムにおける PostgreSQL のユースケース 本発表では、Databricks Lakebase を用いて、 ML/LLM システムにおける PostgreSQL のユースケー スを2つ紹介します! オンライン特徴ストア AIエージェントのステート管理
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. ユースケース
その1 オンライン特徴ストア
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 11
特徴ストアとは 特徴ストアとは、その名の通り特徴量を格納したテーブルのことです。機械学習モデルの学習 / 推論に使われ ます。 user_id Event_timestamp 特徴量1 特徴量2 特徴量3 … 001 2025-11-20 00:00:00 100 0.02 東京都 … 001 2025-11-21 00:00:00 200 0.05 東京都 … 002 2025-11-20 00:00:00 100 0.01 大阪府 … 002 2025-11-21 00:00:00 150 0.04 大阪府 … 003 2025-11-20 00:00:00 200 0.05 北海道 … 003 2025-11-21 00:00:00 100 0.02 北海道 … … … … … … … Entity Feature (特徴量) Timestamp
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 12
特徴量ストアへのアクセス 特徴量ストアから特徴量を作成する方法を定義した FeatureSpec という yaml ファイルを用意しておき、ク ライアントはこの定義に沿ってデータを取得します。 特徴ストア user_id event_timestamp 特徴量1 … 001 2025-11-20 00:00:00 100 … 001 2025-11-21 00:00:00 200 … 002 2025-11-20 00:00:00 100 … 002 2025-11-21 00:00:00 150 … … … … … クライアント (機械学習モデル など) ①entity を添えて特徴量をリクエスト { "user_id": "001” } ②entity に紐づく特徴量を返却 { "user_id": "001", “特徴量1": ”100”, “特徴量1のmax": ”200”, … } FeatureSpec - 特徴量1 - max(特徴量1)
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 13
オフライン特徴ストアとオンライン特徴ストア 特徴ストアは、オフラインとオンライン特徴ストアに分かれます。オンライン特徴ストアは、低レイテンシで推論に 必要な情報を提供するため、PostgreSQL などの OLTP システムが使われます。 user_id event_timestamp 特徴量1 特徴量2 … 001 2025-11-20 00:00:00 100 0.02 … 001 2025-11-21 00:00:00 200 0.05 … 002 2025-11-20 00:00:00 100 0.01 … 002 2025-11-21 00:00:00 150 0.04 … … … … … … user_id event_timestamp 特徴量1 特徴量2 … 001 2025-11-21 00:00:00 200 0.05 … 002 2025-11-21 00:00:00 150 0.04 … … … … … … オフライン特徴ストア オンライン特徴ストア 過去の特徴量を全て保持する 学習に用いる 最新断面のみを保持する (リアルタイムの)推論で使用する Delta Table(Databricks の標準テーブル)で実装される Lakebase(postgres) テーブルで実装される 高スループット 低レイテンシ 保持するデータ 用途 実体の実装 強み
…?
Q. 普通のテーブルを 使えばよくない?
A. よくない(場合がある)
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 17
例: シンプルな機械学習アプリケーション 例として、シンプルな機械学習モデルのAPIを叩くアプリケーションを考えます。 アプリケーション 機械学習モデル API ①特徴量を入力 {“特徴量1": ”100", "特徴量2": 0.02, “特徴量3”: “東京都”} ②推論結果を返却 {“おすすめ商品ID”: 201}
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 18
機械学習システムを本番運用する際の悩み事 モデルの学習時 / 推論時でデータ作成ロジックが揃えるのが難しかったり、学習データのリークが起こったりし ます。 user_id event_timestamp 特徴量1 … 001 2025-11-20 00:00:00 100 … 001 2025-11-21 00:00:00 200 … 002 2025-11-20 00:00:00 100 … 002 2025-11-21 00:00:00 150 … … … … … ①データをSQLで取得 特徴量が入ったテーブル ②返却 ③特徴量 エンジニアリング (集約値,比率) ②返却 ①データをSQLで取得 アプリケーション 機械学習モデル API ④特徴量を入力 ⑤推論結果を返却 赤色:学習 水色:推論 ④学習 ③特徴量 エンジニアリング (集約値、比率)
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 19
アプリケーション ①特徴量を入力 ④推論結果を返却 機械学習システムを本番運用する際の悩み事 モデルの学習時 / 推論時でデータ作成ロジックが揃えるのが難しかったり、学習データのリークが起こったりし ます。 ②返却 ①データをSQLで取得 ④学習 赤色:学習 水色:推論 user_id event_timestamp 特徴量1 … 001 2025-11-20 00:00:00 100 … 001 2025-11-21 00:00:00 200 … 002 2025-11-20 00:00:00 100 … 002 2025-11-21 00:00:00 150 … … … … … ①データをSQLで取得 特徴量が入ったテーブル ②返却 機械学習モデル API イベント発生時には 知り得ない情報を使って 学習を行なってしまうリスク がある(データリーク) ③特徴量 エンジニアリング (集約値,比率) ③特徴量 エンジニアリング (集約値、比率)
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 20
機械学習システムを本番運用する際の悩み事 モデルの学習時 / 推論時でデータ作成ロジックが揃えるのが難しかったり、学習データのリークが起こったりし ます。 user_id event_timestamp 特徴量1 … 001 2025-11-20 00:00:00 100 … 001 2025-11-21 00:00:00 200 … 002 2025-11-20 00:00:00 100 … 002 2025-11-21 00:00:00 150 … … … … … ①データをSQLで取得 特徴量が入ったテーブル ②返却 ②返却 ①データをSQLで取得 ①特徴量を入力 ④推論結果を返却 ④学習 アプリケーション 機械学習モデル API 赤色:学習 水色:推論 学習と推論で データ作成ロジックがを揃 えるのが難しい ③特徴量 エンジニアリング (集約値,比率) ③特徴量 エンジニアリング (集約値、比率)
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 21
便利機能その1: Point-in time Joins Databricks の特徴量ストアには、「観測時の最新断面のみ」を取得する機能が備わっています。これにより、 未来の情報を使って学習してしまうリスク(リーケージ)を予防できます。 https://docs.databricks.com/aws/ja/machine-learning/feature-store/time-series より引用 FeatureSpec で定義します
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 22
便利機能その2: FeatureFunction 推論時にのみ使用できる情報(ユーザーの現在地など)を特徴量の計算に使いたい場合があります。計算ロ ジック(=Function)を定義しておき、特徴量をリアルタイムでを作成する機能があります。 https://docs.databricks.com/aws/ja/machine-learning/feature-store/concepts より引用 FeatureSpec で定義します
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 23
便利機能その3: automatic feature lookup Databricks の Mosaic AI Model Serving 機能を使えば、特徴ストアと連携して自動で特徴量を検索 することが可能です。 https://docs.databricks.com/aws/ja/machine-learning/feature-store/online-workflows より引用
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 24
特徴ストアが解決すること 特徴ストアがあると、データリークの予防や、学習 / 推論でデータ作成のロジックの統一などのメリットを享受 でき、MLアプリケーションの開発がスムーズになります。 user_id event_timestamp 特徴量1 … 001 2025-11-20 00:00:00 100 … 001 2025-11-21 00:00:00 200 … 002 2025-11-20 00:00:00 100 … 002 2025-11-21 00:00:00 150 … … … … … user_id event_timestamp 特徴量1 … 001 2025-11-21 00:00:00 200 … 002 2025-11-21 00:00:00 150 … … … … … ①特徴量をリクエスト オフライン特徴ストア オンライン特徴ストア FeatureSpec ②返却 ③学習 ③返却 アプリケーション 機械学習モデル API ①推論をリクエスト ②特徴量をリクエスト ④推論結果を返却 赤色:学習 水色:推論
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 25
特徴ストアが解決すること 特徴ストアがあると、データリークの予防や、学習 / 推論でデータ作成のロジックの統一などのメリットを享受 でき、MLアプリケーションの開発がスムーズになります。 user_id event_timestamp 特徴量1 … 001 2025-11-21 00:00:00 200 … 002 2025-11-21 00:00:00 150 … … … … … オンライン特徴ストア ③学習 ③返却 アプリケーション 機械学習モデル API ①推論をリクエスト ②特徴量をリクエスト ④推論結果を返却 赤色:学習 水色:推論 データリークを 予防できる! ①特徴量をリクエスト ②返却 FeatureSpec user_id event_timestamp 特徴量1 … 001 2025-11-20 00:00:00 100 … 001 2025-11-21 00:00:00 200 … 002 2025-11-20 00:00:00 100 … 002 2025-11-21 00:00:00 150 … … … … … オフライン特徴ストア
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 26
特徴ストアが解決すること 特徴ストアがあると、データリークの予防や、学習 / 推論でデータ作成のロジックの統一などのメリットを享受 でき、MLアプリケーションの開発がスムーズになります。 ③学習 アプリケーション 機械学習モデル API ①推論をリクエスト ④推論結果を返却 赤色:学習 水色:推論 学習と推論で データ取得ロジックを 揃えられる! ①特徴量をリクエスト ②返却 ③返却 FeatureSpec ②特徴量をリクエスト user_id event_timestamp 特徴量1 … 001 2025-11-20 00:00:00 100 … 001 2025-11-21 00:00:00 200 … 002 2025-11-20 00:00:00 100 … 002 2025-11-21 00:00:00 150 … … … … … user_id event_timestamp 特徴量1 … 001 2025-11-21 00:00:00 200 … 002 2025-11-21 00:00:00 150 … … … … … オフライン特徴ストア オンライン特徴ストア
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 27
特徴ストアが解決すること 特徴ストアがあると、データリークの予防や、学習 / 推論でデータ作成のロジックの統一などのメリットを享受 でき、MLアプリケーションの開発がスムーズになります。 user_id event_timestamp 特徴量1 … 001 2025-11-20 00:00:00 100 … 001 2025-11-21 00:00:00 200 … 002 2025-11-20 00:00:00 100 … 002 2025-11-21 00:00:00 150 … … … … … ①特徴量をリクエスト オフライン特徴ストア ②返却 ③学習 アプリケーション 機械学習モデル API ①推論をリクエスト ④推論結果を返却 ③返却 ②特徴量をリクエスト FeatureSpec user_id event_timestamp 特徴量1 … 001 2025-11-21 00:00:00 200 … 002 2025-11-21 00:00:00 150 … … … … … 赤色:学習 水色:推論 オンライン特徴ストア 低レイテンシで 特徴量を提供できる!
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 28
公式のサンプル実装 Databricks の公式ドキュメントにて、Lakebase を使用したオンライン特徴量ストアのサンプル実装が公開 されています。ご興味ある方は、ぜひ動かしてみてください! https://docs.databricks.com/aws/ja/machine-learning/feature-store/online-feature-store
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. ユースケース
その2 ステートフルエージェント
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 30
エージェントシステムとは エージェントシステムとは、 目標を達成するための環境を自律的に認識し、決定し、行動することができるAI駆 動型のシステムです (※ https://docs.databricks.com/aws/ja/generative-ai/guide/introduction-generative-ai-apps より引用) https://docs.databricks.com/aws/ja/generative-ai/guide/introduction-generative-ai-apps より引用
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 31
エージェントのメモリ エージェントにメモリを持たせることで、セッション内、セッション間で情報を共有するステートフルなエージェントを 実現することが可能です。 https://blog.langchain.com/semantic-search-for-langgraph-memory/ より引用
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 32
例:ChatGPT のメモリ機能 メモリ機能は ChatGPT にも実装されており、ユーザーとの対話情報をもとに保存してくれます。
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 33
短期記憶と長期記憶 LangGraph(AIエージェントの開発フレームワーク)には、セッション内で使用する短期記憶と、セッション横 断で共有する長期記憶があります。どちらも Postgres による実装がパッケージ化されています。 短期記憶 (Short-term) ✓ 進行中の会話コンテキストを保持し、同一スレッド 内の応答精度・一貫性を向上 ✓ メッセージ履歴 ✓ アップロードファイル ✓ 生成物 など ✓ InMemory + Checkpointer(標準) ✓ SQLiteSaver langgraph-checkpoint-sqlite ✓ PostgresSaver langgraph-checkpoint- postgres ✓ RedisSaver langgraph-checkpoint-redis 長期記憶 (Long-term) ✓ ユーザ/アプリ全体で共有し、学習内容やパーソナ ライズ情報を永続化 ✓ セマンティック(事実) ✓ エピソード(経験) ✓ プロシージャル(ルール)など ✓ InMemoryStore(開発用) ✓ PostgresStore(pgvector 検索対応) ✓ RedisStore(高速+ベクトル検索) 用途 格納する情報 使えるストレージ
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 34
短期記憶 短期記憶が接続されたエージェントは、ユーザーとの会話を自動的に逐一保存します。
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 35
例: 短期記憶を使ったコンテキストの節約 会話が進むごとに、会話履歴の要約 + 履歴の削除を行うことで、会話が進むたびに入力トークンが増大し続 け(=コンテキスト爆発)応答性能が下がることを防ぐことができます。 https://blog.langchain.com/semantic-search-for-langgraph-memory/ より引用
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 36
長期記憶 store = PostgresStore( connection_string="postgresql://user:pass@localhost:5432/dbname", index={ "dims": 1536, "embed": init_embeddings("openai:text-embedding-3-small"), "fields": ["text"], }, ) store.setup() store.put(("docs",), "doc1", {"text": "Python tutorial"}) results = store.search( ("user_123", "interactions"), query=state["messages"][-1].content, filter={"type": "conversation"}, limit=3 ) 長期記憶が接続されたエージェントは、セッションを跨いで記憶を共有することが可能です。pgvector による セマンティック検索も可能です。 長期記憶のセットアップ (埋め込みモデルを指 定) データ挿入 長期記憶へのクエリ (pgvector によるセマ ンティック検索) https://blog.langchain.com/semantic-search-for-langgraph-memory/ より転載
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 37
例: 長期記憶を使った行動履歴の保存 長期記憶にAIエージェントの行動・経験を記録しておいて、似たようなタスクでの再現性、回答精度の向上を 図ることができます。 〇〇について調査して △△について調査して 計画 ツールA利用 評価 ツールB利用 ︙ 行動履歴を書き出し 行動記録を読み出し 計画 ツールA利用 評価 ツールB利用 ︙ 行動を再現
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 38
公式のサンプル実装 Databricks の公式ドキュメントにて、Lakebase を使用したステートフル エージェントのサンプル実装が公 開されています。ご興味ある方は、ぜひ動かしてみてください! https://docs.databricks.com/aws/ja/generative-ai/agent-framework/stateful-agents
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. EOF