Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

Databricks Lakebaseで見る、ML/LLMシステムでのPostgreSQLの使...

Avatar for camay camay
November 21, 2025
310

Databricks Lakebaseで見る、ML/LLMシステムでのPostgreSQLの使いどころ

PostgreSQL Conference Japan 2025(https://www.postgresql.jp/jpug-pgcon2025 ) での発表スライドです。

Avatar for camay

camay

November 21, 2025
Tweet

Transcript

  1. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 2

    今日話すこと、話さないこと 話すこと 話さないこと ✓ OLTP の DB が絡む ML/LLM システムの紹介 ✓ Databricks Lakebase を使った際の実装イメージ ✓ Lakebase の独自機能 ✓ 他 RDBMS 製品(MySQL など)を使った実装との違い ✓ 各種ユースケースにおける詳細な実装 ✓ PostgreSQL の内部構造まで立ち入った機能紹介
  2. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 3

    講演者 亀井 友裕 会社 DATUM STUDIO 株式会社 職業 データエンジニア / AIエンジニア 主な 業務経験 データパイプラインの構築(Databricks) 需要予測モデルの運用(Databricks) RAGの精度改善(AWS) AIエージェントの構築(AWS, Databricks) X @Camay119 (アイコンは→)
  3. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 6

    データプラットフォームって? データ分析~AI活用の一連の業務を担うサービスは「データプラットフォーム」と呼ばれ、Snowflake と Databricks はDWH構築からAI・データアプリのホスティングまで幅広いワークロードに対応しています。 Snowflake Databricks ETL AI・ML DWH BI オーケストレー ション データシェアリング アプリケーション
  4. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 7

    Databricks Mooncake Labsの買収を発表 今、データプラットフォームの間で PostgreSQL がアツい!! 2025年6月、Databricks / Snowflake 両社が PostgreSQL のマネージドプロバイダを買収し、マネージド PostgreSQL 機能を公開しました。両サービスのユーザーグループでは今、PostgreSQLは激アツトピックです! Snowflake Crunchy Dataの買収を発表 併せて Snowflake Postgres の開発をアナウンス Databricks Lakebase のパブリックプレビューを発表 Databricks Neon の買収を発表 2025/05/14 2025/06/02 2025/06/11 2025/10/01 Snowflake PostgreSQL Conference Japan 2025 にてキーノートを発表 Snowflake Snowflake Postgres の 開発チーム紹介ブログを公開 2025/09/24 2025/11/21 2025年、Snowflake/Databricks での PostgreSQL 関連の出来事
  5. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 8

    両社が示す PostgreSQL 機能のユースケース 両社が示す PostgreSQL 機能のユースケースには若干の戦略の違いが現れつつも、共通して AI/ML 機 能との統合をあげています。 Snowflake Databricks データ戦略(トランザクション・分析・非構造化データ)の統合 AI 開発の加速 運用の複雑さを軽減 エンタープライズ グレードのセキュリティとガバナンスを実現 顧客向けアプリケーションへの分析データの提供 オンライン特徴サービング アプリケーションの状態を保存 両社とも、AI/ML 機能との統合をユースケースとして取り上げている
  6. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 9

    ML/LLM システムにおける PostgreSQL のユースケース 本発表では、Databricks Lakebase を用いて、 ML/LLM システムにおける PostgreSQL のユースケー スを2つ紹介します! オンライン特徴ストア AIエージェントのステート管理
  7. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 11

    特徴ストアとは 特徴ストアとは、その名の通り特徴量を格納したテーブルのことです。機械学習モデルの学習 / 推論に使われ ます。 user_id Event_timestamp 特徴量1 特徴量2 特徴量3 … 001 2025-11-20 00:00:00 100 0.02 東京都 … 001 2025-11-21 00:00:00 200 0.05 東京都 … 002 2025-11-20 00:00:00 100 0.01 大阪府 … 002 2025-11-21 00:00:00 150 0.04 大阪府 … 003 2025-11-20 00:00:00 200 0.05 北海道 … 003 2025-11-21 00:00:00 100 0.02 北海道 … … … … … … … Entity Feature (特徴量) Timestamp
  8. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 12

    特徴量ストアへのアクセス 特徴量ストアから特徴量を作成する方法を定義した FeatureSpec という yaml ファイルを用意しておき、ク ライアントはこの定義に沿ってデータを取得します。 特徴ストア user_id event_timestamp 特徴量1 … 001 2025-11-20 00:00:00 100 … 001 2025-11-21 00:00:00 200 … 002 2025-11-20 00:00:00 100 … 002 2025-11-21 00:00:00 150 … … … … … クライアント (機械学習モデル など) ①entity を添えて特徴量をリクエスト { "user_id": "001” } ②entity に紐づく特徴量を返却 { "user_id": "001", “特徴量1": ”100”, “特徴量1のmax": ”200”, … } FeatureSpec - 特徴量1 - max(特徴量1)
  9. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 13

    オフライン特徴ストアとオンライン特徴ストア 特徴ストアは、オフラインとオンライン特徴ストアに分かれます。オンライン特徴ストアは、低レイテンシで推論に 必要な情報を提供するため、PostgreSQL などの OLTP システムが使われます。 user_id event_timestamp 特徴量1 特徴量2 … 001 2025-11-20 00:00:00 100 0.02 … 001 2025-11-21 00:00:00 200 0.05 … 002 2025-11-20 00:00:00 100 0.01 … 002 2025-11-21 00:00:00 150 0.04 … … … … … … user_id event_timestamp 特徴量1 特徴量2 … 001 2025-11-21 00:00:00 200 0.05 … 002 2025-11-21 00:00:00 150 0.04 … … … … … … オフライン特徴ストア オンライン特徴ストア 過去の特徴量を全て保持する 学習に用いる 最新断面のみを保持する (リアルタイムの)推論で使用する Delta Table(Databricks の標準テーブル)で実装される Lakebase(postgres) テーブルで実装される 高スループット 低レイテンシ 保持するデータ 用途 実体の実装 強み
  10. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 17

    例: シンプルな機械学習アプリケーション 例として、シンプルな機械学習モデルのAPIを叩くアプリケーションを考えます。 アプリケーション 機械学習モデル API ①特徴量を入力 {“特徴量1": ”100", "特徴量2": 0.02, “特徴量3”: “東京都”} ②推論結果を返却 {“おすすめ商品ID”: 201}
  11. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 18

    機械学習システムを本番運用する際の悩み事 モデルの学習時 / 推論時でデータ作成ロジックが揃えるのが難しかったり、学習データのリークが起こったりし ます。 user_id event_timestamp 特徴量1 … 001 2025-11-20 00:00:00 100 … 001 2025-11-21 00:00:00 200 … 002 2025-11-20 00:00:00 100 … 002 2025-11-21 00:00:00 150 … … … … … ①データをSQLで取得 特徴量が入ったテーブル ②返却 ③特徴量 エンジニアリング (集約値,比率) ②返却 ①データをSQLで取得 アプリケーション 機械学習モデル API ④特徴量を入力 ⑤推論結果を返却 赤色:学習 水色:推論 ④学習 ③特徴量 エンジニアリング (集約値、比率)
  12. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 19

    アプリケーション ①特徴量を入力 ④推論結果を返却 機械学習システムを本番運用する際の悩み事 モデルの学習時 / 推論時でデータ作成ロジックが揃えるのが難しかったり、学習データのリークが起こったりし ます。 ②返却 ①データをSQLで取得 ④学習 赤色:学習 水色:推論 user_id event_timestamp 特徴量1 … 001 2025-11-20 00:00:00 100 … 001 2025-11-21 00:00:00 200 … 002 2025-11-20 00:00:00 100 … 002 2025-11-21 00:00:00 150 … … … … … ①データをSQLで取得 特徴量が入ったテーブル ②返却 機械学習モデル API イベント発生時には 知り得ない情報を使って 学習を行なってしまうリスク がある(データリーク) ③特徴量 エンジニアリング (集約値,比率) ③特徴量 エンジニアリング (集約値、比率)
  13. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 20

    機械学習システムを本番運用する際の悩み事 モデルの学習時 / 推論時でデータ作成ロジックが揃えるのが難しかったり、学習データのリークが起こったりし ます。 user_id event_timestamp 特徴量1 … 001 2025-11-20 00:00:00 100 … 001 2025-11-21 00:00:00 200 … 002 2025-11-20 00:00:00 100 … 002 2025-11-21 00:00:00 150 … … … … … ①データをSQLで取得 特徴量が入ったテーブル ②返却 ②返却 ①データをSQLで取得 ①特徴量を入力 ④推論結果を返却 ④学習 アプリケーション 機械学習モデル API 赤色:学習 水色:推論 学習と推論で データ作成ロジックがを揃 えるのが難しい ③特徴量 エンジニアリング (集約値,比率) ③特徴量 エンジニアリング (集約値、比率)
  14. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 21

    便利機能その1: Point-in time Joins Databricks の特徴量ストアには、「観測時の最新断面のみ」を取得する機能が備わっています。これにより、 未来の情報を使って学習してしまうリスク(リーケージ)を予防できます。 https://docs.databricks.com/aws/ja/machine-learning/feature-store/time-series より引用 FeatureSpec で定義します
  15. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 22

    便利機能その2: FeatureFunction 推論時にのみ使用できる情報(ユーザーの現在地など)を特徴量の計算に使いたい場合があります。計算ロ ジック(=Function)を定義しておき、特徴量をリアルタイムでを作成する機能があります。 https://docs.databricks.com/aws/ja/machine-learning/feature-store/concepts より引用 FeatureSpec で定義します
  16. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 23

    便利機能その3: automatic feature lookup Databricks の Mosaic AI Model Serving 機能を使えば、特徴ストアと連携して自動で特徴量を検索 することが可能です。 https://docs.databricks.com/aws/ja/machine-learning/feature-store/online-workflows より引用
  17. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 24

    特徴ストアが解決すること 特徴ストアがあると、データリークの予防や、学習 / 推論でデータ作成のロジックの統一などのメリットを享受 でき、MLアプリケーションの開発がスムーズになります。 user_id event_timestamp 特徴量1 … 001 2025-11-20 00:00:00 100 … 001 2025-11-21 00:00:00 200 … 002 2025-11-20 00:00:00 100 … 002 2025-11-21 00:00:00 150 … … … … … user_id event_timestamp 特徴量1 … 001 2025-11-21 00:00:00 200 … 002 2025-11-21 00:00:00 150 … … … … … ①特徴量をリクエスト オフライン特徴ストア オンライン特徴ストア FeatureSpec ②返却 ③学習 ③返却 アプリケーション 機械学習モデル API ①推論をリクエスト ②特徴量をリクエスト ④推論結果を返却 赤色:学習 水色:推論
  18. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 25

    特徴ストアが解決すること 特徴ストアがあると、データリークの予防や、学習 / 推論でデータ作成のロジックの統一などのメリットを享受 でき、MLアプリケーションの開発がスムーズになります。 user_id event_timestamp 特徴量1 … 001 2025-11-21 00:00:00 200 … 002 2025-11-21 00:00:00 150 … … … … … オンライン特徴ストア ③学習 ③返却 アプリケーション 機械学習モデル API ①推論をリクエスト ②特徴量をリクエスト ④推論結果を返却 赤色:学習 水色:推論 データリークを 予防できる! ①特徴量をリクエスト ②返却 FeatureSpec user_id event_timestamp 特徴量1 … 001 2025-11-20 00:00:00 100 … 001 2025-11-21 00:00:00 200 … 002 2025-11-20 00:00:00 100 … 002 2025-11-21 00:00:00 150 … … … … … オフライン特徴ストア
  19. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 26

    特徴ストアが解決すること 特徴ストアがあると、データリークの予防や、学習 / 推論でデータ作成のロジックの統一などのメリットを享受 でき、MLアプリケーションの開発がスムーズになります。 ③学習 アプリケーション 機械学習モデル API ①推論をリクエスト ④推論結果を返却 赤色:学習 水色:推論 学習と推論で データ取得ロジックを 揃えられる! ①特徴量をリクエスト ②返却 ③返却 FeatureSpec ②特徴量をリクエスト user_id event_timestamp 特徴量1 … 001 2025-11-20 00:00:00 100 … 001 2025-11-21 00:00:00 200 … 002 2025-11-20 00:00:00 100 … 002 2025-11-21 00:00:00 150 … … … … … user_id event_timestamp 特徴量1 … 001 2025-11-21 00:00:00 200 … 002 2025-11-21 00:00:00 150 … … … … … オフライン特徴ストア オンライン特徴ストア
  20. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 27

    特徴ストアが解決すること 特徴ストアがあると、データリークの予防や、学習 / 推論でデータ作成のロジックの統一などのメリットを享受 でき、MLアプリケーションの開発がスムーズになります。 user_id event_timestamp 特徴量1 … 001 2025-11-20 00:00:00 100 … 001 2025-11-21 00:00:00 200 … 002 2025-11-20 00:00:00 100 … 002 2025-11-21 00:00:00 150 … … … … … ①特徴量をリクエスト オフライン特徴ストア ②返却 ③学習 アプリケーション 機械学習モデル API ①推論をリクエスト ④推論結果を返却 ③返却 ②特徴量をリクエスト FeatureSpec user_id event_timestamp 特徴量1 … 001 2025-11-21 00:00:00 200 … 002 2025-11-21 00:00:00 150 … … … … … 赤色:学習 水色:推論 オンライン特徴ストア 低レイテンシで 特徴量を提供できる!
  21. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 28

    公式のサンプル実装 Databricks の公式ドキュメントにて、Lakebase を使用したオンライン特徴量ストアのサンプル実装が公開 されています。ご興味ある方は、ぜひ動かしてみてください! https://docs.databricks.com/aws/ja/machine-learning/feature-store/online-feature-store
  22. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 30

    エージェントシステムとは エージェントシステムとは、 目標を達成するための環境を自律的に認識し、決定し、行動することができるAI駆 動型のシステムです (※ https://docs.databricks.com/aws/ja/generative-ai/guide/introduction-generative-ai-apps より引用) https://docs.databricks.com/aws/ja/generative-ai/guide/introduction-generative-ai-apps より引用
  23. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 31

    エージェントのメモリ エージェントにメモリを持たせることで、セッション内、セッション間で情報を共有するステートフルなエージェントを 実現することが可能です。 https://blog.langchain.com/semantic-search-for-langgraph-memory/ より引用
  24. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 32

    例:ChatGPT のメモリ機能 メモリ機能は ChatGPT にも実装されており、ユーザーとの対話情報をもとに保存してくれます。
  25. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 33

    短期記憶と長期記憶 LangGraph(AIエージェントの開発フレームワーク)には、セッション内で使用する短期記憶と、セッション横 断で共有する長期記憶があります。どちらも Postgres による実装がパッケージ化されています。 短期記憶 (Short-term) ✓ 進行中の会話コンテキストを保持し、同一スレッド 内の応答精度・一貫性を向上 ✓ メッセージ履歴 ✓ アップロードファイル ✓ 生成物 など ✓ InMemory + Checkpointer(標準) ✓ SQLiteSaver langgraph-checkpoint-sqlite ✓ PostgresSaver langgraph-checkpoint- postgres ✓ RedisSaver langgraph-checkpoint-redis 長期記憶 (Long-term) ✓ ユーザ/アプリ全体で共有し、学習内容やパーソナ ライズ情報を永続化 ✓ セマンティック(事実) ✓ エピソード(経験) ✓ プロシージャル(ルール)など ✓ InMemoryStore(開発用) ✓ PostgresStore(pgvector 検索対応) ✓ RedisStore(高速+ベクトル検索) 用途 格納する情報 使えるストレージ
  26. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 34

    短期記憶 短期記憶が接続されたエージェントは、ユーザーとの会話を自動的に逐一保存します。
  27. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 35

    例: 短期記憶を使ったコンテキストの節約 会話が進むごとに、会話履歴の要約 + 履歴の削除を行うことで、会話が進むたびに入力トークンが増大し続 け(=コンテキスト爆発)応答性能が下がることを防ぐことができます。 https://blog.langchain.com/semantic-search-for-langgraph-memory/ より引用
  28. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 36

    長期記憶 store = PostgresStore( connection_string="postgresql://user:pass@localhost:5432/dbname", index={ "dims": 1536, "embed": init_embeddings("openai:text-embedding-3-small"), "fields": ["text"], }, ) store.setup() store.put(("docs",), "doc1", {"text": "Python tutorial"}) results = store.search( ("user_123", "interactions"), query=state["messages"][-1].content, filter={"type": "conversation"}, limit=3 ) 長期記憶が接続されたエージェントは、セッションを跨いで記憶を共有することが可能です。pgvector による セマンティック検索も可能です。 長期記憶のセットアップ (埋め込みモデルを指 定) データ挿入 長期記憶へのクエリ (pgvector によるセマ ンティック検索) https://blog.langchain.com/semantic-search-for-langgraph-memory/ より転載
  29. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 37

    例: 長期記憶を使った行動履歴の保存 長期記憶にAIエージェントの行動・経験を記録しておいて、似たようなタスクでの再現性、回答精度の向上を 図ることができます。 〇〇について調査して △△について調査して 計画 ツールA利用 評価 ツールB利用 ︙ 行動履歴を書き出し 行動記録を読み出し 計画 ツールA利用 評価 ツールB利用 ︙ 行動を再現
  30. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 38

    公式のサンプル実装 Databricks の公式ドキュメントにて、Lakebase を使用したステートフル エージェントのサンプル実装が公 開されています。ご興味ある方は、ぜひ動かしてみてください! https://docs.databricks.com/aws/ja/generative-ai/agent-framework/stateful-agents