Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DatabricksのLLM機能アップデート - ML15min

DatabricksのLLM機能アップデート - ML15min

こちらのイベントで使用したスライドです。2024/1時点の内容です。

第85回 Machine Learning 15minutes! Hybrid - connpass https://machine-learning15minutes.connpass.com/event/305434/

Takaaki Yayoi

May 16, 2024
Tweet

More Decks by Takaaki Yayoi

Other Decks in Technology

Transcript

  1. ©2024 Databricks Inc. — All rights reserved | Confidential and

    proprietary 1 データブリックス・ジャパン Databricks アカウントSA部 部長 弥生 隆明 DatabricksのLLM機能 アップデート 2024/1/27
  2. ©2024 Databricks Inc. — All rights reserved 自己紹介 弥生 隆明

    (やよい たかあき) Databricks アカウントSA部 部長 ▪ 2020年からデータブリックス ジャパンにお いて、プレセールス、POCに従事 ▪ 前職はコンサルティングファーム、 総合電機メーカーにてデータ分析・Web サービス構築などに従事。 インド赴任経験あり。 ▪ Qiitaでいろいろ書いています。 2 @taka_aki
  3. 生成AIによるレイクハウスの進化 Databricks データ インテリジェンス プラットフォーム 日時: 2024年2月7日(水)16:00 URL: https://events.databricks.com/democratize-data-ai-jp イベント概要

    振り返ってみると、 2023年は生成AI元年と言える年になりました。 GPT-4の 発表をきっかけに大規模言語モデル (LLM) の活用が進みました。そして、 大規模言語モデルとのインタフェースが自然言語であることから、 最もホット なプログラミング言語は英語である という発言が 注目されました。これは自然言語で大規模言語モデルに指示を行うことで、 要約、翻訳、Q&A、コード生成など様々なことが行えるようになったことを指し ており、日本語もまた新たなプログラミング言語になっていると言っても過言 ではありません。 このような流れを受けて、 Databricksは生成AIをすべての企業、人々が活 用できるようにするために、生成 AIを用いてレイクハウスを データ インテリジェンス プラットフォーム に進化させることを 2023年11月に発表しま した。本セッションでは、レイクハウスの説明からスタートし、データ インテリ ジェンス プラットフォームへの進化の経緯、提供 機能をデモを交えながらご説明します。
  4. ©2024 Databricks Inc. — All rights reserved 投資 $3B 市場価値は5兆円以上

    従業員数 6000+ (3年前は1500人) 収益(ARR) $1B+ (1,360億円) データレイクハウスの 発明者でパイオニア 導入企業数 10000+ レイクハウスカンパニー のクリエーターが 2013年に起業 知る人ぞ知るデカコーン Databricksは2022年も 攻勢を続ける | Coral Capital
  5. ©2024 Databricks Inc. — All rights reserved | Confidential and

    proprietary Databricksの使い方イメージ Python/R/SQL
  6. ©2024 Databricks Inc. — All rights reserved | Confidential and

    proprietary 1. RAG開発をサポートする新機能 2. 自然言語によるデータ分析 6
  7. ©2024 Databricks Inc. — All rights reserved | Confidential and

    proprietary Databricksの使い方イメージ Python/R/SQL (2) 生成AIによる自然言語を用いたデータ分析 (1) 生成AIアプリケーションの構築支援
  8. ©2024 Databricks Inc. — All rights reserved Unity Catalog |

    Lakehouse Monitoring RAGは生成AIデザインパターンの一つです プロンプト エンジニアリング Retrieval Augmented Generation (RAG) ファイン チューニング 事前学習 LLMの挙動をガイドする 特殊なプロンプトの作成 企業データとLLMの 組み合わせ 特定のデータセット ドメインに事前学習済み LLMを適応 スクラッチでLLMを トレーニング 複雑化/大量の計算資源
  9. ©2024 Databricks Inc. — All rights reserved RAGでは(トレーニングデータではない)企業データ をベースに生成AIがレスポンスを生成 します

    RAGアプリケーション 適切な データの収集 (Retrieve) データによる プロンプトの拡張 (Augment) ユーザーへの レスポンス ユーザー クエリー LLMによる回答の 生成(Generate) 企業データ 生成AIモデル
  10. ©2024 Databricks Inc. — All rights reserved RAGアプリケーションには様々な コンポーネントが必要となります アプリケーション

    RAGチェーン モニタリング データ & ベクトル準備 パイプライン データ & ベクトルの サービング モデル データの格納、ガバナンス
  11. ©2024 Databricks Inc. — All rights reserved Databricks AI 紫

    = 最近アップデートのあったコンポーネント AIモデル & ツール クラウドストレージ データの準備 AI開発 & 評価 AIサービング SQL ワークフロー DLT Feature Serving モデルサービング Models in UC ノートブック マーケットプレース AI Functions レイクハウスモ ニタリング Spark AutoML Databricks AI固有の機能 Lakehouse共通機能 Unity Catalog MLflow CI/CD サポート OpenAI … Delta ボリューム ファインチューニング * データサービング データ & AI ガバナンス MLOps + LLMOps Hugging Face Features in UC MLflow (Track/Evaluate) 外部サービス Vector Search ランタイム Lakehouse Apps Function Serving AI Playground Feature Store
  12. ©2024 Databricks Inc. — All rights reserved モデルサービング APIとしてモデルをウェブサイトやアプリケーションにインテグレーション 1.

    プロダクションレベルのサービングで管理の オーバーヘッドを排除 : 小規模、大規模のワー クロードで動作する高可用性、 低レーテンシー、サーバレスのサービング 2. レイクハウスと統合されたサービングによって デプロイメントを加速 : デプロイメントを自動化 し、エラーを削減する自動特徴量 検索、モニタリング、統合ガバナンス 3. 簡素化されたデプロイメントでチームを支援 : UI やAPIを通じたシンプルで柔軟性のある デプロイメント
  13. ©2024 Databricks Inc. — All rights reserved Databricks Model Serving

    サービスに必要なすべてのモデルを一元管理 Model Serving Custom Models Foundation Model External Model MLflowで管理されたサーバーレスコン ピュートで、あらゆるモデルを REST API としてデプロイ。 CPUとGPU。 Feature Storeおよび Vector Searchとの統合。 外部モデルとAPIを管理する。 これは、MLflow AI Gatewayのガバナ ンスに加え、従来の Databricks Model Servingのモニタリングとペイロードロギ ングを提供します。 Databricksはトップクラスの Foundation Modelsを厳選し、シンプルな APIで提供し ています。 サービングの準備をしなくても、すぐに実 験を始めることができる。