Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

Databricksの生成AI戦略

 Databricksの生成AI戦略

過去のウェビナーで使ったスライドです。

Takaaki Yayoi

May 13, 2024
Tweet

More Decks by Takaaki Yayoi

Other Decks in Technology

Transcript

  1. ©2023 Databricks Inc. — All rights reserved | Confidential and

    proprietary 1 Databricksの生成AI戦略 Databricks Japan ソリューション・アーキテクト部 部長 弥生 隆明
  2. 自己紹介 弥生 隆明 (やよい たかあき) Databricksソリューションアーキテクト部部長 ▪ 2020年からデータブリックス ジャパンにおいて、プレセー ルス、POCに従事

    ▪ 前職はコンサルティングファーム、総合電機メーカーにて データ分析・Webサービス構築などに従事。 インド赴任経験あり。 ▪ GWはLLMの勉強が捗りました。 ▪ Qiitaでいろいろ書いています。
  3. ©2023 Databricks Inc. — All rights reserved | Confidential and

    proprietary アジェンダ • Databricksのご紹介 • LLMの波 • Databricksの戦略 • Databricksにおける生成AIの活用 3
  4. ©2023 Databricks Inc. — All rights reserved 投資 $3B 市場価値は5兆円以上

    従業員数 5000+ (3年前は1500人) 収益(ARR) $1B+ (1,360億円) データレイクハウスの 発明者でパイオニア 導入企業数 10000+ レイクハウスカンパニー のクリエーターが 2013年に起業 知る人ぞ知るデカコーン Databricksは2022年も 攻勢を続ける | Coral Capital
  5. ©2023 Databricks Inc. — All rights reserved | This information

    is confidential, please do not share externally 多くの企業がいまだデータ&AIに苦戦しています Data + AIの成熟度 競合優位性 クリーン データ レポート アドホッククエ リー データ 探索 予測 モデリング 機械 学習 生成型 AI データの理解 何が起きる? 何が起きた? 完全なAIの変革 6
  6. ©2023 Databricks Inc. — All rights reserved | This information

    is confidential, please do not share externally Data Lake Governance 現在、皆様はあまりに多くのプラットフォームをつなぎ 合わせています Data Science & ML Streaming Orchestration Data Warehouse Business Intelligence データのサイロは 高価なオペレーションコストを引 き起こします 一貫性が無いポリシーは データの信頼性を損ないます バラバラなツールはチーム間の 生産性を悪化させます これら全ては無駄に高価で複雑です
  7. ©2023 Databricks Inc. — All rights reserved BI & データウェ

    アハウス データエンジニ アリング データストリーミ ング データサイエン ス & ML 複数ペルソナをサポートする単一のプラットフォーム 構造化データ、準構造化データ、非構造化データ すべてを格納、管理する単一のプラットフォーム データレイクハウスは異なるアプローチを取ります クラウドデータレイク すべての生データ (ログ、テキスト、音声、動画、画像) 企業全体におけるすべてのデータアクセスに対する 単一のセキュリティ、ガバナンスモデル
  8. ©2023 Databricks Inc. — All rights reserved 複数ペルソナをサポートする単一のプラットフォーム Delta Lake

    Unity catalog Databricks SQL Databricks ワークフロー Delta Live Tables Databricks ML Databricksは唯一の統合レイクハウスを提供します クラウドデータレイク すべての生データ (ログ、テキスト、音声、動画、画像)
  9. ©2023 Databricks Inc. — All rights reserved | Confidential and

    proprietary LLM(Large Language Model)概況 これをまとめることが一番難易度高いかもしれません。時はまさにLLM時代! • 2022/11 OpenAIがChatGPTを発表 • 2023/2 Meta AIがLLaMA(Large Language Model Meta AI) • 2023/2 GoogleがBardを発表 • 2023/3 OpenAIがGPT-4を発表 • 2023/3 Azure OpenAI ServiceでChatGPTが利用可能に • 2023/3 DatabricksがDollyを発表 • 2023/3 OpenAI CEOが岸田首相と面会 • 2023/4 アリババクラウドが通義千問(Tongyi Qianwen)を発表 • 2023/4 Amazon.comが生成AIサービス提供を発表
  10. ©2023 Databricks Inc. — All rights reserved | Confidential and

    proprietary LLM(Large Language Model)概況 これをまとめることが一番難易度高いかもしれません。時はまさにLLM時代! • 2023/4 DatabricksがDolly 2.0を発表 • 2023/4 パナソニック ホールディングスがグループ国内全社員を対象にChatGPTをベース に構築したAIアシスタントサービス「PX-GPT」を利用開始したと発表 • 2023/5 MosaicML Foundationが商業利用可能なオープンソースLLM、MPTシリーズをリ リース • 2023/5 Google Bardが日本語に対応 • 2023/5 サイバーエージェント、国内最大級の日本語LLMを公開 • 2023/5 AI Shift、カスタマーサポートに特化した各企業専用LLM構築サービスを提供開始 • 2023/5 マイクロソフトは23日、ChatGPTにBingを搭載すると発表
  11. ©2023 Databricks Inc. — All rights reserved | Confidential and

    proprietary LLM(Large Language Model)概況 これをまとめることが一番難易度高いかもしれません。時はまさにLLM時代! • 2023/6 OpenAIがGPT-4、GPT-3.5ファミリーの最新モデルをリリース • 2023/6 経団連が大規模言語モデルに関する政策提言を発表 • 2023/6 マイクロソフトが大規模言語モデルphi-1を発表
  12. ©2023 Databricks Inc. — All rights reserved | Confidential and

    proprietary お客様からのLLMに関するご 質問 LLMはハイプなの かリアルなのか? これはiPhoneのよ うなモーメントなの か? LLMは我々の ビジネスにとって脅 威なのか 機会なのか? 競合優位性を得る ために具体的にど のようにLLMを使 えばいいのか? LLMと自分のデー タをどのように活用 すればいいのか? ©2023 Databricks Inc. — All rights reserved | Confidential and proprietary 14
  13. ©2023 Databricks Inc. — All rights reserved | Confidential and

    proprietary 我々はDollyのようなモデルが LLMの民主化に役立ち、限られた 数社のみが購入できるものから全 ての企業が自身の製品を改善する ために所有、カスタマイズできるコ モディティになるものと信じていま す。 03/24/2023 Link “Vicuna: オープンソースチャットbotが ChatGPTの90%*の品質でGPT-4にプ レッシャーを与えています” Link LLMはハイプではなく AIゲームを一変させます 稀に見る技術のシフトです “LLaMAのようにより小規模で高性能な モデルは...このように重要で変化の激し い領域においてさらなるアクセスの民主 化を実現しています...” 0/2/24/2023 Meta’s LLaMA “GPT-4は試験に通過しようとする弁護 士の90%に打ち勝っています” 03/14/2023 Link 15
  14. ©2023 Databricks Inc. — All rights reserved | Confidential and

    proprietary 私のビジネスにどのような意味が? LLMは数多くの人間によるタスクの自動化を実現し、以前のMLアプローチ よりも迅速な価値創出と優れたROIを提供します 16 少数のラベルで簡単にモデル品質を改善 → ラベリング のコストを削減しつつもビジネス成果を改善 MLOpsとプロダクション化の複雑性の削減 → それぞれ のユースケースで求められるエンジニアリング工数を削 減 以前は困難だったユースケースが簡単に → 高コストの 特殊サービスを内製の実装で置き換え ML開発ライフサイクルの加速 → 必要となるヘビーリフ ティングを削減することで価値創出に至る時間が数ヶ月 から数週間に ML開発プロセスがよりアクセスしやすく → いくつかの ユースケースはSQLを使えるアナリストのみで 提供可能に 以前は不可能だったユースケースが実現可能に → ビジ ネスにおいてさらなるアイデアに対応可能に イノベーションの加速 ROIの増加
  15. ©2023 Databricks Inc. — All rights reserved Confidential and Proprietary

    Dolly開発の背景 ChatGPTのパフォーマンスは素晴らしいものですがプロプライエタリです • プロプライエタリの指示追従モデルであるChatGPTは2022年11月にリリースされ、世 界中に嵐を巻き起こしました。このモデル Webからの数兆の単語でトレーニングされ、 開発には膨大な数のGPUを必要とします。 • これは、Googleや他の企業による自身のプロプライエタリな指示追従モデルのリリー スにつながりました。2023年2月には、Metaが学術分野の研究者向けにLLaMAと呼 ばれる、それぞれが80,000GPU時間以上トレーニングされた一連の高品質な言語モ デルへの注力を発表しました。 • そして、3月にはスタンフォードでLLaMAをベースとし、50,000の人間のような質疑応 答の小規模データセットにチューニングされた Alpacaモデルを構築し、驚くべきことに ChatGPTのようなインタラクティブ性を示しました。
  16. ©2023 Databricks Inc. — All rights reserved Confidential and Proprietary

    Dolly開発の背景 ChatGPTのパフォーマンスは素晴らしいものですがプロプライエタリです • 企業がAPIの先にあるプロプライエタリモデルを提供する集中管理された LLMにデータ 送信するのではなく、自身のモデルを構築することを望む理由は多数存在します。 • 多くの企業において、AIによるメリットを享受できる問題やデータセットは、自分たちに とって最もセンシティブでプロプライエタリな知的財産 であり、サードパーティにそれを引 き渡すことは受け入れ難いことかもしれません。さらに、企業においては、モデルの品 質、コスト、望まれる挙動に関してそれぞれのトレードオフを持っているかもしれませ ん。多くのMLユーザーは、自分たちのモデルを直接所有することが長期的にベストで あると我々は信じています。
  17. ©2023 Databricks Inc. — All rights reserved Confidential and Proprietary

    プロプライエタリなSaaS LLM オープンソースLLM コントロール/所有権 ベンダーによるコントロール、 所有 完全にオープン、ご自身でカス タマイズ可能 セキュリティ/プライバシー データはDatabricks環境外に データはお使いのDatabricks 環境に存在 カスタマイゼーション ベンダー依存 完全にカスタマイズ可能 透明性 内部のコード、モデルの重み、 トレーニングデータは不明瞭な 箱の中です コード、モデルの重み、トレーニ ングデータは100%オープンで 利用可能です アクセス方法 API経由でアクセスし、サード パーティのSLAに依存 自分、あるいはベンダーによる ホスト コスト/品質 様々です - すべてのユースケースで「ベスト」な 単一のモデルは存在しません GPT-J 例: LLaMA Dolly 我々は世界 がオープン ソースLLM にシフトして いると信じて います 20
  18. ©2023 Databricks Inc. — All rights reserved | Confidential and

    proprietary ご自身の要件に応じてオー プンソースモデルをチューニ ングし、あなたのデータがど こでどのように処理されるの かに関して完全にコントロー ルできます 高品質な生成型LLMのト レーニングをシンプル、安 価、高速にします GPUのデータセンターや PhDのチームを必要とすべ きではありません お客様はクローズドソース SaaSのLLMの制限なしに 高品質なLLMへのアクセ スを必要としています 小規模かつお客様自身のデータセットで大規模モデルを どのようにチューニングするのかを示すために 我々はDollyを開発しました 21
  19. ©2023 Databricks Inc. — All rights reserved Confidential and Proprietary

    Dollyとは 民主化されたオープンソースの大規模言語モデルです • Dollyは、Q&A、要約、コンテンツ生成の様なChatGPTによって一般的なものとなった 挙動を示す大規模言語モデルです。 • DollyはChatGPTを置き換えるものではありませんが、非常に有用なものであり、すぐ にでもさまざまなことを行うことができます! • Dollyはトレーニングと実行において小規模かつ安価です。 • ご自身の問題空間において、モデル出力を改善するために自分のデータを用いて容易 にチューニングできます。 • Dolly 1.0はオープンソースであり、探索目的で企業が活用することができますが、商 用アプリケーション向けにライセンスされていません
  20. ©2023 Databricks Inc. — All rights reserved Confidential and Proprietary

    Dollyはモデルカスタマイズの価値を証明します ターゲットデータを用いて既存モデルをチューニングすることで、少ないコストで大き な価値をもたらす高品質な結果を生み出します。 • 約30分の処理時間と$30のコストで、5万の質問/回答ペアの研究データに対して、数 年もののオープンソースモデル(GPT-J by EleutherAI)をファインチューニング(リファイ ンなど)することでDollyは構築されました。 • Dollyは、ターゲットトレーニングセットに対して小規模なベースモデルをファインチューニ ングすることで、最先端の成果を生成することを示しています。 • Dollyの構築に用いられた技術は、より狭いユースケースにおいて人間を上回る成果を 生み出すためにも活用されています。 • Dollyは、一般的なQ&A以外のユースケースを容易にサポートする様にさらにファイン チューニングすることができます。
  21. ©2023 Databricks Inc. — All rights reserved Confidential and Proprietary

    Dollyは私のビジネスにどの様な意味が? ターゲティングされたデータを用いて既存モデルをチューニングすることで、少ないコ ストで非常に価値のある高品質な結果を生み出すことができます。 • Dollyは生成型言語AIを活用する際のコストと複雑性を劇的に削減します。 • Dollyは最先端のLLMよりも20倍小さく、それ自体が品質、スピード、コスト間のトレードオフに 対して意味のあるインパクトをもたらす可能性を秘めています。 • Dollyは皆様の企業におけるシングルマシンで完全に動作します。 • DollyはChatGPTの様なモデルに含まれている広範な事実に関する情報を有していません が、ご自身のユースケースにおいて非常に深い理解をする様にファインチューニングすること ができます。
  22. ©2023 Databricks Inc. — All rights reserved Confidential and Proprietary

    Dolly 1.0のリリース 国内外で大きな反響がありました • 3/25にDolly 1.0を発表するブログ記事が投稿され、非常に多くのいいねをいただきました。
  23. ©2023 Databricks Inc. — All rights reserved | Confidential and

    proprietary Dolly 1.0から Dolly 2.0へ 26
  24. ©2023 Databricks Inc. — All rights reserved Confidential and Proprietary

    Dolly 2.0で何がNewなのか? Dollyが商用利用できるようになりました • DatabricksではDollyの次バージョンを導入しました - Dolly 2.0 • Dolly 2.0は商用利用にライセンスされ、人が作成したデータセットを用いてファインチューニング された、世界初のオープンソースの指示準拠LLMです。 • Dolly 2.0は人が作成したプロンプトとレスポンスデータセット Databricks-dolly-15k を用 いてトレーニングされており、このデータセットもオープンソース化されています。 • Dolly 2.0によって、すべての企業は商用のためにパワフルな言語モデルの所有、オペレーショ ン、カスタマイズが可能となります。 • トレーニングコードはこちらのノートブックでオープンソース化されています。 • こちらからDolly 2.0モデルの重みやデータセットをダウンロードできます。
  25. ©2023 Databricks Inc. — All rights reserved Confidential and Proprietary

    どのようにデータセットを準備したのか? CEOの声がけのもと、人力で作りました。 • 数千ドルと数時間を費やし、人間が生成した 15KのQ&Aデータセットで12Bパラメータのオープンソース モデル(EleutherAIのPythia)をファインチューニングして、 Dolly 2.0が構築されました。 • Dolly 1.0のリリースの数日後、弊社 CEO Ali Gohdsiからこのようなメッセージが届きました。 やあ、bricksters(Databricks社員のこと) みんなの助けが必要だ! DollyはOpenAIのプロプライエタリなデータセットを使って 作成されたので、完全にオープンにできないんだ。自分たちの Q&Aを作成する必要 がある。我々にはスマートな数千の bricksterがいる。誰でも参加できるから、質問と goodな回答を書いてね!
  26. ©2023 Databricks Inc. — All rights reserved Confidential and Proprietary

    Dolly 2.0のリリース 国内外で大きな反響がありました • 4/13にDolly 2.0を発表するブログ記事が投稿され、非常に多くのいいねをいただきました。
  27. ©2023 Databricks Inc. — All rights reserved Confidential and Proprietary

    Dolly 2.0のリリース オープンソースの素晴らしさを体験しました • Dolly 2.0リリース後の週末に様々な動きがあ りました。 • 有志の方の手によって、 Databricks-dolly-15k が日本 語に翻訳される。 • リリースから24時間以内に翻訳された のは日本語とスペイン語のみ。 • それ以降も上記データセットでファイン チューニングされたモデルなどが公開。
  28. ©2023 Databricks Inc. — All rights reserved | Confidential and

    proprietary 32 LLMは質の高いデータに依存 します。 Databricksは皆様のデータ チームがLLMのパワーをクイックか つ容易に組織全体に提供する支援 をする統合データ&AI プラットフォームです。
  29. ©2023 Databricks Inc. — All rights reserved | Confidential and

    proprietary LLM実装の課題 ✖ ✖ ✖ 俊敏であること LLMを自分でカスタマイズ コントロール、保護できること 自分の既存データと LLMを接 続できること 皆様の競合もLLMに飛びつ いており、競合に遅れを取ら ないようにする必要がありま す — 価値の出るユースケー スにクイックに取り組むには どうすれば? プロプライエタリなSaaSの LLMではサードパーティに データを送信する必要があ り、競合優位性を損なう可能 性があります。あなた自身の データを用いて、あなたが所 有&コントールするLLMをカス タマイズするには? 他の形態の機械学習と同じよ うに、LLMはご自身のデータ と密接に結び付けられたデー タ戦略を必要とします — あな たの全ての既存データソース とLLMをうまく接続するに は? 33
  30. ©2023 Databricks Inc. — All rights reserved | Confidential and

    proprietary Databricks + LLM ✓ ✓ ✓ SQLにおけるLLM + ETLパイ プライン + リアルタイムAPI オープンソースを筆頭とした全 てのLLMのサポート レイクハウスにおける統合 インタラクティブSQL、Delta Live Tables、リアルタイムAPI 経由での容易なLLMアクセ ス。もちろん、Python IDE/ ノートブック からLLMを活用できます! プロプライエタリSaaSの LLMと オープンソースLLMのサポー ト。それぞれのユースケースに おける品質、コントロール、カス タマイズ性の適切なバランスを 見つけ出すためのオープンソー スLLMの容易なトレーニングと ファインチューニング。 レイクハウスにおける企業データ とのセキュアなインテグレーショ ン。他のベンダーやサービスに データをコピーする必要はありま せん。 モデルサービス、特徴量ストア、 MLOps(LLMOps)、データモニタ リングとの統合。 34
  31. ©2023 Databricks Inc. — All rights reserved | Confidential and

    proprietary サンプルユースケース • コールセンター記録からトップの製品 問題の抽出—手動でのタグづけなし に! • カスタマーサポートのチャットログに 基づく解約リスクのある顧客をタグづ け • 広告キャンペーン用の製品説明の自 動生成 • 購買決定基準を理解するために製品 レビューの読み込み …などなど… LLMを通じて非構造化テキストから洞察を得るた めのSQLやDLTパイプラインの記述 35
  32. ©2023 Databricks Inc. — All rights reserved | Confidential and

    proprietary 36 • 新たなフレーバーのサポート ◦ Hugging Face Transformers ◦ OpenAI API ◦ LangChain • アーティファクトの並列ダウンロードのサ ポート MLflowでは大幅にLLM サポートを拡大 🦜🔗 MLflow 2.3のご紹介:ネイティブLLMのサポートと新機能による強化 - Qiita MLflow 2.3のHugging Faceトランスフォーマーのサポートを試す - Qiita MLflow 2.3のLangChainのサポートを試す - Qiita DatabricksでMLflow 2.3のOpenAI APIのサポートを試す - Qiita
  33. ©2023 Databricks Inc. — All rights reserved | Confidential and

    proprietary LLMで実現された技術 Databricksのお客様におけるLLMユースケース データQ&A: 知識への アクセスを民主化 非構造化データに関 する構造化された洞察 をシンプルに 知識労働者の日常の タスクの効率を改善 既存機械学習モデル の改善 • 今週のコールセンター口述 記録に基づいたトップ 5の 問題は何か • どのカスタマーレビューが、 欠陥による問題を説明して いるのか?それは、過去 2 週間でスパイクしたのか? • コールセンタースタッフが 過去すべてのサポートチ ケットに質問することが可 能に • 自分の分析ニーズに最も 合致するDeltaテーブルが どれかをユーザーが質問 • 自身の不正検知モデルに顧 客フォーラム投稿を追加 • 顧客が記述したフィードバッ クに基づいて製品レコメン デーションモデルをチューニ ング • データに関する質問を行 い、SQLクエリーのドラフト を取得 • ランディングページを説明 し、HTMLコードのドラフトを 取得 • パーソナライズされたマー ケティングメッセージの自 動化 37
  34. ©2023 Databricks Inc. — All rights reserved | Confidential and

    proprietary より広範なAIユースケースにおけるLLM • 企業申請、収支報告、マーケットイン テリジェンス • ESG戦略、取り組みの抽出 • 主訴の評価、不正や不法行為 • 署名、ポリシーレビューや比較の高速 化 • カスタマーサービスサポート - 自動 化、Q&Aなど • リスク管理文書のモデル • 定性的分析のための自動データ取り 込み • 資産管理 & ネクストベストアクション • ポリシーや規制の検索エンジン • 新入社員のオンボーディング • 患者 / メンバーのエンゲージメント • R&D / 医療レポートの要約 • 顧客セグメンテーション & 感情分析 • ネクストベストアクション (処方) • 医療文献の合成 • 薬品用途の再設定 • 臨床試験分析 • パーソナライズされた治療 • 医療情報 / 効果の取得 & 要約 • 診療の判断 & ケア調整の意思決定 のサポート • 医療教育 & トレーニング • 医療のコーディング & 請求 • 承認前の自動化 • アプリ内コンテンツ発見 / 検索 • コンテンツの翻訳 • コンテンツ作成 • コンテンツ製造 • コンテンツライブラリのメタデータタグ 付け • パーソナライズされた Email/デジタリ マーケティングの作成 • コンセプトアート (ゲーム) • 製品 / ゲームのレビュー • カスタマーサポート / コールセンター オペレーション • フィールドオペレーションサポート • 製品検索 • 画像ベースの検索 • カスタマーサービスのルーティング & Chat-bot • 製品レコメンデーション • パーソナライズされたコンテンツの 生成 • 画像生成 • 店舗内キオスク • SEO最適化 • 競合 / 市場の要約 • 文書発見 • スマートコックピットのための会話型 AI • フィールドサービスのトラブルシュー ト & サポート • 規範的メンテナンスアクション • 技術的な要約 (SOPs, 作業指示な ど) • 日々の製造 / シフトのレビューのた めの分析の自動化 • OT開発チームの拡張 • 設計/エンジニアリングの変更分析 • トレーニング - ドメイン知識のキャプ チャ & 普及 サイバー セキュリティ • ログ / テレメトリデータに対する自 然言語クエリー 金融サービス ヘルスケア & ライフサイエンス 製造 通信、メディア & エンターテイメント 小売 & 消費財 • 事故調査のコパイロット • AI生成アーティファクトの検知 (マル ウェア、ディープフェイクなど ) • セキュリティポリシーや脅威ナレッジベースの Q&Aや 要約 お客様からもたらされた稼働中の例のインベントリ
  35. ©2023 Databricks Inc. — All rights reserved | Confidential and

    proprietary ヘルスケアにおける高優先度のLLMユースケース 医療情報取得 診療の意思決定 サポート 患者コミュニケーション & エンゲージメント 医療の教育 & トレーニング ヘルスケア専門家の医療情報へのアクセスを促進し、治療の特 定や病気の理解を支援します 患者データの分析を支援し、パターン特定や治療提案を通じた情 報に基づく意思決定を実現します チャットbotやバーチャルアシスタントをサポートし、患者コミュニ ケーションやパーソナライズされた健康アドバイスを通じたガイド を強化します スキルの訓練を促進し、ヘルスケア専門家が技術の進歩でアップ デートされるようにすることで、医療教育をスムーズにします ユースケースの領域 説明 データソース EHR, 医療者ノート , 主訴, 病歴, ラボ / 病理 レポート, 医療ポリシー , 治療利用管理ガイ ドライン EHR, 主訴, 効果の説明 , 医療者ノート , ラ ボ / 病理レポート , 承認前申請書 EHR, コールセンターのログ , 主訴, 医療 者ノート, ラボ / 病理レポート , 患者から 報告された成果 医療ポリシー , 治療利用管理ガイドライン ,医 療研究 (JAMA)
  36. ©2023 Databricks Inc. — All rights reserved | Confidential and

    proprietary ライフサイエンスにおける高優先度のLLMユースケース 委託研究機関の レポート要約 顧客セグメンテーション ネクストベスト アクション 医療文献合成 規制機関のレビューや承認に提出する R&D / グローバル医療の 委託研究機関のレポート要約生成をスピードアップします 顧客レビューに基づく感情分析や顧客セグメンテーションを実施 します 医療サービス提供者にセールス担当の記述を要約し、次のス テップを提案するために活用します 公開されている科学文献と内部のナレッジベースを処理、合成す ることで、最新の発見でアップデートされるようにし、新たな研究 仮説を特定します 委託先の研究レポート 顧客レビュー , デモグラフィック情報 , CRM CRM, セールス担当の記述 Pubmed, 内部知識ベース ユースケースの領域 説明 データソース
  37. ©2023 Databricks Inc. — All rights reserved | Confidential and

    proprietary メディア&エンタメにおける高優先度 LLMユースケース コンテンツ発見 & 検索 コンテンツの 再パッケージ 広告/マーケティング 向けコンテンツ生成 プレーヤー フィードバック 消費者が見るものを探している際の「コールドスタート」問題を軽 減します 新たな資産を作成する際に、製作者がコンテンツのバックカタロ グをクイックかつ効率的に移動することを支援します ドラフトのコピーと画像を生成することで、メールや広告のコンテ ンツ作成を加速します ユーザーレビューを分析し、製品開発をガイドするために洞察を 活用します クリックストリーム , コンテンツのメタデータ 動画資産, クローズキャプションファイル , コンテンツメタデータ 動画, 画像, 文章 オンラインゲーム (steamなど) ユースケース領域 説明 データソース
  38. ©2023 Databricks Inc. — All rights reserved | Confidential and

    proprietary 通信における高優先度LLMユースケース カスタマーサポート フィールド オペレーション チャット / Q&Aを用いてカスタマーサポートのを自動化します 技術者のトラブルシュートプロセスをシンプルにすることで、オン サイトにおける問題解決の時間を短縮します 顧客アカウントデータ , 製品ガイド, 内部ドキュメント 製品ガイド, 内部ドキュメント ユースケース領域 説明 データソース 根本原因分析 問題の診断を容易にすることで、対顧客の問題解決の時間を 短縮します ネットワークデータ
  39. ©2023 Databricks Inc. — All rights reserved | Confidential and

    proprietary Q&A botのデモンストレーション DatabricksにおけるLLM活用のデモ • ここでデモするQ&A botの構築に必要なものは以下の通 りです。 • Q&Aのデータセット • OpenAI APIのキー(オープンソースのLLMを活用 することも可能です) • Databricksワークスペース
  40. ©2023 Databricks Inc. — All rights reserved | Confidential and

    proprietary Q&A botのデモンストレーション DatabricksにおけるLLM活用のデモ • Q&A botの構築にLLMのファインチューニングは不要で す。LangChainで紹介されているRetrieval Augumented Generationというアプローチです。 • 検索対象の回答をEmbeddingに変換してベクト ルDBに拡張します。 • 検索文字列をEmbeddingに変換して、ベクトル DBとの類似検索を実行します。 • 検索にヒットしたドキュメントと質問文を LLMに渡 して、適切な回答を生成させます。
  41. ©2023 Databricks Inc. — All rights reserved | Confidential and

    proprietary まとめ 我々は以前からデータとAIの民主化を目指しています • 誰でもLLMを活用できるようにとの思いからDollyをリリースしました。 • これが、オープンソースLLMの流れの一助になったのではないかと考えています。 • 今ではLLM界隈の技術の進歩は非常に速く、今日時点でのベストなLLMが来月には陳腐 化するということも起こりえます。 • このような状況下で、皆様のビジネス要件に応えるLLMアプリケーションを構築・運用してい くためには、LLMのMLOps、LLMOpsを実現するような基盤が重要であると考えています。 • そのようなプラットフォームとしてDatabricksが皆様の取り組みのご支援ができたらと考え ています。