Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLMがデータ基盤に与えるインパクトと活用

 LLMがデータ基盤に与えるインパクトと活用

Avatar for Shotaro Kotani

Shotaro Kotani

May 25, 2023
Tweet

Other Decks in Technology

Transcript

  1. ©2023 Databricks Inc. — All rights reserved 自己紹介 小谷尚太郎 Senior

    Partner Solutions Engineer • 日本のDatabricks Partnerの技術支援 • 前職Deloitte Analyticsでは計算論的精神医学の 研究、会計監査xAIのプロダクト開発 • 趣味はゴルフ、ダイビング、スキー @shotkotani
  2. ©2023 Databricks Inc. — All rights reserved Agenda • LLMがデータ基盤にもたらすインパクト

    • 生成AI時代のデータ基盤”レイクハウス” • OSS LLMとAzure Open AI Services • エンタープライズにおけるLLMの活用 • まとめ
  3. ©2022 Databricks Inc. — All rights reserved データウェアハウスとデータレイク 構造化テーブル 構造化されていないファイル:

    ログ、テキスト、画像、動画、その他生データ データウェアハウス データレイク ガバナンスとセキュリティ テーブルACL データサイエンス & ML ガバナンスとセキュリティ ファイルとBlob データ ストリーミング ビジネス インテリジェンス SQL分析 データサブセットの コピー
  4. ©2023 Databricks Inc. — All rights reserved LLMの活用例 ECの製品レビューから改善点を抽出する ?

    Q:直近1週間で製品の欠陥を指摘しているレビューを 抽出し、製品の課題を要約しなさい。 学習済LLM Source 以下コンテキストを知っている前提 : - レビュー1 - レビュー2.. この質問を回答する : 直近1週間で製品の欠陥を指摘しているレ ビューを抽出し、要約しなさい。 A:部品の不足・児童の安全性が製品の課題です。 以下が直近一週間で製品欠陥を指摘するレビューになります レビュー1:製品到着後、不足した部品があることが判明した。 レビュー2 : 子供が手を入れやすい隙間があり、怪我をした。 Product Doc RDB EC, Web
  5. ©2023 Databricks Inc. — All rights reserved LLM活用の本当の目標 LLMで得られた知見を、経営の意思決定に反映する ?

    Q:直近1週間で製品の欠陥を指摘しているレビューを 抽出し、製品の課題を要約しなさい。 学習済LLM Source 以下コンテキストを知っている前提 : - レビュー1 - レビュー2.. この質問を回答する : 直近1週間で製品の欠陥を指摘しているレ ビューを抽出し、要約しなさい。 A:部品の不足・児童の安全性が製品の課題です。 以下が直近一週間で製品欠陥を指摘するレビューになります レビュー1:製品到着後、不足した部品があることが判明した。 レビュー2 : 子供が手を入れやすい隙間があり、怪我をした。 ✅製品改良アイデア ✅顧客対応高度化 ✅開発工程見直し Product Doc RDB EC, Web
  6. ©2023 Databricks Inc. — All rights reserved LLMの活用に必要なデータ基盤 モデルのチューニング・プロンプト拡張のために、Data Lake等の基盤が必要

    データレイク : 非構造データ データウェアハウス : 構造化データ ? Q:直近1週間で製品の欠陥を指摘しているレビューを 抽出し、製品の課題を要約しなさい。 学習済LLM Source 以下コンテキストを知っている前提 : - レビュー1 - レビュー2.. この質問を回答する : 直近1週間で製品の欠陥を指摘しているレ ビューを抽出し、要約しなさい。 ベクトルデータベース : ベクトル化された文書 A:部品の不足・児童の安全性が製品の課題です。 以下が直近一週間で製品欠陥を指摘するレビューになります レビュー1:製品到着後、不足した部品があることが判明した。 レビュー2 : 子供が手を入れやすい隙間があり、怪我をした。 ✅製品改良アイデア ✅顧客対応高度化 ✅開発工程見直し Product Doc RDB EC, Web Embedding ❌ テキストを格納 しても加工できない
  7. ©2023 Databricks Inc. — All rights reserved LLMの活用に必要なデータ基盤のガバナンス このモデルはいつ、何のデータを学習したか?モデルのver、アクセス権は? データレイク

    : 非構造データ データウェアハウス : 構造化データ ? Q:直近1週間で製品の欠陥を指摘しているレビューを 抽出し、製品の課題を要約しなさい。 学習済LLM Source 以下コンテキストを知っている前提 : - レビュー1 - レビュー2.. この質問を回答する : 直近1週間で製品の欠陥を指摘しているレ ビューを抽出し、要約しなさい。 ベクトルデータベース : ベクトル化された文書 A:部品の不足・児童の安全性が製品の課題です。 以下が直近一週間で製品欠陥を指摘するレビューになります レビュー1:製品到着後、不足した部品があることが判明した。 レビュー2 : 子供が手を入れやすい隙間があり、怪我をした。 ✅製品改良アイデア ✅顧客対応高度化 ✅開発工程見直し Product Doc RDB EC, Web Embedding データ加工〜アプリまでのデータの来歴 1 モデル管理 2
  8. ©2023 Databricks Inc. — All rights reserved LLMの活用に必要なデータ基盤の計算資源 大量のテキストを処理・学習するための計算資源・環境が必要です データレイク

    : 非構造データ ? Q:直近1週間で製品の欠陥を指摘しているレビューを 抽出し、製品の課題を要約しなさい。 学習済LLM Source 以下コンテキストを知っている前提 : - レビュー1 - レビュー2.. この質問を回答する : 直近1週間で製品の欠陥を指摘しているレ ビューを抽出し、要約しなさい。 ベクトルデータベース : ベクトル化された文書 A:部品の不足・児童の安全性が製品の課題です。 以下が直近一週間で製品欠陥を指摘するレビューになります レビュー1:製品到着後、不足した部品があることが判明した。 レビュー2 : 子供が手を入れやすい隙間があり、怪我をした。 ✅製品改良アイデア ✅顧客対応高度化 ✅開発工程見直し Product Doc RDB EC, Web Embedding Fine Tuning/再学習 2 テキスト処理 パイプライン 1
  9. ©2023 Databricks Inc. — All rights reserved LLM活用と現状のGAP 典型的な基盤はガバナンスの不在やデータの未整備によりLLM Readyでない

    データレイク : 非構造データ データウェアハウス : 構造化データ ? Q:直近1週間で製品の欠陥を指摘しているレビューを 抽出し、製品の課題を要約しなさい。 学習済LLM Source 以下コンテキストを知っている前提 : - レビュー1 - レビュー2.. この質問を回答する : 直近1週間で製品の欠陥を指摘しているレ ビューを抽出し、要約しなさい。 ベクトルデータベース : ベクトル化された文書 A:部品の不足・児童の安全性が製品の課題です。 以下が直近一週間で製品欠陥を指摘するレビューになります レビュー1:製品到着後、不足した部品があることが判明した。 レビュー2 : 子供が手を入れやすい隙間があり、怪我をした。 ✅製品改良アイデア ✅顧客対応高度化 ✅開発工程見直し Product Doc RDB EC, Web Embedding 社内システムにドキュメン トが散在している 計算リソースの不足 既存データ基盤とLLMの回答との連携が取 れず、業務に落とし込めない ガバナンスの不在
  10. ©2021 Databricks Inc. — All rights reserved Databricks : Lakehouseのパイオニア

    Databricks 社が設立 ★創業者はビッグデータ処 理のスタンダードである Spark の開発者陣 Open : オープンなコミュニティが主役 Simple : レイクハウス にてシンプルに Data + AI を活用 Share : 企業の Data + AI の民主化を加速 継続的 OSS 提供 ★データレイクや機械学習 モデル活用を便利化する オープンソース群 レイクハウス 提供 ★統合プラットフォームにて DWH とデータレイク機能 を実現 2013 2019 2020 2021 2022以降 TPC-DS で世界記録 ★DWH の標準検証にて処 理性能及び、コスト効率 性において世界新記録 (Gartner MQ にて 機械学習 と DWH の2部門でリーダー は世界で唯一 ) 業界別レイクハウス ★小売業 / 流通業に特化し た Lakehouse for Retail を発表 (詳細) ★需要予測 / 推奨エンジン 等を高速に実現 (データ分 析人材育成もサポート ) クラウドサービス 提供開始 ★統合データ分析基盤を数 クリックで構築可能な時 代へ (後にマルチクラウドに 対応) ソリューション アクセラレータ ★各インダストリーの ビジ ネスユースケースを高速 に実現する開発済みツー ル群を公開 Cloud : クラウドネイティブなサービス データ組織を拡張させ る機能群① ★GUIベースで機械学習が 可能な AutoML、社内外 にデータ共有する Delta Sharing 等 データ組織を拡張させ る機能群② ★統合的データ辞書である Unity Catalog、No Code データプレパレー ション 等
  11. ©2023 Databricks Inc. — All rights reserved LakehouseにおけるLLM活用イメージ LLMはBusiness Optimizationをさらに加速させるドライバーである

    Source Ingest tool Cloud Storage Event Streaming Ingest Product Doc RDB EC, Web Storage Data Lake Business Application Business Intelligence Customer Data Platform Business Vector DB 需要予測 1 配送最適化 2 Optimization AI レビュー分析 1 2 Engagement AI サポート自動化 Governance
  12. ©2023 Databricks Inc. — All rights reserved Confidential and Proprietary

    データレイク データ編集・加工 (ETL) データ ウェアハウス ガバナンス データサイエンス& 機械学習 リアルタイム処 理 BI
  13. ©2023 Databricks Inc. — All rights reserved Confidential and Proprietary

    データレイク データ編集・加工 (ETL) データ ウェアハウス ガバナンス データサイエンス& 機械学習 リアルタイム処 理 BI とてつもなく 高価で & 複雑
  14. ©2023 Databricks Inc. — All rights reserved Confidential and Proprietary

    Our strategy in one word レイクハウス プラットフォーム “スマホ”ライクな 次世代データ基盤 一元化された ガバナンス コピー/重複不要 マスターデータのみ BI (ビジネスインテリジェンス ) リアルタイムデータ処理 データサイエンス & 機械学習 データウェアハウス データ編集・加工
  15. ©2023 Databricks Inc. — All rights reserved Confidential and Proprietary

    ノートパソコン GPS 時計 カメラ ミュージックプレイヤー 電話 スマートフォン
  16. ©2022 Databricks Inc. — All rights reserved 22 Databricks SQL,

    Unity Catalog, Delta Live Table : SQLベースのデータ加工・アドホック分析, データカタログ・リネージ、ガバナンス Databricks Notebook, MLOps : Python,Rを使ったNotebook形式の データサイエンス、MLOps、AutoML、 モデルデプロイ データ
 エンジニア
 インフラ
 管理者
 データ
 サイエンティスト 
 ML
 エンジニア
 Databricks Dashboard: BI Dashboardによるデータ可視化と分析 ビジネス
 ユーザー
 22 Databricksのユーザビリティ  レビュー・コールセンターログ のテキスト分析→ ←構造化データの可視化 ストリーミングデータと バッチデータの結合や 地理空間データの分析→ ←Customer360から  AIによる顧客毎の  リコメンデーション
  17. ©2023 Databricks Inc. — All rights reserved Databricks Dolly Databricks社員が作成したデータセットによる商用利用可能なOSS

    LLM EleutherAI Pythia 12B databricks-dolly-15k トレーニング • 12Bのパラメーターを持 つベース言語モデル • 一般用途のPile データ セット(825GB ) • 高品質な人造のプロンプト / レスポンスのデータセット • 15,000 件 (13MB) DatabricksではDollyしかLLMを使えない、なんてことはなく 目的や要件に応じて OpenAIや他のOSS LLMを使い分けよう!
  18. ©2023 Databricks Inc. — All rights reserved Dolly 日本語化の取り組み Use

    case:ユーザーからのDatabricksに関する質問を答える日本語Q&A Botの開発を例とする データ準備:Databricksに関する質問と回答の日本語データセットを手動で作成した。 • 情報源: ◦ Qitta記事、DatabricksブログやFAQなど情報 • 件数:約1,500件 コード:Githubのレポのリンクを資料と一緒に配布します。 https://github.com/yulan-yan/build-your-chat-bot-JP https://github.com/yulan-yan/dolly_jp
  19. ©2023 Databricks Inc. — All rights reserved Databricks AI Functions

    SQL FunctionでAzure OpenAI Servicesのモデルを呼び出す Social Media CRM Email Website & Apps 生データ エンリッチ データ 感情、フォローの必要性、メッ セージの書き出し Business-ready データ 次のベストアクション AI_GENERATE_TEXT() "それぞれのレビューで表現された感 情について教えてください。 カスタ マーをフォローアップする必要はあ りますか?またそれはなぜですか? " "お客さんに送るメッセージの最初の 書き出しを提案してください "
  20. ©2023 Databricks Inc. — All rights reserved | Confidential and

    proprietary 26 • 新たなフレーバーのサポート ◦ Hugging Face Transformers ◦ OpenAI API ◦ LangChain • アーティファクトの並列ダウンロードのサ ポート MLflowでは大幅にLLM サポートを拡大 🦜🔗 MLflow 2.3のご紹介:ネイティブLLMのサポートと新機能による強化 - Qiita MLflow 2.3のHugging Faceトランスフォーマーのサポートを試す - Qiita MLflow 2.3のLangChainのサポートを試す - Qiita DatabricksでMLflow 2.3のOpenAI APIのサポートを試す - Qiita
  21. ©2023 Databricks Inc. — All rights reserved プロプライエタリなSaaS LLM オープンソースLLM

    コントロール/所有権 ベンダーによるコントロール、 所有 完全にオープン、ご自身でカス タマイズ可能 セキュリティ/プライバシー データはDatabricks環境外に データはお使いのDatabricks 環境に存在 カスタマイゼーション ベンダー依存、部分的 完全にカスタマイズ可能 透明性 内部のコード、モデルの重み、 トレーニングデータは不明瞭な 箱の中です コード、モデルの重み、トレーニ ングデータは100%オープンで 利用可能です アクセス方法 API経由でアクセスし、サード パーティのSLAに依存 自分、あるいはベンダーによる ホスト コスト/品質 すべてのユースケースでベストな単一のモデルは存在しません が、OSSの方が一般的に品質は低い GPT-J 例: LLaMA Dolly 目的・要件 に合わせて ベターな LLMを選ぶ 28
  22. ©2023 Databricks Inc. — All rights reserved デザインパターン① まずは高性能・安価・豊富なインテグレーションを持つAzure Service

    ? Q:直近1週間で製品の欠陥を指摘しているレビューを 抽出し、製品の課題を要約しなさい。 Azure OpenAI Services /gpt-35-turbo etc Source 以下コンテキストを知っている前提 : - レビュー1 - レビュー2.. この質問を回答する : 直近1週間で製品の欠陥を指摘しているレ ビューを抽出し、要約しなさい。 A:部品の不足・児童の安全性が製品の課題です。 以下が直近一週間で製品欠陥を指摘するレビューになります レビュー1:製品到着後、不足した部品があることが判明した。 レビュー2 : 子供が手を入れやすい隙間があり、怪我をした。 Product Doc RDB EC, Web Azure Cognitive Search 検索処理 1 APIで高性能な モデルを利用する 2
  23. ©2023 Databricks Inc. — All rights reserved デザインパターン② Prompt/Fine Tuiningのために加工したデータと高性能なモデルを利用したい

    ? Q:直近1週間で製品の欠陥を指摘しているレビューを 抽出し、製品の課題を要約しなさい。 Azure OpenAI Services /gpt-35-turbo, /text-davinci-003 etc Source 以下コンテキストを知っている前提 : - レビュー1 - レビュー2.. この質問を回答する : 直近1週間で製品の欠陥を指摘しているレ ビューを抽出し、要約しなさい。 A:部品の不足・児童の安全性が製品の課題です。 以下が直近一週間で製品欠陥を指摘するレビューになります レビュー1:製品到着後、不足した部品があることが判明した。 レビュー2 : 子供が手を入れやすい隙間があり、怪我をした。 Product Doc RDB EC, Web 検索処理 1 Fine Tuning 2 Storage Data Lake Vector DB
  24. ©2023 Databricks Inc. — All rights reserved デザインパターン③ In house,

    Private Data, Internalいずれかに当てはまる場合、OSS LLMを検討 ? Q:直近1週間で製品の欠陥を指摘しているレビューを 抽出し、製品の課題を要約しなさい。 Dolly, OpenCALM Source 以下コンテキストを知っている前提 : - レビュー1 - レビュー2.. この質問を回答する : 直近1週間で製品の欠陥を指摘しているレ ビューを抽出し、要約しなさい。 A:部品の不足・児童の安全性が製品の課題です。 以下が直近一週間で製品欠陥を指摘するレビューになります レビュー1:製品到着後、不足した部品があることが判明した。 レビュー2 : 子供が手を入れやすい隙間があり、怪我をした。 Product Doc RDB EC, Web 検索処理 1 目的に応じてLLM をFine Tuning 2 Storage Data Lake Vector DB ユーザーのログを トラッキングして再 学習 3
  25. ©2023 Databricks Inc. — All rights reserved LakehouseにおけるLLM活用イメージ OSS/Proprietary LLM問わず、DatabricksはLLMの洞察をビジネスと密着させます

    Source Ingest tool Cloud Storage Event Streaming Ingest Product Doc RDB EC, Web Storage Delta Lake Business Application Business Intelligence Customer Data Platform Business Vector DB 需要予測 1 配送最適化 2 Optimization AI レビュー分析 1 2 Engagement AI サポート自動化 Unity Catalog
  26. ©2023 Databricks Inc. — All rights reserved エンタープライズ企業でのLLMプロジェクト 人・データ・ロードマップが重要 -

    データは活用できる形に用意しておくこと - データの把握、収集、クレンジング - 活用できる分析基盤を用意しておくこと - Databricksレイクハウス - 技術人材を育成すること - edXのLLM研修プラン - 以上のロードマップを用意すること - まずは効果の出やすいユースケースの洗い出し - どのような用途を最優先に実装する? - いつまでにレイクハウスに文書を貯める? - 開発チームをどのように組成する? 出典
  27. ©2023 Databricks Inc. — All rights reserved - LLMの洞察をいかに迅速にビジネスの意思決定に繋げるかが重要 -

    既存データウェアハウス+データレイクという構成ではデータのサイロ化、ガバナンスの 分離が発生し運用コストばかり増えてしまう - Databricks レイクハウス であれば、LLMの開発のみならず、DWH・BI・ガバナンスをデー タの無駄なコピーなく利用できる。スムーズにインサイトが得られる - OSS / Proprietary LLMは目的・要件に合わせて選択する - Azure OpenAI Serviceの品質はOSS LLMよりも高い。また周辺Serviceとのインテグ レーションも容易なのでまずはここから始める - 自社固有・機密性の高いデータが学習・プロンプトに含まれるケースではOSS LLM - LLMはデータ整備が重要。またモデル構築、それらを実行する人材育成のロー ドマップを持っておこう まとめ
  28. ©2021 Databricks Inc. — All rights reserved データ・分析・AIの共有とガバ ナンスの一元化を実現する Unity

    Catalog Webinar @ オンライン Databricks最大の年次イベ ント Data+AI Summit @サンフランシスコ, オンライ ン 6月1日 (木) 6月26日(水)から お問合せは Mail : [email protected] Twitter : @shotkotani ご参考:今後のデータブリックスイベント