Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Oracle Cloud World Tour Tokyo2025: 「Autonomous ...

KoheiOgawa
February 20, 2025

Oracle Cloud World Tour Tokyo2025: 「Autonomous DBを中心とした エンタープライズデータに対する Fine-tuningのすゝめ」(20min Theater Session)

こちらはOracleの1st paryイベントであるOracle Cloud World Tour Tokyoで登壇発表させていただいた内容になります。イベントの詳細はこちら:https://www.oracle.com/jp/cloudworld-tour/
こちらのdeckでお話ししていること
・Fine-tuningのwhat, when, how?
・エンタープライズ企業でFine-tuningプロジェクトが成功しづらい4つの観点
・Oracle技術でFine-tuningした方が良い理由
・ファインチューニング手法の違い
・RAGの会話履歴DBのデータから質高くかつ量が担保され、Opsを考慮して学習データセットを作成する方法

KoheiOgawa

February 20, 2025
Tweet

More Decks by KoheiOgawa

Other Decks in Technology

Transcript

  1. Autonomous DBを中心とした エンタープライズデータに対する Fine-tuningのすゝめ 1 Copyright © 2024, Oracle and/or

    its affiliates Kohei Ogawa AI Customer Developer Advocate/ Principal Cloud Solution Engineer(AI/ML) 事業戦略統括本部 / AI推進室
  2. Oracle CloudWorld Tour Copyright © 2025, Oracle and/or its affiliates

    2 小川 航平 事業戦略統括 / AI推進室 AI Customer Developer Advocate/ Principal Cloud Solution Engineer(AI/ML) 日本マイクロソフト株式会社でData&AI領域のCloud Solution Architectとして大手法人企 業のAI/MLシナリオにおけるクラウド設計、技術支援を行う。また、Japan OpenAI Champとし て、 Azure技術を中心としたLLM開発プロジェクトの重要案件のドライブ、AIコミュニティのLead等社内 外の啓蒙活動を行う。 2023年12月-2024年8月までスタートアップでソフトウェアエンジニア兼開発チームのリーダーを担 い、新機能開発/企画/保守/運用、幅広く事業に携わる。慶應義塾大学の特任助教の方と共に 研究者向けのChatGPTの理論と応用の書籍である『ChatGPT 大規模言語モデルの進化と応 用』を出版。 2024年10月、日本オラクルのPrincipal Cloud Solution Engineerに就任。 エンタープライズ向けのLLM開発支援の知見やスタートアップでの事業開発経験の知見を活かし、 日本オラクルにおけるAI/ML案件のPM/PMO、エンジニアリングの支援またAIプロジェクトにおける技 術的な社内アドバイザーを担う。 @shisyu_gaku
  3. Oracle CloudWorld Tour Copyright © 2025, Oracle and/or its affiliates

    3 本日お伝えしたいメッセージ 1. Fine-tuningのwhat, when, How? 2. エンタープライズ企業でFine-tuningプロジェクトが成功しづらい4つの観点 3. Oracle技術でFine-tuningした方が良い理由 ※ぜひ社内で資料を展開してください
  4. Oracle CloudWorld Tour Copyright © 2025, Oracle and/or its affiliates

    4 1. LLM以外のファインチューニングのケース 2. オンプレミス上でのファインチューニングのケース 3. 特定LLMモデルのファインチューニング技術的詳細や比較 話さないこと
  5. Fine-tuningはLLM(+ICL)/RAGと比べて何がいいの? Oracle CloudWorld Tour Copyright © 2025, Oracle and/or its

    affiliates 6 • コンテキストウィンドウの制約より、十分な情報を覚えれない • 入力する例示のプロンプトに大きく影響するため扱うユーザに よって情報の的確性・入手性が変わる • 信頼性の高い出力結果であるかの根拠の確認が難しい • ドメイン特化した質問内容への的確な対応が難しい LLM + ICLの弱み↓ • 外部知識のデータの複雑性・解釈性に依存する (データの前処理の重要性) • 外部DBの性能に検索精度とパフォーマンスが大きく依存する • システム全体の構築の複雑さ(データ更新含む) • 応答速度の低下(入力から出力まで経由・処理するサービスの多さ) 検索拡張生成(Retrieval/RAG)の弱み↓ • タスク・ドメインへの最適化による精度・パフォーマンスの向上 • 短いプロンプトで指示可能になり、コンテキスト依存の制約が軽減 • ユーザや外部リソースに依存しない安定した応答と一貫性がある • 効率的な推論により、ケースによっては応答速度向上 • トークン数の消費を抑え、必要に応じてRAGを構築してそのメリットを享 受することも可能 • データプライバシーの向上による信頼性確保・情報漏洩リスクを軽減 Fine-tuningの強み↑
  6. エンタープライズでのFine-tuningのユースケースは? Oracle CloudWorld Tour Copyright © 2025, Oracle and/or its

    affiliates 7 多言語/方言対応・古文書解析 • 多言語翻訳や特定地域の方言に対応。 • グローバルな利用を想定したローカライズ支援。 • 歴史的文書の解釈 特定の社内ルールに基づいたスタイリングとフォーマティング • 文書やコンテンツのフォーマット統一。 • 企業のブランドガイドラインに準拠した文書作成支援。 顧客特有の知識注入 • 企業や業界固有の知識をAIに学習させる。 • FAQ応答や社内ナレッジ活用の最適化。 業界・分野特化型のユースケース • 通話要約 – サポート通話が終了した直後に、その正確な要約 を作成する • 案件要約 – メール、ライブチャット、音声など、複数のサポート チャネルを通じたコミュニケーションを含む、全体の案件履歴を要 約し、案件の処理や引き継ぎを迅速化する • メール自動応答 – 検出されたトピックと意図に基づいて、自動 的に応答メールを生成する • 案件エスカレーション – 顧客の感情や満足度を評価し、案件を より上位のサポートにエスカレーションする必要があるか、またその タイミングを予測する その他、具体的なユースケース
  7. Oracle CloudWorld Tour Copyright © 2025, Oracle and/or its affiliates

    8 Fine-tuningってどうやるの? 様々クラウド上で提供される共通技術スタック 学習データセット (jsonlファイル) オブジェクトストレージ ユーザ/アプリケーション データ収集/クレンジング/ データエンジニアリング エクスポート ベースモデル Cohere/Llama/etc… GPUプール ・・・ Generative AI Service 推論API 呼び出し ロード 学習クラスター ユニット 3 ユニット N 推論クラスター デプロイ 割り当て ユニット 1 ユニット 2 ユニット 1 ユニット 2 ユニット 3 ユニット N Finetuned モデルエンドポイント
  8. Oracle CloudWorld Tour Copyright © 2025, Oracle and/or its affiliates

    9 2. エンタープライズ企業でFine-tuningプロジェクトが成功しづらい4つの観点
  9. Oracle CloudWorld Tour Copyright © 2025, Oracle and/or its affiliates

    10 エンタープライズ企業でFine-tuningプロジェクトが成功しづらい4つの観点 学習データセット (jsonlファイル) オブジェクトストレージ ユーザ/アプリケーション データ収集/クレンジング/ データエンジニアリング エクスポート ベースモデル Cohere/Llama/etc… GPUプール ・・・ Generative AI Service 推論API 呼び出し ロード 学習クラスター ユニット 3 ユニット N 推論クラスター デプロイ 割り当て ユニット 1 ユニット 2 ユニット 1 ユニット 2 ユニット 3 ユニット N Finetuned モデルエンドポイント ユースケース/費用対効果 ! 〜ユースケース/費用対効果〜
  10. Oracle CloudWorld Tour Copyright © 2025, Oracle and/or its affiliates

    11 1つ目の観点:ユースケース/費用対効果 ユーザ/アプリケーション 再学習のコストを考慮したときに、 データ更新頻度が少ない不変的 な活用シナリオがあるか、そしてそ の優先順位が高いか エンタープライズユースにおいて、他社の 成功事例の数の少なさと成功確率が 高くないプロジェクトの予算の付けにくさ 生成AIプロジェクトを始める順番と してLLM(+ICL)→RAGが着手し やすいが、そこまでの生成AIプロ ジェクトの前提知識とデータエンジニ アリング力があるか(R&Dや先進的 なAIスタートアップ企業などの高度 な専門人材を抱える組織がほとん ど) 低更新頻度シナリオの 優先性 高度な前提知識とデータエン ジニアリングの壁 成功事例不足による 導入リスク 「それLLM(+ICL) or RAGじゃダメなの?? PoCの域を超えた本番稼働を意識できている?」
  11. Oracle CloudWorld Tour Copyright © 2025, Oracle and/or its affiliates

    12 エンタープライズ企業でFine-tuningプロジェクトが成功しづらい4つの観点 学習データセット (jsonlファイル) オブジェクトストレージ ユーザ/アプリケーション データ収集/クレンジング/ データエンジニアリング エクスポート ベースモデル Cohere/Llama/etc… GPUプール ・・・ Generative AI Service 推論API 呼び出し ロード 学習クラスター ユニット 3 ユニット N 推論クラスター デプロイ 割り当て ユニット 1 ユニット 2 ユニット 1 ユニット 2 ユニット 3 ユニット N Finetuned モデルエンドポイント ユースケース/費用対効果 ! セキュアなデータ加工環境 ! 〜セキュアなデータ加工環境〜
  12. Oracle CloudWorld Tour Copyright © 2025, Oracle and/or its affiliates

    13 2つ目の観点:セキュアなデータ加工環境 「エンタープライズデータを扱う意識持てている?」 • サイロ化: 部署ごとに分散管理され たデータをローカルや別環境へ頻繁に 移動すると、アクセス制御や監査が 行き届かず機密情報が漏えいしやす い。 • 監査ログの不足: どのデータに誰が いつアクセスしたかを一元的に追跡で きず、問題発生時の原因追及や影 響範囲の特定が困難になる。 • 暗号化・鍵管理の不統一: 分析基盤 外でデータを扱うと、暗号化ポリシーや 鍵管理がバラバラになり、盗聴や改ざん を受けやすくなる。 • ライフサイクル管理の不備: 不要になっ た機密データの削除や管理が曖昧で、 長期間残存すると不正アクセスや情報 持ち出しのリスクが高まる。 • 前処理の漏れ: データ分析基盤の 標準プロセスを通さずに手作業で マスキングを行うと、個人情報や機 密情報が処理漏れして外部に渡 る危険がある。 • 規制の逸脱: GDPRやHIPAAな どの規制対応を分析基盤から外れ た場所で行うと、保管場所やアクセ ス権管理が不十分になり違反リス クが高まる。 組織横断的なデータガバナンスの 欠如による漏えいリスク 個人情報・機密情報のマスキング不備に よるコンプライアンス違反 セキュリティ基盤の統合管理不足による 不正アクセス・改ざんリスク データ収集/クレンジング/ データエンジニアリング
  13. Oracle CloudWorld Tour Copyright © 2025, Oracle and/or its affiliates

    14 エンタープライズ企業でFine-tuningプロジェクトが成功しづらい4つの観点 学習データセット (jsonlファイル) オブジェクトストレージ ユーザ/アプリケーション データ収集/クレンジング/ データエンジニアリング エクスポート ベースモデル Cohere/Llama/etc… GPUプール ・・・ Generative AI Service 推論API 呼び出し ロード 学習クラスター ユニット 3 ユニット N 推論クラスター デプロイ 割り当て ユニット 1 ユニット 2 ユニット 1 ユニット 2 ユニット 3 ユニット N Finetuned モデルエンドポイント ユースケース/費用対効果 ! セキュアなデータ加工環境 ! 学習データセットの質と量 ! 〜学習データセットの質と量〜
  14. Oracle CloudWorld Tour Copyright © 2025, Oracle and/or its affiliates

    15 3つ目の観点:学習データセットの質と量 精度を出すための質と量 • ドメイン知識の反映: タスク・業界固有の文脈や専門用語を正確に捉えるため、専門家 による手作業での詳細なアノテーションが必要で、時間とコストが高 い。 • データクレンジングとバイアス修正: 誤字、重複、不要情報を除去しつつ文脈を維持する整形作業は 手間がかかり、偏りの自動検出・修正は困難で、誤ったバイアスが モデル出力に悪影響を及ぼすリスクがある。 • 機密情報保護: 個人情報や企業機密を安全に整備するには、マスキング、匿名 化、アクセス制御など厳格なセキュリティ対策が必要で、大きな負 荷となる。 • 分散したデータの収集と統合の難しさ 企業内のデータは部門やシステムごとにサイロ化していることが 多く、必要な情報を一元的に集めるのが困難です。異なるシ ステム間のデータ連携も大きな課題となる。 • 多様なフォーマットからの質を伴った情報抽出の難しさ テキスト、PDF、データベース、画像など、異なる形式のデータを 統一的な形式に変換する必要があり、そのプロセスが自動化 されていない場合、手作業が増え大きな工数を要する。 • インフラとコストの負担 大規模データの保存・処理には専用のデータレイクや分散処 理基盤が必要となり、それに伴うシステム構築・運用コストが 高くなるため、十分なデータ量を確保するのが難しくなる。 質の良いデータ作成が難しい理由 量のあるデータセット構築が難しい理由 学習データセット (jsonlファイル)
  15. Oracle CloudWorld Tour Copyright © 2025, Oracle and/or its affiliates

    16 エンタープライズ企業でFine-tuningプロジェクトが成功しづらい4つの観点 学習データセット (jsonlファイル) オブジェクトストレージ ユーザ/アプリケーション データ収集/クレンジング/ データエンジニアリング エクスポート ベースモデル Cohere/Llama/etc… GPUプール ・・・ Generative AI Service 推論API 呼び出し ロード 学習クラスター ユニット 3 ユニット N 推論クラスター デプロイ 割り当て ユースケース/費用対効果 ! セキュアなデータ加工環境 ! 学習データセットの質と量 ! ユニット 1 ユニット 2 ユニット 1 ユニット 2 ユニット 3 ユニット N Finetuned モデルエンドポイント 費用とパフォーマンス ! 〜費用とパフォーマンス〜
  16. Oracle CloudWorld Tour Copyright © 2025, Oracle and/or its affiliates

    17 4つ目の観点:費用とパフォーマンス モデルを学習させて継続的に推論する費用考慮できてる? 学習クラスター ユニット 3 ユニット N ユニット 1 ユニット 2 推論クラスター ユニット 1 ユニット 2 ユニット 3 ユニット N Finetuned モデル エンドポイント 高性能コンピューティングリソースへの大規模投資の 必要性 • 大規模モデルのファインチューニングには、NVIDIA A100/H100などの高性能GPUをはじめとするクラウド リソース投入が不可欠で、初期投資および運用コス トが非常に高くなる点に留意する必要がある。 分散学習の最適化の重要性 • 学習効率やスループット向上のため、分散学習の 設計やオーケストレーションの最適化が不可欠であ り、プロジェクト全体の進捗に直結する点を重視す べきである。 定期的な再ファインチューニングの実施の必要性 • モデルの知識の陳腐化を防ぐため、最新データを反映し た定期的な再ファインチューニングが不可欠だが、そのプ ロセスの自動化と運用負荷の軽減が求められる。 監視・自動化ツールの整備の徹底が重要 • システム全体のパフォーマンス維持や障害対応のため、 運用監視、ログ解析、自動スケーリングなどの自動化 ツールの導入と整備が不可欠であることに留意する必要 がある。 • 運用方式選定のトレードオフの管理が鍵 常時稼働型は低レイテンシを実現できる一方、アイ ドル時のリソース消費がコストを押し上げある。逆に、 オンデマンド型では初回リクエスト時のウォームアップ 遅延が発生するため、最適な運用方式の選定と自 動スケーリングの設定が重要である。 共有リソース環境でのパフォーマンス低下のリスク • 他のお客様とも共有するクラスターでは、リソースの 混雑時にリソース競合が発生し、推論リクエストの 応答時間が延びる可能性がある。これに対応する ため、最適なスケーリング設定やリソース配分の調 整、優先順位の管理などが求められる 学習クラスター: 高コスト・分散学習最適化の課題 推論クラスター: 運用方式とスケーリング調整の課題 継続的メンテナンス: 更新と自動化維持の課題
  17. Oracle CloudWorld Tour Copyright © 2025, Oracle and/or its affiliates

    18 3. Oracle技術でFine-tuningした方が良い理由
  18. 専用クラスターA ユニット 5 ユニット 6 ユニット 1 ユニット 2 Oracle

    CloudWorld Tour Copyright © 2025, Oracle and/or its affiliates 19 学習/推論クラスターが安くて強くて処理が速い 専用クラスターだからこその安定性 リソースの競合が少なく、 より一貫した高スループットなパフォーマンスを提供する フルマネージドな専用クラスター環境 (マルチテナントアーキテクチャ) • 1つの専用クラスターに異なるモデルのデプロイ • 各ユニット内でモデルを複製 • ゼロダウンタイムでのエンドポイントモデルのスワップ • エンドポイントの一時的な停止/再起動 ユニット 7 ユニット N ユニット 3 ユニット 4 専用クラスターB ユニット 3 ユニット N ユニット 1 ユニット 2 OCI Generative AI Service テナント環境 App A App C App B A社 テナント環境 B社 テナント環境
  19. 専用クラスター ユニット 3 ユニット N ユニット 1 ユニット 2 Oracle

    CloudWorld Tour Copyright © 2025, Oracle and/or its affiliates 20 学習/推論クラスターが安くて強くて処理が速い 高速なユニット間通信処理 拡大 2マイクロ秒以下のネットワーク・レイテンシを実現する OCIのクラスタ・ネットワーク(RDMA) →分散トレーニングやファインチューニング時に、 各GPU間で必要な情報(パラメータ、勾配など)の高速かつ 低遅延な交換が可能 ユニット間を高速通信
  20. Oracle CloudWorld Tour Copyright © 2025, Oracle and/or its affiliates

    21 学習/推論クラスターが安くて強くて処理が速い リソース割り当てと構成の明確さ →選択する基盤モデル(large-cohere、small-cohere、 embed-cohere)に応じたGPUのスペックやユニットあたりの 構成があらかじめ定義されているため、どのユニットにどのリソー スが割り当てられるのかが明確。 →トークンやリクエスト毎の課金ではなく、固定の価格のため予 想外の使い過ぎによる課金の発生がない ベースモデル large-cohere small-cohere small-cohere 1ユニット スペックと個数 × 10 GPU × 3 GPU × 5 GPU ※例えば クラスター費用の見積もりが容易なコンピューティング環境
  21. Oracle CloudWorld Tour Copyright © 2025, Oracle and/or its affiliates

    22 ファインチューニング手法の違い 各手法の違いと変遷/サポート範囲 Vanilla/2010年代後半 LoRA/2021年 T-Few/2022年 LoRA: Low-Rank Adaptation of Large Language Models (Hu et al., 2021) BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Devlin et al., 2018) Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning(Liu et al., 2022) 事前学習済みモデル全体をタスクに合わせて学習 本体のパラメータは固定し、 低ランクの重み補正を行い学習 少量のFew-Shortプロンプトを与え、 その指示に基づいて、 Transformer内部の中間 活性化を調整する学習手法 タスク固有の特徴に合わせた細かい最適化が可能 /柔軟性が一番高い Vanillaに比べて 計算資源とメモリの効率を向上 少ないデータセットで新たなタスクに適応可能 数千〜数万件以上の学習データセット 数百〜数千件程度の学習データセット 32〜100件程度の少量学習データセット 他社のクラウドベンダー製品 ※各社によっては片方のみのサポート Oracle Generative AI Service 細かく柔軟なシナリオに対応したいシナリオ 複数業務で同一モデルを利用したいシナリオ ラベル付きデータが極端に少ないシナリオ
  22. Oracle CloudWorld Tour Copyright © 2025, Oracle and/or its affiliates

    23 Autonomous DBでの学習データセット作り 例えば、社内用語のデータをもとにファインチューニングしたい場合。 Pythonで記述すると複雑なところがSQLなら数行で実現可能 Term/ 用語 EXPLANATION/解説 ADB Customer Success Managerは、顧客の成功支 援を担当し、サービスの効果的な利用促進 と満足度向上を実現する役割です。 CSM Customer Success Managerは、顧客の成功支 援を担当し、サービスの効果的な利用促進と満 足度向上を実現する役割です。 CSE Cloud Solutions Engineerは、当社のクラウド プラットフォームの設計・構築および技術 支援を担うエンジニア職です。 社内用語テーブル ※リアルなデータはもっと解説長く、データ量や情報量は多い。 学習データセットは{”Prompt”,”completion”}の組み合わせで 各行が1件のjsonデータ Training_data {"prompt": "質問: 当社独自用語「CSM」とは何ですか?\n回答:", "completion": " Customer Success Managerは、顧客の成功支援を担当し、サービスの効果的な利用促進と満足度向上を実現する役割 です。"} {"prompt": "質問: 当社独自用語「ADB」とは何ですか?\n回答:", "completion": " Autonomous DBは、当社が 提供する自律型データベースサービスで、運用の自動化と最適化が特徴です。"} {"prompt": "質問: 当社独自用語「CSE」とは何ですか?\n回答:", "completion": " Cloud Solutions Engineerは、当社のクラウドプラットフォームの設計・構築および技術支援を担うエンジニア職で す。"} 社内用語テーブル(各行がjson形式) SELECT JSON_OBJECT( 'prompt' VALUE '質問: 当社独自用語「' || TERM || '」とは何 ですか?' || CHR(10) || '回答:', 'completion' VALUE ' ' || EXPLANATION ) AS json_line FROM TERM_DICT; SQL ①補完しながら各行をjson形式へ変換 {"prompt": "質問: 当社独自用語「CSM」とは何ですか?\n回答:", "completion": " Customer Success Managerは、 顧客の成功支援を担当し、サービスの効果的な利用促進と満足度向上を実現する役割です。"} {"prompt": "質問: 当社独自用語「ADB」とは何ですか?\n回答:", "completion": " Autonomous DBは、当社が提供 する自律型データベースサービスで、運用の自動化と最適化が特徴です。"} {"prompt": "質問: 当社独自用語「CSE」とは何ですか?\n回答:", "completion": " Cloud Solutions Engineerは、当社 のクラウドプラットフォームの設計・構築および技術支援を担うエンジニア職です。"} jsonl ②SPOOL機能で上記のSQLの結果をjsonl 形式で書き出し
  23. Oracle CloudWorld Tour Copyright © 2025, Oracle and/or its affiliates

    24 OpenAI社が提唱する精度最適化ステップ https://platform.openai.com/docs/guides/optimizing-llm-accuracy https://platform.openai.com/docs/guides/optimizing-llm-accuracy
  24. Oracle CloudWorld Tour Copyright © 2025, Oracle and/or its affiliates

    25 例えば、過去のサポートチケット情報から類似事例を検索するRAGシステム RAGシステム 会話履歴DB Oracle Autonomous Database { "conversation_id": "550e8400-e29b-41d4-a716-446655440005", "ticket_id": "TICKET-20250211-6002", "user_id": "EMP-22222", “department”: “カスタマーサポート/Data&AIチーム", "device": "デスクトップ PC (Windows 11, Edge 110)", "timestamp": "2025-02-11T16:30:00Z", "query": "ABC株式会社の製品Xに関して、佐藤花子さんがこれまでに提出した問い合わせの中で、特に エラーコード504やログイン関連の問題について、実際に採用された具体的な解決策とその実施手順を教えて ください。", “response”: “過去の問い合わせ履歴によれば、エラーコード504に対しては、まず・・・れた事例があ ります。ログイン関連の問題では、・・・されています。詳細な手順は、内部サポートガイド『製品X トラブ ルシューティング』に記載されています。", "metadata": { "source": "社内ナレッジベース『製品X トラブルシューティング』", "additional_context": "Data SafeによるPII検出で、個人情報は必要に応じてマスキング済み。キー フレーズ『エラーコード504』『ログイン関連』『解決手順』が抽出されています。" } } 蓄積される問い合わせログ データの中身 データの特徴 • 問い合わせ元のユーザ・デバイス情報/タイムスタンプ • 質問/答え/根拠/その他 • PIIやキーフレーズ抽出でいくつか検出され、履歴データに基づく 質問内容の分析やよく引用される資料の分析はできている RAGでは、各問い合わせ時に関連する複数の文書や例示をコンテキス トとして処理するため、コンテキストウィンドウの制約や計算コストが高い。 回答の一貫性や品質が、場合によってはばらつくことがある。 既存の運用で使用しているシステムプロンプトや補助情報を含めた状態 で、より精度の高いモデルに再学習(ファインチューニング)したい。 日本語のみしか対応できておらず、多言語対応したい RAGを運用して出てきた課題 RAGシステム(会話履歴DBあり)を運用して一定期間フィードバックを集めた結果・・・
  25. Oracle CloudWorld Tour Copyright © 2025, Oracle and/or its affiliates

    26 RAGの会話履歴データに対して質と量を考慮したファインチューニング jsonデータから学習データセット作成までの間の処理 RAGシステム 会話履歴DB Oracle Autonomous Database 質問 答え(根拠付き) • 回答文 • Good/Bad(ユーザフィードバック) • 引用ソース(チャンキングデータ) • システムプロンプト • 過去の会話のラリー • 最終的な質問 データの質に対して https://blogs.oracle.com/database/post/announcing-new-oracle-autonomous-database-data-studio-ai-capabilities https://blogs.oracle.com/database/post/announcing-new-oracle-autonomous-database-data-studio-ai-capabilities データ加工UXに対して データの量に対して • データが読み込まれる度に質をチェック • 学習データセットの一元管理 • データの偏り・統計解析、アクセス監視 継続性 テキスト翻訳(for 多言語対応) Synthetic Data Generationによる 言い回し表現の水増し(Qを増やしAを固定) 感情分析(問い方からユーザの怒りの度合いの分析) キーフレーズ抽出(製品名、問い合わせ内容) PII検出(顧客名、住所、Tel)、データマスキング AI Assist機能で自然言語補助でデータ整形 全てDatabaseの機能で In Databaseで処理 23ai 新機能/JSON Relational Dualityにより、jsonをテーブルデータ として扱える
  26. 27 Oracle CloudWorld Tour Copyright © 2025, Oracle and/or its

    affiliates まとめ エンタープライズ企業の課題は以下4点 • ユースケース/費用対効果 • セキュアなデータ加工環境 • 学習データセットの質と量 • 費用とパフォーマンス しかし、 • In databaseな環境で学習データセットづくりをするとセキュリティ面でも安心。 • databaseの機能に基づくデータの偏りや中身のチェック、水増し機能から質と量が担保された 学習データセットの作成が可能。 • ファインチューニング環境として、コンピュートの面でも手法の面でも効率的。 • Autonomous Databaseはデータに対するAIの機能が充実している。