Upgrade to Pro — share decks privately, control downloads, hide ads and more …

OCI Data Science Service 製品概要

OCI Data Science Service 製品概要

oracle4engineer

March 08, 2024
Tweet

More Decks by oracle4engineer

Other Decks in Technology

Transcript

  1. OCI Data Science Service 製品概要 Oracle AI Brown Bag Seminar

    #8 Kenichi Sonoda Senior Solution Architect Solution Architect Div. Oracle Corporation Japan
  2. Copyright © 2024 Oracle and/or its affiliates. All rights reserved.

    Kenichi Sonoda Solution Architect 日本オラクル入社後、Exadata技術担当、IaaS技術担当を経て、現在ビックデータ およびデータサイエンスのクラウド技術を担当 “複雑な技術をわかりやすく”をモットーにData Management & Analyticsの分野で Oracle Groundbreakers Advocate として活動
  3. Oracle Cloud Infrastructure AI/ML 製品ポートフォリオ Copyright © 2024 Oracle and/or

    its affiliates. All rights reserved. Applications Fusion Applications Fusion Analytics Industry Applications 3rd Party Applications Oracle AI Partners ML for data platforms OCI Data Science AI Vector Search in Oracle Database MySQL HeatWave Vector Store OCI Data Labeling AI infrastructure Compute bare metal instances and VMs with NVIDIA GPUs OCI Supercluster with RDMA networking Block, object, and file storage; HPC filesystems Data NetSuite OCI Generative AI OCI Generative AI Agents Digital Assistant Speech Language Vision Document Understanding AI Services
  4. 一般的な機械学習環境 Copyright © 2024 Oracle and/or its affiliates. All rights

    reserved. Operating System MLライブラリ群 etc. Server HW CPU Server HW GPU 様々なPythonライ ブラリを自由にイン ストール データロード データ変換 モデル学習 モデル評価 モデル解釈 etc. 機械学習のワークフロー データ レイク DWH IoT オープン データ ... ... コーディング • Pythonでの開発環境(機械学習ツール のデファクト) • Pythonの多種多様なライブラリをユー ザー自由にインストールし、開発環境を 構築(古典的なライブラリから最先端のラ イブラリまで) • ノートブック(Jupyterなど)でコーディング ベースの機械学習ワークフロー • 汎用サーバーでCPUやGPUを利用 • データレイク、DWH、IoT、オープンデータ などの外部データが学習データのソース
  5. Data Science Service導入のメリット Copyright © 2024 Oracle and/or its affiliates.

    All rights reserved. Operating System(Oracle Linux) MLライブラリ群 etc. Compute CPU Compute GPU データロード データ変換 モデル学習 モデル評価 モデル解釈 etc. 機械学習のワークフロー Big Data Service Object Storage Data Flow API Gateway ExaCS ADB 様々なPythonライ ブラリを自由にイン ストール ... ... コーディング • クラウド化のメリット • 機械学習に必要な主要SW、HWスタックを数 分でプロビジョニング • 初期インストール不要、設定不要、メンテナン ス不要 • 構成変更が容易(スケールアップ・ダウン) • 使用量に応じた従量課金 • PaaSとしては無償のサービス • IaaSのみの課金(Compute, Block, Object Storage, Network) • OCI他サービスとの連携 • データレイク(Big Data, Object Storage) • RDB(ExaCS、ADB、MySQLなど) • データ処理(Data Flow、Functions、API Gateway、Streaming) • 初期学習コストが低い(既存Pythonユーザー) • 既存コードの再利用、最低限のコード改修 Streaming Data Science Service
  6. • プロジェクト • 全てのリソースを保持する共同ワークスペース • Notebookセッション • モデル開発のためのコンピューティングリソース • 作成時にComputeシェイプ、

    Block Volumeの容量、ネット ワークなどを指定 • Jupyter Notebook、MLライブラリ群がプリインストールされた Computeインスタンス • Environment Explorer(WebUI)によるconda仮想環境の構 築・管理 • モデルカタログ • 構築したモデルを登録、共有するストレージ領域 • ノーコード(WebUI)でモデルのデプロイが可能 • ジョブ • オンデマンドのバッチジョブ実行環境(WebUI) • パイプライン • 複数ジョブの実行順序をワークフローとして定義(WebUI) Data Science Serviceのコンポーネント Copyright © 2024 Oracle and/or its affiliates. All rights reserved. Accelerated Data Science scikit-learn MLライブラリ Jupyter Notebook Notebootセッション Compute Block Storage プロジェクト モデルカタログ モデル モデル 分析チーム インフラ担当 アプリ開発担当 データサイエンティスト ビジネスユーザー ノウハウ、リソースの共有共同開発
  7. 開発までのステップ Copyright © 2024 Oracle and/or its affiliates. All rights

    reserved. ③Notebookにログイン後、 Pythonでコーディング開始 ②プロジェクト内にNotebookセッ ションの作成 ①プロジェクトの作成 OCIコンソール OCIコンソール Jupyter Notebook
  8. モデルのデプロイ Copyright © 2024 Oracle and/or its affiliates. All rights

    reserved. Accelerated Data Science scikit-learn MLライブラリ Jupyter Notebook Notebootセッション Compute Block Storage プロジェクト モデルカタログ モデル A モデル B 分析チーム インフラ担当 アプリ開発担当 データサイエンティスト ビジネスユーザー Instance 1 Instance 2 Instance N HTTP endpoint Load Balancer Client Application Predict Log Access Log OCI Logging Service モデル A モデル A モデル A Request Response • WebUIベースのオペレーション による簡単なモデルのデプロイ • 予測モデルをデプロイするシェ イプを選択するだけの簡単操 作 • ロードバランサー、デプロイサー バーが自動構成され、可用 性、性能を考慮した構成とな る • RESTエンドポイントが自動付 与され、デプロイ後、すぐに API Call可能 • OCI Logging Serviceとの連 携により、API Callの状況のロ グ取得が可能 学習環境 デプロイ環境
  9. 機械学習の標準処理や関連処理をバッチジョブ作成に利用 • 概要 ✓ オンデマンドのバッチジョブ実行環境 ✓ ジョブ実行時間のみの課金(GPUインスタンス含 む) ✓ 繰り返し再利用可能なバッチジョブ定義による業

    務の標準化 • ジョブの定義と実行 ✓ 処理内容をジョブ・アーティファクト(Python、シェ ルスクリプト)として作成 ✓ ジョブの定義 ✓ ジョブ・アーティファクト、Computeシェイプ、OCIRコン テナイメージ(オプション)、ロググループ(オプション) ✓ ジョブ実行後、実行環境(Compute)が自動起 動され、定義済みの処理が実行され、処理完了 後、実行環境が自動削除される ジョブ Copyright © 2024 Oracle and/or its affiliates. All rights reserved. コンテナイメージ作成・登録 ジョブ・アーティファクト作成 • pythonスクリプト • シェルスクリプト ジョブの定義 • ジョブアーティファクト • Computeシェイプ • コンテナイメージ(オプション) • ロググループ(オプション) ジョブの実行 • Console • REST • CLI • SDK OCI Data Science OCI Logging Compute container OCI Registry ジョブ起動 Compute自動起動 バッチ処理実行 バッチ処理完了 Compute自動削除 ジョブ完了
  10. 学習処理を複数インスタンスで分担して並列実行する分散処理系をプロビジョニング、実行 • 概要 • データパラレル(学習の高速化)とモデルパラレル(大規模モデ ル)の両学習手法を実装可能 • 専用ツール(ADS CLI)による容易なプロビジョニングと実行 •

    学習処理実行時間のみの課金(GPUインスタンス含む) • API構成のパターン ✓ PyTorch Distributed ✓ TensorFlow Distributed ✓ Horovod(とPytorchもしくはTensorflow) • 分散学習の実装と実行 ✓ 学習環境として利用するコンテナイメージのDockerfileを作 成、イメージをOCI Registoryに登録(ADS CLI) ✓ 学習用のソースコード、実行環境の定義ファイルを作成 ✓ 学習実行(ADS CLI)後、学習環境定義ファイルの定義に 沿って複数のComputeが自動起動され、定義済のイメー ジからコンテナを作成し、学習処理コードを実行、実行後に Computeは削除され課金停止 ジョブを利用した分散学習 Copyright © 2024 Oracle and/or its affiliates. All rights reserved. Dockerfile Train.py Train.yaml OCI Registry Repository image compute container OCI Data Science compute container compute container コンテナイメージ作成・登録 • Pytorch • TensorFlow • Horovod • etc. 学習処理のコード Pythonスクリプト 学習環境の定義 • プロジェクト • コンパートメント • シェイプ • ノード数 • etc. 分散学習の実行 ADS CLI 分散学習
  11. 機械学習パイプラインのワークフローによる自動化と標準化に • 概要 ✓ 機会学習の各ステップをワークフローとして定義 ✓ 各タスクの依存関係を定義(有向非巡回グラフ) ✓ パイプライン実行時間のみの課金(GPUインスタン ス含む)

    • パイプラインの定義と実行 • パイプライン内の各処理をステップ・アーティファクト (Python、Bash、シェルスクリプト、Java、Job)と して作成 • 各ステップの順序および実行するComputeシェイ プ、ロググループ(オプション)を指定 • 各ステップ毎にシェイプの割り当てが可能 • 実行後、各ステップの実行環境(Compute)が自 動起動され、各ステップが定義済みの順番で実 行され各ステップの完了後、実行環境が自動削 除される パイプライン Copyright © 2024 Oracle and/or its affiliates. All rights reserved. パイプライン・ステップ・アーティ ファクト作成 • pythonスクリプト • シェルスクリプト • Java Step1 Step2 ・・・ 特徴量 前処理1 特徴量 前処理2 学習1 (XGB) 学習2 (RF) データ 前処理 モデル 評価 モデル デプロイ Step2 Step3 Step1 Step4 パイプラインの定義 • 各ステップ作成(アーティファクトもしくはJobを指定) • ステップ間の依存関係 • Computeシェイプ、ロググループ(ロググループ) Pipelineの実行 • Console、REST、CLI、SDK パイプライン パイプラインの構成例
  12. AI Quick Actions(Data Science ServiceのBeta機能) Copyright © 2024 Oracle and/or

    its affiliates. All rights reserved. OSSの生成AIモデルをローコードでOCI上にデプロイ。 用途にあったさまざまな生成AIモデルが使用可能に。 Data ScienceのNotebookインタフェースから、 クリックのみ、ノーコードでAIモデルをデプロイし、ファイン チューニングやスケールも可能。 最初は、Llama2やMistral 7BなどのLLMをサポート 予定。 GUIで実行可能な処理: • デプロイ • ファイン・チューニング • スケール The Future of Generative AI: What Enterprises Need to Know https://blogs.oracle.com/ai-and-datascience/post/future-generative-ai-what-enterprises-need-to-know
  13. • 機械学習のライフサイクル全てのフェーズをシンプルなAPIで実装 ✓ データ変換、データ可視化、モデル学習、モデルの評価、モデルの解釈 • 機械学習の学習処理の自動化(Auto ML) ✓データ最適なアルゴリズム選択の自動化 ✓サンプリングの自動化 ✓最適な特徴量選択の自動化

    ✓ハイパーパラメータ・チューニングの自動化 • OCIや他社サービスとの連携 ✓ Amazon S3、Google Cloud Storage、Azure Blob(ストレージ) ✓ OCI Language Service(自然言語処理) ✓ OCI Data Labeling Service(データ前処理) ✓ OCI Data Flow Service(Sparkアプリケーションの実行) ✓ OCI Big Data Service(HDFSのファイル管理、SQL実行) ✓ ジョブ、パイプラインの処理の実行・管理 Oracle Accelerated Data Science(ADS) 機械学習のワークフロー Confidential – © 2020 Oracle Internal ⑥モデルの 解釈 ②データの 変換 ①データの ロード ⑤モデルの 評価 ③データの 可視化 ④モデルの 学習 Accelerated data Science Copyright © 2024 Oracle and/or its affiliates. All rights reserved.
  14. エクスペリアン社:分析基盤システムで最大60%のコスト削減を実現 Copyright © 2024 Oracle and/or its affiliates. All rights

    reserved. OCIへの移行にはOracle Cloud LiftとPilot-to-Productionアプ ローチが大きな助けとなった • 不正検知システム:OCIおよびExadata CSへの移行を実施 • コールセンター・アナリティクス:マネージドHadoopサービスからOCI Lakehouseへ移行 • ファイナンシャルアナリティクス:ビッグデータのワークロードをオンプレミスの HadoopからOCI Lakehouseに移行 • ブラジルの信用格付け:クラウドベースのSparkワークロードを他のクラウド からOCI Lakehouseに移行 結果 • OCIは、他のクラウドと比較して、優れたパフォーマンスと40~60%のコスト 削減を実現しながら、エクスペリアン社のユニークなニーズをサポート Oracle Data Integrator OCI Data Integration Third party analytics ExaCS/ADW Data Science OCI Data Catalog OCI Object Storage Call center data Customer data Enterprise Applications OCI Data Flow Oracle Cloud Infrastructure OCI Big Data Service
  15. インガーソル・ランド:レポート作成時間を2時間から2分に短縮 Copyright © 2024 Oracle and/or its affiliates. All rights

    reserved. Oracle Cloudは、アプリケーション、データ、およびインフラス トラクチャのための統合プラットフォームを提供 • E-Business Suite ERPとPTC Windchill PLMを移行 • 老朽化したオンプレミスCloudera環境をリプレース • 複数のBIツールを統合 • IoTデータの統合、データサイエンスの適用 強力なパートナーシップ • Oracle Cloud Liftサービスと専任のクラウド・エンジニアリン グ・サポートがもたらす驚きの価値 • 5ヶ月でシステムとデータを移転し、古いデータセンターを閉鎖 • レポート作成時間が2時間から2分に短縮 E-Business Suite ERP PTC Windchill PLM Oracle Analytics Cloud Autonomous Data Warehouse OCI Data Science OCI Data Catalog OCI Object Storage OCI Big Data Service
  16. Accenture社:顧客のための迅速で革新的なソリューションを実現するための重要な 手段として、OCIを活用 Copyright © 2024 Oracle and/or its affiliates. All

    rights reserved. 可視性、洞察力を高め、顧客の意思決定を最適化 • インサイトの特定を加速 • データの可視性と品質の向上 • 将来の結果を予測 結果 • 意思決定者が行動を起こし、インクルージョン、ダイ バーシティ、エクイティ(ID&E)を改善できるように • 職場に透明性をもたらす • 数週間、数ヶ月かかっていた作業を数日で完了 • マニュアル作業の自動化 Oracle Analytics Cloud ADW/ MySQL HeatWave OCI Data Science OCI Data Catalog OCI Object Storage Oracle HCM Cloud Peoplesoft Other Sources OCI AI Services Oracle Machine Learning Watch the video
  17. 導入顧客 Copyright © 2024 Oracle and/or its affiliates. All rights

    reserved. DSP uses Oracle Cloud for insights into cochlear implants University of Oxford researchers predict career pay using Oracle Cloud Prosperdtx personalizes healthcare plans using Oracle Flow saves companies €1 million-plus to manage EV fleets UC Davis helps make drugs safer using Oracle Cloud HPC CMRI cuts costs by 25% with Oracle Cloud Infrastructure Seattle Sounders FC gets data science in the game with Oracle Flow 顧客事例サイト https://www.oracle.com/jp/customers/