Oracle Cloud Infrastructure Data Science Service

Oracle Cloud Infrastructure Data Science Service 製品概要日本オラクル株式会社

一般的な機械学習環境 2022/5/31 Copyright © 2022, Oracle and/or its affiliates 2
Operating System MLライブラリ群 etc. Server HW CPU Server HW GPU 様々なPythonライブラリを自由にインストールデータロードデータ変換モデル学習モデル評価モデル解釈 etc. 機械学習のワークフローデータレイク DWH IoT オープンデータ ... ... コーディング • Pythonでの開発環境(機械学習ツールのデファクト) • Pythonの多種多様なライブラリをユーザー自由にインストールし、開発環境を構築(古典的なライブラリから最先端のライブラリまで) • ノートブック(Jupyterなど)でコーディングベースの機械学習ワークフロー • 汎用サーバーでCPUやGPUを利用 • データレイク、DWH、IoT、オープンデータなどの外部データが学習データのソース

Data Science Service導入のメリット 2022/5/31 Copyright © 2022, Oracle and/or its
affiliates 3 Operating System(Oracle Linux) MLライブラリ群 etc. Compute CPU Compute GPU データロードデータ変換モデル学習モデル評価モデル解釈 etc. 機械学習のワークフロー Big Data Service Object Storage Data Flow API Gateway ExaCS ADB 様々なPythonライブラリを自由にインストール ... ... コーディング • クラウド化のメリット • 機械学習に必要な主要SW、HWスタックを数分でプロビジョニング • 初期インストール不要、設定不要、メンテナンス不要 • 構成変更が容易(スケールアップ・ダウン) • 使用量に応じた従量課金 • PaaSとしては無償のサービス • IaaSのみの課金(Compute, Block, Object Storage, Network) • OCI他サービスとの連携 • データレイク(Big Data, Object Storage) • DB(ExaCS、ADB、MySQLなど) • データ処理(Data Flow、Functions、API Gateway、Streaming) • 初期学習コストが低い(既存Pythonユーザー) • 既存コードの再利用、最低限のコード改修 Streaming Data Science Service

• プロジェクト • 全てのリソースを保持する共同ワークスペース • Notebookセッション • モデルを構築、学習するためのコーディング環境 • Jupyter
Notebook、MLライブラリ群がプリインストールされたComputeインスタンス • 作成時にCompartment、VCN、Subnet、 Computeシェイプ、Block Volumeの容量を指定 • MLライブラリ • Keras、Tensor Flow • scikit-learn • XGBoost • Oracle Accelerated Data Science(ADS) • モデルカタログ • 構築したモデルを登録、共有するストレージ領域 Data Science Serviceのコンポーネント 2022/5/31 Copyright © 2022, Oracle and/or its affiliates 4 Accelerated Data Science scikit-learn MLライブラリ Jupyter Notebook Notebootセッション Compute Block Storage プロジェクトモデルカタログモデルモデル分析チームインフラ担当アプリ開発担当データサイエンティストビジネスユーザーノウハウ、リソースの共有共同開発

開発までのステップ 2022/5/31 Copyright © 2022, Oracle and/or its affiliates 5
③Notebookにログイン後、 Pythonでコーディング開始 ②プロジェクト内にNotebookセッションの作成 ①プロジェクトの作成 OCIコンソール OCIコンソール Jupyter Notebook

• Oracle Cloud Infrastructure Data Scienceの一部として機能するPythonライブラリ • 機械学習のライフサイクル全てのフェーズで使いやすくシンプルなAPI
• OCIのその他のサービスおよび他社サービス(Amazon S3、Google Cloud Storage、Azure Blob)との連携API • Oracle AutoML 1. 最適なアルゴリズム選択の自動化 2. データのサンプリングの自動化 3. 最適な特徴量選択の自動化 4. ハイパーパラメータ・チューニングの自動化 Oracle Accelerated Data Science(ADS) 2022/5/31 Copyright © 2022, Oracle and/or its affiliates 6 機械学習のワークフロー Confidential – © 2020 Oracle Internal ⑥モデルの解釈 ②データの変換 ①データのロード ⑤モデルの評価 ③データの可視化 ④モデルの学習 Accelerated data Science AutoML

Oracle AutoMLによる自動化 2022/5/31 Copyright © 2022, Oracle and/or its affiliates
7 ①最適なアルゴリズム選択の自動化 ②サンプリングの自動化 oracle_automl.visualize_algorithm_selection_trials() oracle_automl.visualize_adaptive_sampling_trials()

Oracle AutoMLによる自動化 2022/5/31 Copyright © 2022, Oracle and/or its affiliates
8 ③最適な特徴量選択の自動化 ④ハイパーパラメータ・チューニングの自動化 oracle_automl.visualize_feature_selection_trials() oracle_automl.visualize_tuning_trials()

モデルのデプロイ 2022/5/31 Copyright © 2022, Oracle and/or its affiliates 9
Accelerated Data Science scikit-learn MLライブラリ Jupyter Notebook Notebootセッション Compute Block Storage プロジェクトモデルカタログモデル A モデル B 分析チームインフラ担当アプリ開発担当データサイエンティストビジネスユーザー Instance 1 Instance 2 Instance N HTTP endpoint Load Balancer Client Application Predict Log Access Log OCI Logging Service モデル A モデル A モデル A Request Response • WebUIベースのオペレーションによる簡単なモデルのデプロイ • 予測モデルをデプロイするシェイプを選択するだけの簡単操作 • ロードバランサー、デプロイサーバーが自動構成され、可用性、性能を考慮した構成となる • RESTエンドポイントが自動付与され、デプロイ後、すぐに API Call可能 • OCI Logging Serviceとの連携により、API Callの状況のログ取得が可能学習環境デプロイ環境

Data Flow Serviceとの連携 Copyright © 2022, Oracle and/or its affiliates
10 • Data ScienceのコードからData Flowアプリケーションの作成、実行が可能に(ADSライブラリ利用) • データのサンプリング、データの集計、その他機械学習の前処理などのバッチをData Flowで実行 Data Science Service Data Flow Service アプリの新規作成アプリの実行既存アプリの読み込み create_app() load_app() run() fetchlog() 新規アプリ既存アプリアプリ実行ログの取得ローカルスクリプトローカルスクリプト Pyspark SparkSQL Pyspark 処理済データの取得 open() Object Storage Service 新規アプリ既存アプリ処理前データ処理済データログ stdout stderr シングルインスタンスマルチインスタンスによる高速処理 2022/5/31

他サービスとの連携による分析基盤 Copyright © 2022, Oracle and/or its affiliates 11 インフラ担当
アプリ開発担当データサイエンティストビジネスユーザー Data Science Service Data Flow Service アプリの新規作成アプリの実行既存アプリの読み込み create_app() load_app() run() fetchlog() 新規アプリ既存アプリアプリ実行ログの取得ローカルスクリプトローカルスクリプト Pyspark SparkSQL Pyspark 処理済データの取得 open() Object Storage Service 新規アプリ既存アプリ処理前データ処理済データログ stdout stderr シングルインスタンスマルチインスタンスによる高速処理ソーシャルデータクリックストリームシステムログセンサー Streaming Service データレイクあらゆるデータをオブジェクトストレージに安価に集約し、用途に応じたデータ処理エンジンから利用する ETL データのサンプリング、データの集計、その他機械学習の前処理などをSparkバッチで実行データ分析、機械学習環境 ITOps、LOBユーザーがノウハウを集結し、分析シナリオ、データ、構築済モデルなどを共有しながら、チームとして分析プロジェクトを推進メッセージング Data Science をデータ分析、機械学習環境、Data FlowをETL、オブジェクトストレージをデータレイク、Streamingをメッセージングシステムとして構成し、分析基盤を構築 2022/5/31

Data Labelingのデータセットの読み込み 2022/5/31 Copyright © 2022, Oracle and/or its affiliates
12 df = pd.DataFrame.ads.read_labeled_data( dataset_id = “<dataset_ocid>”, materialize = True ) dataset_id ：Data Labelingで作成したデータセットのOCID materialized : Trueの場合、データフレーム作成時に実データを読み込む。Falseの場合実データの読み込みは行わない。 Data Science Service AI Vision Service ⚫ Accelerated Data Science APIを利用 ⚫ オブジェクトストレージ上のデータセットのOCIDを指定し、 Pandasデータフレームにデータをロード ⚫ VisionのOCI Consoleからデータセットを選択

Oracle Cloud Infrastructure Data Science Service

Oracle Cloud Infrastructure Data Science Service

oracle4engineer PRO

More Decks by oracle4engineer

Other Decks in Technology

Featured

Transcript

Oracle Cloud Infrastructure Data Science Service 製品概要日本オラクル株式会社

一般的な機械学習環境 2022/5/31 Copyright © 2022, Oracle and/or its affiliates 2

Data Science Service導入のメリット 2022/5/31 Copyright © 2022, Oracle and/or its

• プロジェクト • 全てのリソースを保持する共同ワークスペース • Notebookセッション • モデルを構築、学習するためのコーディング環境 • Jupyter

開発までのステップ 2022/5/31 Copyright © 2022, Oracle and/or its affiliates 5

• Oracle Cloud Infrastructure Data Scienceの一部として機能するPythonライブラリ • 機械学習のライフサイクル全てのフェーズで使いやすくシンプルなAPI

Oracle AutoMLによる自動化 2022/5/31 Copyright © 2022, Oracle and/or its affiliates

Oracle AutoMLによる自動化 2022/5/31 Copyright © 2022, Oracle and/or its affiliates

モデルのデプロイ 2022/5/31 Copyright © 2022, Oracle and/or its affiliates 9

Data Flow Serviceとの連携 Copyright © 2022, Oracle and/or its affiliates

他サービスとの連携による分析基盤 Copyright © 2022, Oracle and/or its affiliates 11 インフラ担当

Data Labelingのデータセットの読み込み 2022/5/31 Copyright © 2022, Oracle and/or its affiliates