Upgrade to Pro — share decks privately, control downloads, hide ads and more …

OCI Data Labeling Service

OCI Data Labeling Service

oracle4engineer
PRO

January 16, 2023
Tweet

More Decks by oracle4engineer

Other Decks in Technology

Transcript

  1. OCI Data Labeling Service
    サービス概要
    2022年4月12日
    日本オラクル株式会社
    ソリューション・アーキテクト本部
    園田憲一

    View Slide

  2. 機会学習のワークフロー
    2023/1/23
    Copyright © 2022, Oracle and/or its affiliates
    2
    • 学習に必要な大量データを収集
    • 生データに対して正解ラベル付けな
    のど前処理を実行
    • 統計処理にかけることができるデー
    タセットにする
    Raw Data Data Set Train Model Predict
    • データセットに統計処理にかけ、予
    測モデルを生成
    • 予測モデルの精度評価を実施
    • 精度が低い場合はデータセットの作
    成や学習アルゴリズムの見直しを繰
    り返し行う
    • リリースされたモデル
    を使って予測処理を
    行う
    • 予測モデルにデータ
    をインプットし、予測
    結果を得る
    Data
    Result

    View Slide

  3. OCI 機械学習関連サービス
    2023/1/23
    Copyright © 2022, Oracle and/or its affiliates
    3
    • 学習に必要な大量データを収集
    • 生データに対して正解ラベル付けな
    のど前処理を実行
    • 統計処理にかけることができるデー
    タセットにする
    Raw Data Data Set Train Model Predict
    • データセットに統計処理にかけ、予
    測モデルを生成
    • 予測モデルの精度評価を実施
    • 精度が低い場合はデータセットの作
    成や学習アルゴリズムの見直しを繰
    り返し行う
    • リリースされたモデル
    を使って予測処理を
    行う
    • 予測モデルにデータ
    をインプットし、予測
    結果を得る
    Data
    Result
    Data Labeling Service
    データセットの作成、管理
    Data Science Service
    PythonコーディングベースのML環境
    AI Vision Service
    Web UIベースの画像データML環境
    AI Language Service
    ※将来対応予定
    Web UIベースの自然言語ML環境

    View Slide

  4. Data Labeling 対象データとラベルの種類
    2023/1/23
    Copyright © 2022, Oracle and/or its affiliates
    4
    画像ファイル テキストファイル ドキュメントファイル
    フォーマット JPEG、JPG、PNG TXT PDF、TIF、TIFF
    ラベルタイプ
    ⚫ 画像分類
    一つの画像ファイルに一つ、もしくは複数の
    分類クラス名をラベルとして設定
    ⚫ 物体検出
    一つの画像ファイルに一つ、もしくは複数の
    分類クラス名と物体の位置(座標)をラベル
    として設定
    ⚫ テキスト分類
    一つのテキストファイルに一つ、もしくは複数の分
    類クラス名をラベルとして設定
    ⚫ 固有表現抽出
    テキストファイル内の単語や文章に固有表現抽
    出用のラベルを設定
    ⚫ ドキュメント分類
    一つのドキュメントファイルに一つ、もしくは複
    数の分類クラス名をラベルとして設定
    データセット JSONL、YOLO V5、COCO、PASCAL VOC JSONL、spaCY、CoNLL V2003 JSONL
    ネコ トラ ライオン
    トラ
    座標A : (x, y) = (2, 5)
    座標B : (x, y) = (5, 20)
    座標C : (x, y) = (15, 5)
    座標D : (x, y) = (18, 5)
    スポーツ ビジネス 芸能
    Today, Oracle released Data Labeling Service.
    The company’s chairman Larry Ellison said….
    社名
    日付 製品名
    人名
    説明書 小説 漫画
    注意:2020年4月現在、ラベル名、ファイル名、データの内容は日本語未対応

    View Slide

  5. Data Labeling のワークフロー
    2023/1/23
    Copyright © 2022, Oracle and/or its affiliates
    5
    Object Storage
    Service
    Data Labeling
    Service
    データ データセット
    ②ラベル付け ④データセットの管理
    ①データの読み込み ③データセットとしてエクスポート

    View Slide

  6. 画像ファイルへのラベル付け(分類)
    2023/1/23
    Copyright © 2022, Oracle and/or its affiliates
    6
    各画像ファイルにラベルを設定
    任意の名前でラベルを定義

    View Slide

  7. 画像ファイルへのラベル付け(物体検出)
    2023/1/23
    Copyright © 2022, Oracle and/or its affiliates
    7
    バウンディング・ボックスで画像内
    の物体を指定しラベルを設定
    任意の名前でラベルを定義

    View Slide

  8. テキストファイルのラベル付け(分類)
    2023/1/23
    Copyright © 2022, Oracle and/or its affiliates
    8
    テキストファイルにラベルを設定
    任意の名前でラベルを定義

    View Slide

  9. テキストファイルのラベル付け(固有表現抽出)
    2023/1/23
    Copyright © 2022, Oracle and/or its affiliates
    9
    テキストファイル内の文章もしくは
    単語にラベルを設定
    任意の名前でラベルを定義

    View Slide

  10. ドキュメントファイルへのラベル付け
    2023/1/23
    Copyright © 2022, Oracle and/or its affiliates
    10
    ドキュメントファイルにラベルを設定
    任意の名前でラベルを定義

    View Slide

  11. データセット
    2023/1/23
    Copyright © 2022, Oracle and/or its affiliates
    11
    {
    "id": "ocid1.datalabelingrecord.oc1.ap-tokyo-1.am......",
    "timeCreated": "2022-04-12 04:32:03",
    "sourceDetails": {
    "sourceType": "OBJECT_STORAGE",
    "path": "images/IMG_0442.jpg"
    },
    "annotations": [
    {
    "id": "ocid1.datalabelingannotation.oc1.ap-tokyo-1.amaaaa....",
    "timeCreated": "2022-04-13 01:58:35",
    "createdBy": "ocid1.saml2idp.oc1..aaaaa..../[email protected]",
    "entities": [
    {
    "entityType": "GENERIC",
    "labels": [
    {
    "label_name": "bread"
    }
    ]
    }
    ]
    }
    ]
    }
    Sample.jsonl(画像ファイルに分類ラベルを一つ付けた場合のデータセットの内容)
    データファイル
    ラベル

    View Slide

  12. データセットの管理(1)
    2023/1/23
    Copyright © 2022, Oracle and/or its affiliates
    12
    データセットのリストと基本情報を
    確認

    View Slide

  13. データセットの管理(2)
    2023/1/23
    Copyright © 2022, Oracle and/or its affiliates
    13
    データセット内のファイルを確認

    View Slide

  14. データセットの管理(3)
    2023/1/23
    Copyright © 2022, Oracle and/or its affiliates
    14
    各データファイルの確認ビュー

    View Slide

  15. データセットの読み込み
    2023/1/23
    Copyright © 2022, Oracle and/or its affiliates
    15
    df = pd.DataFrame.ads.read_labeled_data(
    dataset_id = “”,
    materialize = True
    )
    dataset_id :Data Labelingで作成したデータセットのOCID
    materialized : Trueの場合、データフレーム作成時に実データを
    読み込む。Falseの場合実データの読み込みは行わない。
    Data Science Service AI Vision Service
    ⚫ Accelerated Data Science APIを利用
    ⚫ オブジェクトストレージ上のデータセットのOCIDを指定し、
    Pandasデータフレームにデータをロード
    ⚫ VisionのOCI Consoleからデータセットを選択

    View Slide

  16. View Slide