Upgrade to Pro — share decks privately, control downloads, hide ads and more …

OCI Data Labeling Service

OCI Data Labeling Service

oracle4engineer

January 16, 2023
Tweet

More Decks by oracle4engineer

Other Decks in Technology

Transcript

  1. 機会学習のワークフロー 2023/1/23 Copyright © 2022, Oracle and/or its affiliates 2

    • 学習に必要な大量データを収集 • 生データに対して正解ラベル付けな のど前処理を実行 • 統計処理にかけることができるデー タセットにする Raw Data Data Set Train Model Predict • データセットに統計処理にかけ、予 測モデルを生成 • 予測モデルの精度評価を実施 • 精度が低い場合はデータセットの作 成や学習アルゴリズムの見直しを繰 り返し行う • リリースされたモデル を使って予測処理を 行う • 予測モデルにデータ をインプットし、予測 結果を得る Data Result
  2. OCI 機械学習関連サービス 2023/1/23 Copyright © 2022, Oracle and/or its affiliates

    3 • 学習に必要な大量データを収集 • 生データに対して正解ラベル付けな のど前処理を実行 • 統計処理にかけることができるデー タセットにする Raw Data Data Set Train Model Predict • データセットに統計処理にかけ、予 測モデルを生成 • 予測モデルの精度評価を実施 • 精度が低い場合はデータセットの作 成や学習アルゴリズムの見直しを繰 り返し行う • リリースされたモデル を使って予測処理を 行う • 予測モデルにデータ をインプットし、予測 結果を得る Data Result Data Labeling Service データセットの作成、管理 Data Science Service PythonコーディングベースのML環境 AI Vision Service Web UIベースの画像データML環境 AI Language Service ※将来対応予定 Web UIベースの自然言語ML環境
  3. Data Labeling 対象データとラベルの種類 2023/1/23 Copyright © 2022, Oracle and/or its

    affiliates 4 画像ファイル テキストファイル ドキュメントファイル フォーマット JPEG、JPG、PNG TXT PDF、TIF、TIFF ラベルタイプ ⚫ 画像分類 一つの画像ファイルに一つ、もしくは複数の 分類クラス名をラベルとして設定 ⚫ 物体検出 一つの画像ファイルに一つ、もしくは複数の 分類クラス名と物体の位置(座標)をラベル として設定 ⚫ テキスト分類 一つのテキストファイルに一つ、もしくは複数の分 類クラス名をラベルとして設定 ⚫ 固有表現抽出 テキストファイル内の単語や文章に固有表現抽 出用のラベルを設定 ⚫ ドキュメント分類 一つのドキュメントファイルに一つ、もしくは複 数の分類クラス名をラベルとして設定 データセット JSONL、YOLO V5、COCO、PASCAL VOC JSONL、spaCY、CoNLL V2003 JSONL ネコ トラ ライオン トラ 座標A : (x, y) = (2, 5) 座標B : (x, y) = (5, 20) 座標C : (x, y) = (15, 5) 座標D : (x, y) = (18, 5) スポーツ ビジネス 芸能 Today, Oracle released Data Labeling Service. The company’s chairman Larry Ellison said…. 社名 日付 製品名 人名 説明書 小説 漫画 注意:2020年4月現在、ラベル名、ファイル名、データの内容は日本語未対応
  4. Data Labeling のワークフロー 2023/1/23 Copyright © 2022, Oracle and/or its

    affiliates 5 Object Storage Service Data Labeling Service データ データセット ②ラベル付け ④データセットの管理 ①データの読み込み ③データセットとしてエクスポート
  5. 画像ファイルへのラベル付け(分類) 2023/1/23 Copyright © 2022, Oracle and/or its affiliates 6

    各画像ファイルにラベルを設定 任意の名前でラベルを定義
  6. 画像ファイルへのラベル付け(物体検出) 2023/1/23 Copyright © 2022, Oracle and/or its affiliates 7

    バウンディング・ボックスで画像内 の物体を指定しラベルを設定 任意の名前でラベルを定義
  7. テキストファイルのラベル付け(分類) 2023/1/23 Copyright © 2022, Oracle and/or its affiliates 8

    テキストファイルにラベルを設定 任意の名前でラベルを定義
  8. テキストファイルのラベル付け(固有表現抽出) 2023/1/23 Copyright © 2022, Oracle and/or its affiliates 9

    テキストファイル内の文章もしくは 単語にラベルを設定 任意の名前でラベルを定義
  9. ドキュメントファイルへのラベル付け 2023/1/23 Copyright © 2022, Oracle and/or its affiliates 10

    ドキュメントファイルにラベルを設定 任意の名前でラベルを定義
  10. データセット 2023/1/23 Copyright © 2022, Oracle and/or its affiliates 11

    { "id": "ocid1.datalabelingrecord.oc1.ap-tokyo-1.am......", "timeCreated": "2022-04-12 04:32:03", "sourceDetails": { "sourceType": "OBJECT_STORAGE", "path": "images/IMG_0442.jpg" }, "annotations": [ { "id": "ocid1.datalabelingannotation.oc1.ap-tokyo-1.amaaaa....", "timeCreated": "2022-04-13 01:58:35", "createdBy": "ocid1.saml2idp.oc1..aaaaa..../[email protected]", "entities": [ { "entityType": "GENERIC", "labels": [ { "label_name": "bread" } ] } ] } ] } Sample.jsonl(画像ファイルに分類ラベルを一つ付けた場合のデータセットの内容) データファイル ラベル
  11. データセットの読み込み 2023/1/23 Copyright © 2022, Oracle and/or its affiliates 15

    df = pd.DataFrame.ads.read_labeled_data( dataset_id = “<dataset_ocid>”, materialize = True ) dataset_id :Data Labelingで作成したデータセットのOCID materialized : Trueの場合、データフレーム作成時に実データを 読み込む。Falseの場合実データの読み込みは行わない。 Data Science Service AI Vision Service ⚫ Accelerated Data Science APIを利用 ⚫ オブジェクトストレージ上のデータセットのOCIDを指定し、 Pandasデータフレームにデータをロード ⚫ VisionのOCI Consoleからデータセットを選択