Upgrade to Pro — share decks privately, control downloads, hide ads and more …

OCI Data Labeling Service

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

OCI Data Labeling Service

Avatar for oracle4engineer

oracle4engineer PRO

January 16, 2023
Tweet

More Decks by oracle4engineer

Other Decks in Technology

Transcript

  1. 機会学習のワークフロー 2023/1/23 Copyright © 2022, Oracle and/or its affiliates 2

    • 学習に必要な大量データを収集 • 生データに対して正解ラベル付けな のど前処理を実行 • 統計処理にかけることができるデー タセットにする Raw Data Data Set Train Model Predict • データセットに統計処理にかけ、予 測モデルを生成 • 予測モデルの精度評価を実施 • 精度が低い場合はデータセットの作 成や学習アルゴリズムの見直しを繰 り返し行う • リリースされたモデル を使って予測処理を 行う • 予測モデルにデータ をインプットし、予測 結果を得る Data Result
  2. OCI 機械学習関連サービス 2023/1/23 Copyright © 2022, Oracle and/or its affiliates

    3 • 学習に必要な大量データを収集 • 生データに対して正解ラベル付けな のど前処理を実行 • 統計処理にかけることができるデー タセットにする Raw Data Data Set Train Model Predict • データセットに統計処理にかけ、予 測モデルを生成 • 予測モデルの精度評価を実施 • 精度が低い場合はデータセットの作 成や学習アルゴリズムの見直しを繰 り返し行う • リリースされたモデル を使って予測処理を 行う • 予測モデルにデータ をインプットし、予測 結果を得る Data Result Data Labeling Service データセットの作成、管理 Data Science Service PythonコーディングベースのML環境 AI Vision Service Web UIベースの画像データML環境 AI Language Service ※将来対応予定 Web UIベースの自然言語ML環境
  3. Data Labeling 対象データとラベルの種類 2023/1/23 Copyright © 2022, Oracle and/or its

    affiliates 4 画像ファイル テキストファイル ドキュメントファイル フォーマット JPEG、JPG、PNG TXT PDF、TIF、TIFF ラベルタイプ ⚫ 画像分類 一つの画像ファイルに一つ、もしくは複数の 分類クラス名をラベルとして設定 ⚫ 物体検出 一つの画像ファイルに一つ、もしくは複数の 分類クラス名と物体の位置(座標)をラベル として設定 ⚫ テキスト分類 一つのテキストファイルに一つ、もしくは複数の分 類クラス名をラベルとして設定 ⚫ 固有表現抽出 テキストファイル内の単語や文章に固有表現抽 出用のラベルを設定 ⚫ ドキュメント分類 一つのドキュメントファイルに一つ、もしくは複 数の分類クラス名をラベルとして設定 データセット JSONL、YOLO V5、COCO、PASCAL VOC JSONL、spaCY、CoNLL V2003 JSONL ネコ トラ ライオン トラ 座標A : (x, y) = (2, 5) 座標B : (x, y) = (5, 20) 座標C : (x, y) = (15, 5) 座標D : (x, y) = (18, 5) スポーツ ビジネス 芸能 Today, Oracle released Data Labeling Service. The company’s chairman Larry Ellison said…. 社名 日付 製品名 人名 説明書 小説 漫画 注意:2020年4月現在、ラベル名、ファイル名、データの内容は日本語未対応
  4. Data Labeling のワークフロー 2023/1/23 Copyright © 2022, Oracle and/or its

    affiliates 5 Object Storage Service Data Labeling Service データ データセット ②ラベル付け ④データセットの管理 ①データの読み込み ③データセットとしてエクスポート
  5. 画像ファイルへのラベル付け(分類) 2023/1/23 Copyright © 2022, Oracle and/or its affiliates 6

    各画像ファイルにラベルを設定 任意の名前でラベルを定義
  6. 画像ファイルへのラベル付け(物体検出) 2023/1/23 Copyright © 2022, Oracle and/or its affiliates 7

    バウンディング・ボックスで画像内 の物体を指定しラベルを設定 任意の名前でラベルを定義
  7. テキストファイルのラベル付け(分類) 2023/1/23 Copyright © 2022, Oracle and/or its affiliates 8

    テキストファイルにラベルを設定 任意の名前でラベルを定義
  8. テキストファイルのラベル付け(固有表現抽出) 2023/1/23 Copyright © 2022, Oracle and/or its affiliates 9

    テキストファイル内の文章もしくは 単語にラベルを設定 任意の名前でラベルを定義
  9. ドキュメントファイルへのラベル付け 2023/1/23 Copyright © 2022, Oracle and/or its affiliates 10

    ドキュメントファイルにラベルを設定 任意の名前でラベルを定義
  10. データセット 2023/1/23 Copyright © 2022, Oracle and/or its affiliates 11

    { "id": "ocid1.datalabelingrecord.oc1.ap-tokyo-1.am......", "timeCreated": "2022-04-12 04:32:03", "sourceDetails": { "sourceType": "OBJECT_STORAGE", "path": "images/IMG_0442.jpg" }, "annotations": [ { "id": "ocid1.datalabelingannotation.oc1.ap-tokyo-1.amaaaa....", "timeCreated": "2022-04-13 01:58:35", "createdBy": "ocid1.saml2idp.oc1..aaaaa..../[email protected]", "entities": [ { "entityType": "GENERIC", "labels": [ { "label_name": "bread" } ] } ] } ] } Sample.jsonl(画像ファイルに分類ラベルを一つ付けた場合のデータセットの内容) データファイル ラベル
  11. データセットの読み込み 2023/1/23 Copyright © 2022, Oracle and/or its affiliates 15

    df = pd.DataFrame.ads.read_labeled_data( dataset_id = “<dataset_ocid>”, materialize = True ) dataset_id :Data Labelingで作成したデータセットのOCID materialized : Trueの場合、データフレーム作成時に実データを 読み込む。Falseの場合実データの読み込みは行わない。 Data Science Service AI Vision Service ⚫ Accelerated Data Science APIを利用 ⚫ オブジェクトストレージ上のデータセットのOCIDを指定し、 Pandasデータフレームにデータをロード ⚫ VisionのOCI Consoleからデータセットを選択