Slide 1

Slide 1 text

OCI Data Labeling Service サービス概要 2022年4月12日 日本オラクル株式会社 ソリューション・アーキテクト本部 園田憲一

Slide 2

Slide 2 text

機会学習のワークフロー 2023/1/23 Copyright © 2022, Oracle and/or its affiliates 2 • 学習に必要な大量データを収集 • 生データに対して正解ラベル付けな のど前処理を実行 • 統計処理にかけることができるデー タセットにする Raw Data Data Set Train Model Predict • データセットに統計処理にかけ、予 測モデルを生成 • 予測モデルの精度評価を実施 • 精度が低い場合はデータセットの作 成や学習アルゴリズムの見直しを繰 り返し行う • リリースされたモデル を使って予測処理を 行う • 予測モデルにデータ をインプットし、予測 結果を得る Data Result

Slide 3

Slide 3 text

OCI 機械学習関連サービス 2023/1/23 Copyright © 2022, Oracle and/or its affiliates 3 • 学習に必要な大量データを収集 • 生データに対して正解ラベル付けな のど前処理を実行 • 統計処理にかけることができるデー タセットにする Raw Data Data Set Train Model Predict • データセットに統計処理にかけ、予 測モデルを生成 • 予測モデルの精度評価を実施 • 精度が低い場合はデータセットの作 成や学習アルゴリズムの見直しを繰 り返し行う • リリースされたモデル を使って予測処理を 行う • 予測モデルにデータ をインプットし、予測 結果を得る Data Result Data Labeling Service データセットの作成、管理 Data Science Service PythonコーディングベースのML環境 AI Vision Service Web UIベースの画像データML環境 AI Language Service ※将来対応予定 Web UIベースの自然言語ML環境

Slide 4

Slide 4 text

Data Labeling 対象データとラベルの種類 2023/1/23 Copyright © 2022, Oracle and/or its affiliates 4 画像ファイル テキストファイル ドキュメントファイル フォーマット JPEG、JPG、PNG TXT PDF、TIF、TIFF ラベルタイプ ⚫ 画像分類 一つの画像ファイルに一つ、もしくは複数の 分類クラス名をラベルとして設定 ⚫ 物体検出 一つの画像ファイルに一つ、もしくは複数の 分類クラス名と物体の位置(座標)をラベル として設定 ⚫ テキスト分類 一つのテキストファイルに一つ、もしくは複数の分 類クラス名をラベルとして設定 ⚫ 固有表現抽出 テキストファイル内の単語や文章に固有表現抽 出用のラベルを設定 ⚫ ドキュメント分類 一つのドキュメントファイルに一つ、もしくは複 数の分類クラス名をラベルとして設定 データセット JSONL、YOLO V5、COCO、PASCAL VOC JSONL、spaCY、CoNLL V2003 JSONL ネコ トラ ライオン トラ 座標A : (x, y) = (2, 5) 座標B : (x, y) = (5, 20) 座標C : (x, y) = (15, 5) 座標D : (x, y) = (18, 5) スポーツ ビジネス 芸能 Today, Oracle released Data Labeling Service. The company’s chairman Larry Ellison said…. 社名 日付 製品名 人名 説明書 小説 漫画 注意:2020年4月現在、ラベル名、ファイル名、データの内容は日本語未対応

Slide 5

Slide 5 text

Data Labeling のワークフロー 2023/1/23 Copyright © 2022, Oracle and/or its affiliates 5 Object Storage Service Data Labeling Service データ データセット ②ラベル付け ④データセットの管理 ①データの読み込み ③データセットとしてエクスポート

Slide 6

Slide 6 text

画像ファイルへのラベル付け(分類) 2023/1/23 Copyright © 2022, Oracle and/or its affiliates 6 各画像ファイルにラベルを設定 任意の名前でラベルを定義

Slide 7

Slide 7 text

画像ファイルへのラベル付け(物体検出) 2023/1/23 Copyright © 2022, Oracle and/or its affiliates 7 バウンディング・ボックスで画像内 の物体を指定しラベルを設定 任意の名前でラベルを定義

Slide 8

Slide 8 text

テキストファイルのラベル付け(分類) 2023/1/23 Copyright © 2022, Oracle and/or its affiliates 8 テキストファイルにラベルを設定 任意の名前でラベルを定義

Slide 9

Slide 9 text

テキストファイルのラベル付け(固有表現抽出) 2023/1/23 Copyright © 2022, Oracle and/or its affiliates 9 テキストファイル内の文章もしくは 単語にラベルを設定 任意の名前でラベルを定義

Slide 10

Slide 10 text

ドキュメントファイルへのラベル付け 2023/1/23 Copyright © 2022, Oracle and/or its affiliates 10 ドキュメントファイルにラベルを設定 任意の名前でラベルを定義

Slide 11

Slide 11 text

データセット 2023/1/23 Copyright © 2022, Oracle and/or its affiliates 11 { "id": "ocid1.datalabelingrecord.oc1.ap-tokyo-1.am......", "timeCreated": "2022-04-12 04:32:03", "sourceDetails": { "sourceType": "OBJECT_STORAGE", "path": "images/IMG_0442.jpg" }, "annotations": [ { "id": "ocid1.datalabelingannotation.oc1.ap-tokyo-1.amaaaa....", "timeCreated": "2022-04-13 01:58:35", "createdBy": "ocid1.saml2idp.oc1..aaaaa..../[email protected]", "entities": [ { "entityType": "GENERIC", "labels": [ { "label_name": "bread" } ] } ] } ] } Sample.jsonl(画像ファイルに分類ラベルを一つ付けた場合のデータセットの内容) データファイル ラベル

Slide 12

Slide 12 text

データセットの管理(1) 2023/1/23 Copyright © 2022, Oracle and/or its affiliates 12 データセットのリストと基本情報を 確認

Slide 13

Slide 13 text

データセットの管理(2) 2023/1/23 Copyright © 2022, Oracle and/or its affiliates 13 データセット内のファイルを確認

Slide 14

Slide 14 text

データセットの管理(3) 2023/1/23 Copyright © 2022, Oracle and/or its affiliates 14 各データファイルの確認ビュー

Slide 15

Slide 15 text

データセットの読み込み 2023/1/23 Copyright © 2022, Oracle and/or its affiliates 15 df = pd.DataFrame.ads.read_labeled_data( dataset_id = “”, materialize = True ) dataset_id :Data Labelingで作成したデータセットのOCID materialized : Trueの場合、データフレーム作成時に実データを 読み込む。Falseの場合実データの読み込みは行わない。 Data Science Service AI Vision Service ⚫ Accelerated Data Science APIを利用 ⚫ オブジェクトストレージ上のデータセットのOCIDを指定し、 Pandasデータフレームにデータをロード ⚫ VisionのOCI Consoleからデータセットを選択

Slide 16

Slide 16 text

No content