Slide 1

Slide 1 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. アノテーション⽀援サービス Amazon SageMaker Ground Truth Kazuya Iwami Solutions Architect Amazon Web Services Japan K.K.

Slide 2

Slide 2 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. ラベル付きデータ 準備 独⾃のデータを利⽤した機械学習の流れ ⼤量の⾼品質な ラベル付けが重要

Slide 3

Slide 3 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. ラベル付きデータ 準備 アノテーション(データへのラベル付け)にはコスト・時間がかかる • 進捗管理・作業割り振り • 効率の良いラベリングツールの作成 • 作業を割り当てるワーカーの募集 • これらを⽤意した上で数万個のデータへのラベル付け… 独⾃のデータを利⽤した機械学習の流れ これらの課題を解決するのが Amazon SageMaker Ground Truth

Slide 4

Slide 4 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon SageMaker Ground Truth データにラベル (Ground Truth) を付与するアノテーション作業の⽀援サービス • アノテーションの⼀般的なワークフローをサポート • 4種類の組み込みラベリングツールを提供 • アノテーション作業を⾏うワーカーとの連携・管理機能を提供 • ⼤規模データセットに対しては⾃動ラベリング機能で最⼤70%のコスト削減 迅速なラベル付け ワーカーとの連携が容易 ⾼精度 New!

Slide 5

Slide 5 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Ground Truth 利⽤のワークフロー Amazon SageMaker Ground Truth S3 S3 Amazon SageMaker 複数⼈の 結果をマージ ビルトインアルゴリズムを そのまま適応可能

Slide 6

Slide 6 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 組み込みラベリングツールの利⽤も 独⾃実装も可能 カスタム

Slide 7

Slide 7 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 物体検出⽤ラベリングツールの画⾯例

Slide 8

Slide 8 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. ワーカーは以下の3種類から選択可能 パブリック • クラウドソーシングサービスの Amazon Mechanical Turk を利⽤ • ⾮⾔語依存で機密性の低いタスク向き プライベート • 友⼈や社員をワーカーとして登録出来る • 機密性の⾼いタスク向き • ワーカーの管理にCognitoを利⽤(SAMLでの連携も可) ベンダー • SageMaker Ground Truthに登録済みの アノテーション専⾨ベンダーに依頼

Slide 9

Slide 9 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. ⾃動ラベリング データの⼀部をワーカーがラベル付けするだけで、 残りのラベル付けが⾃動化され、時間とコストを⼤幅に削減 アノテーション済み データ ※ 5000データ以上の⼤規模データセットに対して利⽤可能なオプション機能

Slide 10

Slide 10 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 価格と提供リージョン 価格 • ラベル付けした対象の数に応じた利⽤料 $0.08 / 個 (5万個以上はより安価) • Amazon Mechanical Turk および 外部ベンダを利⽤する際の利⽤料 • ⾃動ラベリング利⽤時は、裏で動くSageMakerの学習/推論の利⽤料 提供リージョン • バージニア北部 / オレゴン / オハイオ / アイルランド / 東京

Slide 11

Slide 11 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. お客様事例 • テキスト分析 • 精密農業 • 製造業の効率化 • ⾃動運転 • 在庫の⽬録作成

Slide 12

Slide 12 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 組み込みのラベリングツールを利⽤する 場合の⼀例

Slide 13

Slide 13 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 準備 • アノテーションする画像と結果を保存するS3バケットを⽤意 • アノテーション対象の画像群をS3バケットに保存 (テキスト分類の場合は複数の⽂章が書かれた txt/csv ファイルを⽤意) • 画像群のパスを記述したマニフェストファイルを作成し、S3バケットに保存 (マニフェストファイルは⾃動⽣成機能あり)

Slide 14

Slide 14 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. ラベリングジョブの作成 基本情報を設定 • ジョブ名 • マニフェストファイルの場所 (ここで⾃動作成も可能) • 結果の保存場所 • IAMロール

Slide 15

Slide 15 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. ラベリングジョブの作成 タスクの種類を選択 • 画像分類 • 物体検出 • セマンティックセグメンテーション • テキスト分類 • ユーザ定義のカスタムタスク

Slide 16

Slide 16 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. ラベリングジョブの作成 作業をアサインするワーカーを指定 • ワーカーの種類を選択 • Public (Amazon Mechanical Turk) • Private (社内でアノテーション) • ベンダー • 追加の設定 • ⾃動ラベリングの有効化 • 1データにラベル付けするワーカーの数 ここではPrivateを選択し、数⼈のワーカーのメールアドレスを登録

Slide 17

Slide 17 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. ラベリングジョブの作成 ラベリングツールのテンプレートを修正 • タイトル • アノテーションの指⽰ • 説明 • タスクの詳細 • 良い/悪いアノテーション例など • ラベル

Slide 18

Slide 18 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. ラベリングジョブの作成 これでジョブが作成され、数分後ワーカーの画⾯でジョブが選択可能になる ワーカーにはツールのURL・ユーザー名・⼀時パスワードがメールで送信される

Slide 19

Slide 19 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. まとめ Amazon SageMaker Ground Truth データにラベル (Ground Truth) を付与するアノテーション作業の⽀援サービス • アノテーションの⼀般的なワークフローをサポート • 4種類の組み込みラベリングツールを提供 • アノテーション作業を⾏うワーカーとの連携・管理機能を提供 • ⼤規模データセットに対しては⾃動ラベリング機能で最⼤70%のコスト削減 迅速なラベル付け ワーカーとの連携が容易 ⾼精度 New!

Slide 20

Slide 20 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 補⾜

Slide 21

Slide 21 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. その他 • Ground Truthでラベル付けされたデータは、拡張マニフェストファイル形式(JSON) でS3に保存される • アノテーションページのPrivate Linkは未対応 • アノテーション例として表⽰する画像は公開する必要がある (アノテーション対象の画像を公開する必要はない) • ジョブを作成した後にテンプレート等の内容は変更できないので注意 (新しいjobをcloneして対応) • タスクの割り振り量はワーカーごとに等分ではない。好きな量作業できる形式 • ワーカーごとに進捗確認する機能が必要な場合、現状作り込む必要あり • アノテーションを誰も⾏わない期間が10⽇ほど続くとjobがFailed状態となるため注意 ※ 2019年 4⽉ 時点での状況です ※ お客様からの要望に応じて、今後も様々な機能拡張が⾏われます

Slide 22

Slide 22 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 組み込みのラベリングツールの使⽤例 bird bird

Slide 23

Slide 23 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 組み込みのラベリングツールの使⽤例

Slide 24

Slide 24 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. カスタムテンプレート 前・後処理のLambda関数とラベリングツールのHTMLテンプレートを変更する ことで、様々なタスクに対応できる機能

Slide 25

Slide 25 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. カスタムテンプレート 前処理⽤Lambdaの作成 • ⼊⼒データの記述されたマニフェストファイルの各項⽬を読み込み、 それをテンプレートエンジンに返す処理を記述 HTMLテンプレート作成 • テンプレートエンジンのLiquidを採⽤ • 簡単なサンプルも多数⽤意されている 後処理⽤Lambda作成 • ワーカーが処理を終了した際の後処理を記述 ※ Lambdaはドキュメントのサンプルコードをベースに作成する必要あり HTMLテンプレートは多数のサンプルの中から選択できる

Slide 26

Slide 26 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. カスタムテンプレート HTMLテンプレートのサンプル例

Slide 27

Slide 27 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. カスタムテンプレート アノテーション対象のデータ形式 • 画像、映像、⾳声、⽂章など様々なファイルをUIに表⽰できる • 複数のデータを扱うことも可能 (2画像の類似度推定等) ラベルの形式 • 既存テンプレートにあるラベル • 多クラス分類 • 画像のセマンティックセグメンテーション • 画像の物体検出(カスタムテンプレートであれば複数クラスも可能) • テキスト(画像に説明⽂を付与するなど) • 詳細はドキュメントに

Slide 28

Slide 28 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. ⾃動ラベリングの仕組み アノテーション 前データ ⼀部のデータ

Slide 29

Slide 29 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. ⾃動ラベリングの仕組み ラベリング⽤ モデル アノテーション 前データ

Slide 30

Slide 30 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. ⾃動ラベリングの仕組み アノテーション 済みデータ ラベリング⽤ モデル アノテーション 前データ 確信度: 0.9

Slide 31

Slide 31 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. ⾃動ラベリングの仕組み アノテーション 済みデータ ラベリング⽤ モデル アノテーション 前データ 確信度: 0.2 確信度: 0.9 アノテーション

Slide 32

Slide 32 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. ⾃動ラベリングの仕組み アノテーション 済みデータ ラベリング⽤ モデル アノテーション 前データ 確信度: 0.9 確信度: 0.2 アノテーション

Slide 33

Slide 33 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. プライベートなワーカーを追加する 「ラベリング労働⼒ > 新しいワーカーを招待 」から ワーカーのメールアドレスを追加可能

Slide 34

Slide 34 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. パブリックなワーカーを利⽤する プライベートとの違いは以下の3つのみ • ジョブ作成時にワーカータイプ > パブリック を選択 • タスクあたりの料⾦を設定 • 確認項⽬にチェック

Slide 35

Slide 35 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. パブリックなワーカーを利⽤する あとはワーカーがアサインされ、タスクが終了するのを待つだけ

Slide 36

Slide 36 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. パブリックなワーカーを利⽤する • タスクに対して設定する料⾦が安すぎると、 ⼈が集まらない場合やアノテーションの質が低下する場合あり • アノテーションの質を向上させるためには、タスクの説明⽂章の改善や、 1データにアノテーションするワーカーの数を増やすことで対応

Slide 37

Slide 37 text

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. bulldog sharpei bulldog bulldog 0.7 0.9 0.5 0.3 bulldog 0.1 sharpei 0.9 ラベルの決定 (Label Consolidation): 正答率による評価 正しい ラベルを 選ぶ確率 (犬に詳しい人) • ワーカーの信頼度の重みを付けた多数決によりラベルを決定 • 他のワーカーと異なる回答を頻繁にするワーカーは信頼度が下がる仕組み (ラベリングジョブごとにワーカーの信頼度は異なる)