Upgrade to Pro — share decks privately, control downloads, hide ads and more …

アノテーション支援サービス / Amazon SageMaker Ground Truth

アノテーション支援サービス / Amazon SageMaker Ground Truth

アノテーション支援サービスであるAmazon SageMaker Ground Truthの概要を解説した際の資料です

kazuya iwami

July 01, 2019
Tweet

More Decks by kazuya iwami

Other Decks in Technology

Transcript

  1. © 2018, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. アノテーション⽀援サービス Amazon SageMaker Ground Truth Kazuya Iwami Solutions Architect Amazon Web Services Japan K.K.
  2. © 2018, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. ラベル付きデータ 準備 独⾃のデータを利⽤した機械学習の流れ ⼤量の⾼品質な ラベル付けが重要
  3. © 2018, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. ラベル付きデータ 準備 アノテーション(データへのラベル付け)にはコスト・時間がかかる • 進捗管理・作業割り振り • 効率の良いラベリングツールの作成 • 作業を割り当てるワーカーの募集 • これらを⽤意した上で数万個のデータへのラベル付け… 独⾃のデータを利⽤した機械学習の流れ これらの課題を解決するのが Amazon SageMaker Ground Truth
  4. © 2018, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. Amazon SageMaker Ground Truth データにラベル (Ground Truth) を付与するアノテーション作業の⽀援サービス • アノテーションの⼀般的なワークフローをサポート • 4種類の組み込みラベリングツールを提供 • アノテーション作業を⾏うワーカーとの連携・管理機能を提供 • ⼤規模データセットに対しては⾃動ラベリング機能で最⼤70%のコスト削減 迅速なラベル付け ワーカーとの連携が容易 ⾼精度 New!
  5. © 2018, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. Ground Truth 利⽤のワークフロー Amazon SageMaker Ground Truth S3 S3 Amazon SageMaker 複数⼈の 結果をマージ ビルトインアルゴリズムを そのまま適応可能
  6. © 2018, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. 組み込みラベリングツールの利⽤も 独⾃実装も可能 カスタム
  7. © 2018, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. 物体検出⽤ラベリングツールの画⾯例
  8. © 2018, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. ワーカーは以下の3種類から選択可能 パブリック • クラウドソーシングサービスの Amazon Mechanical Turk を利⽤ • ⾮⾔語依存で機密性の低いタスク向き プライベート • 友⼈や社員をワーカーとして登録出来る • 機密性の⾼いタスク向き • ワーカーの管理にCognitoを利⽤(SAMLでの連携も可) ベンダー • SageMaker Ground Truthに登録済みの アノテーション専⾨ベンダーに依頼
  9. © 2018, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. ⾃動ラベリング データの⼀部をワーカーがラベル付けするだけで、 残りのラベル付けが⾃動化され、時間とコストを⼤幅に削減 アノテーション済み データ ※ 5000データ以上の⼤規模データセットに対して利⽤可能なオプション機能
  10. © 2018, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. 価格と提供リージョン 価格 • ラベル付けした対象の数に応じた利⽤料 $0.08 / 個 (5万個以上はより安価) • Amazon Mechanical Turk および 外部ベンダを利⽤する際の利⽤料 • ⾃動ラベリング利⽤時は、裏で動くSageMakerの学習/推論の利⽤料 提供リージョン • バージニア北部 / オレゴン / オハイオ / アイルランド / 東京
  11. © 2018, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. お客様事例 • テキスト分析 • 精密農業 • 製造業の効率化 • ⾃動運転 • 在庫の⽬録作成
  12. © 2018, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. 組み込みのラベリングツールを利⽤する 場合の⼀例
  13. © 2018, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. 準備 • アノテーションする画像と結果を保存するS3バケットを⽤意 • アノテーション対象の画像群をS3バケットに保存 (テキスト分類の場合は複数の⽂章が書かれた txt/csv ファイルを⽤意) • 画像群のパスを記述したマニフェストファイルを作成し、S3バケットに保存 (マニフェストファイルは⾃動⽣成機能あり)
  14. © 2018, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. ラベリングジョブの作成 基本情報を設定 • ジョブ名 • マニフェストファイルの場所 (ここで⾃動作成も可能) • 結果の保存場所 • IAMロール
  15. © 2018, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. ラベリングジョブの作成 タスクの種類を選択 • 画像分類 • 物体検出 • セマンティックセグメンテーション • テキスト分類 • ユーザ定義のカスタムタスク
  16. © 2018, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. ラベリングジョブの作成 作業をアサインするワーカーを指定 • ワーカーの種類を選択 • Public (Amazon Mechanical Turk) • Private (社内でアノテーション) • ベンダー • 追加の設定 • ⾃動ラベリングの有効化 • 1データにラベル付けするワーカーの数 ここではPrivateを選択し、数⼈のワーカーのメールアドレスを登録
  17. © 2018, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. ラベリングジョブの作成 ラベリングツールのテンプレートを修正 • タイトル • アノテーションの指⽰ • 説明 • タスクの詳細 • 良い/悪いアノテーション例など • ラベル
  18. © 2018, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. ラベリングジョブの作成 これでジョブが作成され、数分後ワーカーの画⾯でジョブが選択可能になる ワーカーにはツールのURL・ユーザー名・⼀時パスワードがメールで送信される
  19. © 2018, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. まとめ Amazon SageMaker Ground Truth データにラベル (Ground Truth) を付与するアノテーション作業の⽀援サービス • アノテーションの⼀般的なワークフローをサポート • 4種類の組み込みラベリングツールを提供 • アノテーション作業を⾏うワーカーとの連携・管理機能を提供 • ⼤規模データセットに対しては⾃動ラベリング機能で最⼤70%のコスト削減 迅速なラベル付け ワーカーとの連携が容易 ⾼精度 New!
  20. © 2018, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. その他 • Ground Truthでラベル付けされたデータは、拡張マニフェストファイル形式(JSON) でS3に保存される • アノテーションページのPrivate Linkは未対応 • アノテーション例として表⽰する画像は公開する必要がある (アノテーション対象の画像を公開する必要はない) • ジョブを作成した後にテンプレート等の内容は変更できないので注意 (新しいjobをcloneして対応) • タスクの割り振り量はワーカーごとに等分ではない。好きな量作業できる形式 • ワーカーごとに進捗確認する機能が必要な場合、現状作り込む必要あり • アノテーションを誰も⾏わない期間が10⽇ほど続くとjobがFailed状態となるため注意 ※ 2019年 4⽉ 時点での状況です ※ お客様からの要望に応じて、今後も様々な機能拡張が⾏われます
  21. © 2018, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. 組み込みのラベリングツールの使⽤例 bird bird
  22. © 2018, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. 組み込みのラベリングツールの使⽤例
  23. © 2018, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. カスタムテンプレート 前・後処理のLambda関数とラベリングツールのHTMLテンプレートを変更する ことで、様々なタスクに対応できる機能
  24. © 2018, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. カスタムテンプレート 前処理⽤Lambdaの作成 • ⼊⼒データの記述されたマニフェストファイルの各項⽬を読み込み、 それをテンプレートエンジンに返す処理を記述 HTMLテンプレート作成 • テンプレートエンジンのLiquidを採⽤ • 簡単なサンプルも多数⽤意されている 後処理⽤Lambda作成 • ワーカーが処理を終了した際の後処理を記述 ※ Lambdaはドキュメントのサンプルコードをベースに作成する必要あり HTMLテンプレートは多数のサンプルの中から選択できる
  25. © 2018, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. カスタムテンプレート HTMLテンプレートのサンプル例
  26. © 2018, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. カスタムテンプレート アノテーション対象のデータ形式 • 画像、映像、⾳声、⽂章など様々なファイルをUIに表⽰できる • 複数のデータを扱うことも可能 (2画像の類似度推定等) ラベルの形式 • 既存テンプレートにあるラベル • 多クラス分類 • 画像のセマンティックセグメンテーション • 画像の物体検出(カスタムテンプレートであれば複数クラスも可能) • テキスト(画像に説明⽂を付与するなど) • 詳細はドキュメントに
  27. © 2018, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. ⾃動ラベリングの仕組み アノテーション 前データ ⼀部のデータ
  28. © 2018, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. ⾃動ラベリングの仕組み ラベリング⽤ モデル アノテーション 前データ
  29. © 2018, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. ⾃動ラベリングの仕組み アノテーション 済みデータ ラベリング⽤ モデル アノテーション 前データ 確信度: 0.9
  30. © 2018, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. ⾃動ラベリングの仕組み アノテーション 済みデータ ラベリング⽤ モデル アノテーション 前データ 確信度: 0.2 確信度: 0.9 アノテーション
  31. © 2018, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. ⾃動ラベリングの仕組み アノテーション 済みデータ ラベリング⽤ モデル アノテーション 前データ 確信度: 0.9 確信度: 0.2 アノテーション
  32. © 2018, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. プライベートなワーカーを追加する 「ラベリング労働⼒ > 新しいワーカーを招待 」から ワーカーのメールアドレスを追加可能
  33. © 2018, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. パブリックなワーカーを利⽤する プライベートとの違いは以下の3つのみ • ジョブ作成時にワーカータイプ > パブリック を選択 • タスクあたりの料⾦を設定 • 確認項⽬にチェック
  34. © 2018, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. パブリックなワーカーを利⽤する あとはワーカーがアサインされ、タスクが終了するのを待つだけ
  35. © 2018, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. パブリックなワーカーを利⽤する • タスクに対して設定する料⾦が安すぎると、 ⼈が集まらない場合やアノテーションの質が低下する場合あり • アノテーションの質を向上させるためには、タスクの説明⽂章の改善や、 1データにアノテーションするワーカーの数を増やすことで対応
  36. © 2018, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. bulldog sharpei bulldog bulldog 0.7 0.9 0.5 0.3 bulldog 0.1 sharpei 0.9 ラベルの決定 (Label Consolidation): 正答率による評価 正しい ラベルを 選ぶ確率 (犬に詳しい人) • ワーカーの信頼度の重みを付けた多数決によりラベルを決定 • 他のワーカーと異なる回答を頻繁にするワーカーは信頼度が下がる仕組み (ラベリングジョブごとにワーカーの信頼度は異なる)