Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
アノテーション支援サービス / Amazon SageMaker Ground Truth
Search
kazuya iwami
July 01, 2019
Technology
0
210
アノテーション支援サービス / Amazon SageMaker Ground Truth
アノテーション支援サービスであるAmazon SageMaker Ground Truthの概要を解説した際の資料です
kazuya iwami
July 01, 2019
Tweet
Share
More Decks by kazuya iwami
See All by kazuya iwami
N=1から解き明かすAWS ソリューションアーキテクトの魅力
kiiwami
0
120
BIT VALLEY 2020 数千人規模の顔認証受付サービス、一ヶ月で構築できますか?
kiiwami
0
100
Other Decks in Technology
See All in Technology
レビューを増やしつつ 高評価維持するテクニック
tsuzuki817
1
670
開発組織のための セキュアコーディング研修の始め方
flatt_security
3
2k
5分で紹介する生成AIエージェントとAmazon Bedrock Agents / 5-minutes introduction to generative AI agents and Amazon Bedrock Agents
hideakiaoyagi
0
240
偶然 × 行動で人生の可能性を広げよう / Serendipity × Action: Discover Your Possibilities
ar_tama
1
1.1k
Developer Summit 2025 [14-D-1] Yuki Hattori
yuhattor
19
6.1k
株式会社EventHub・エンジニア採用資料
eventhub
0
4.3k
ホワイトボードチャレンジ 説明&実行資料
ichimichi
0
130
Amazon S3 Tablesと外部分析基盤連携について / Amazon S3 Tables and External Data Analytics Platform
nttcom
0
130
Swiftの “private” を テストする / Testing Swift "private"
yutailang0119
0
130
Developers Summit 2025 浅野卓也(13-B-7 LegalOn Technologies)
legalontechnologies
PRO
0
650
オブザーバビリティの観点でみるAWS / AWS from observability perspective
ymotongpoo
8
1.4k
クラウドサービス事業者におけるOSS
tagomoris
0
210
Featured
See All Featured
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
174
51k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
4 Signs Your Business is Dying
shpigford
182
22k
A designer walks into a library…
pauljervisheath
205
24k
Code Review Best Practice
trishagee
67
18k
Producing Creativity
orderedlist
PRO
344
39k
The Art of Programming - Codeland 2020
erikaheidi
53
13k
Become a Pro
speakerdeck
PRO
26
5.1k
Why Our Code Smells
bkeepers
PRO
336
57k
Scaling GitHub
holman
459
140k
Being A Developer After 40
akosma
89
590k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
356
29k
Transcript
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. アノテーション⽀援サービス Amazon SageMaker Ground Truth Kazuya Iwami Solutions Architect Amazon Web Services Japan K.K.
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ラベル付きデータ 準備 独⾃のデータを利⽤した機械学習の流れ ⼤量の⾼品質な ラベル付けが重要
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ラベル付きデータ 準備 アノテーション(データへのラベル付け)にはコスト・時間がかかる • 進捗管理・作業割り振り • 効率の良いラベリングツールの作成 • 作業を割り当てるワーカーの募集 • これらを⽤意した上で数万個のデータへのラベル付け… 独⾃のデータを利⽤した機械学習の流れ これらの課題を解決するのが Amazon SageMaker Ground Truth
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. Amazon SageMaker Ground Truth データにラベル (Ground Truth) を付与するアノテーション作業の⽀援サービス • アノテーションの⼀般的なワークフローをサポート • 4種類の組み込みラベリングツールを提供 • アノテーション作業を⾏うワーカーとの連携・管理機能を提供 • ⼤規模データセットに対しては⾃動ラベリング機能で最⼤70%のコスト削減 迅速なラベル付け ワーカーとの連携が容易 ⾼精度 New!
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. Ground Truth 利⽤のワークフロー Amazon SageMaker Ground Truth S3 S3 Amazon SageMaker 複数⼈の 結果をマージ ビルトインアルゴリズムを そのまま適応可能
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. 組み込みラベリングツールの利⽤も 独⾃実装も可能 カスタム
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. 物体検出⽤ラベリングツールの画⾯例
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ワーカーは以下の3種類から選択可能 パブリック • クラウドソーシングサービスの Amazon Mechanical Turk を利⽤ • ⾮⾔語依存で機密性の低いタスク向き プライベート • 友⼈や社員をワーカーとして登録出来る • 機密性の⾼いタスク向き • ワーカーの管理にCognitoを利⽤(SAMLでの連携も可) ベンダー • SageMaker Ground Truthに登録済みの アノテーション専⾨ベンダーに依頼
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ⾃動ラベリング データの⼀部をワーカーがラベル付けするだけで、 残りのラベル付けが⾃動化され、時間とコストを⼤幅に削減 アノテーション済み データ ※ 5000データ以上の⼤規模データセットに対して利⽤可能なオプション機能
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. 価格と提供リージョン 価格 • ラベル付けした対象の数に応じた利⽤料 $0.08 / 個 (5万個以上はより安価) • Amazon Mechanical Turk および 外部ベンダを利⽤する際の利⽤料 • ⾃動ラベリング利⽤時は、裏で動くSageMakerの学習/推論の利⽤料 提供リージョン • バージニア北部 / オレゴン / オハイオ / アイルランド / 東京
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. お客様事例 • テキスト分析 • 精密農業 • 製造業の効率化 • ⾃動運転 • 在庫の⽬録作成
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. 組み込みのラベリングツールを利⽤する 場合の⼀例
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. 準備 • アノテーションする画像と結果を保存するS3バケットを⽤意 • アノテーション対象の画像群をS3バケットに保存 (テキスト分類の場合は複数の⽂章が書かれた txt/csv ファイルを⽤意) • 画像群のパスを記述したマニフェストファイルを作成し、S3バケットに保存 (マニフェストファイルは⾃動⽣成機能あり)
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ラベリングジョブの作成 基本情報を設定 • ジョブ名 • マニフェストファイルの場所 (ここで⾃動作成も可能) • 結果の保存場所 • IAMロール
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ラベリングジョブの作成 タスクの種類を選択 • 画像分類 • 物体検出 • セマンティックセグメンテーション • テキスト分類 • ユーザ定義のカスタムタスク
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ラベリングジョブの作成 作業をアサインするワーカーを指定 • ワーカーの種類を選択 • Public (Amazon Mechanical Turk) • Private (社内でアノテーション) • ベンダー • 追加の設定 • ⾃動ラベリングの有効化 • 1データにラベル付けするワーカーの数 ここではPrivateを選択し、数⼈のワーカーのメールアドレスを登録
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ラベリングジョブの作成 ラベリングツールのテンプレートを修正 • タイトル • アノテーションの指⽰ • 説明 • タスクの詳細 • 良い/悪いアノテーション例など • ラベル
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ラベリングジョブの作成 これでジョブが作成され、数分後ワーカーの画⾯でジョブが選択可能になる ワーカーにはツールのURL・ユーザー名・⼀時パスワードがメールで送信される
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. まとめ Amazon SageMaker Ground Truth データにラベル (Ground Truth) を付与するアノテーション作業の⽀援サービス • アノテーションの⼀般的なワークフローをサポート • 4種類の組み込みラベリングツールを提供 • アノテーション作業を⾏うワーカーとの連携・管理機能を提供 • ⼤規模データセットに対しては⾃動ラベリング機能で最⼤70%のコスト削減 迅速なラベル付け ワーカーとの連携が容易 ⾼精度 New!
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. 補⾜
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. その他 • Ground Truthでラベル付けされたデータは、拡張マニフェストファイル形式(JSON) でS3に保存される • アノテーションページのPrivate Linkは未対応 • アノテーション例として表⽰する画像は公開する必要がある (アノテーション対象の画像を公開する必要はない) • ジョブを作成した後にテンプレート等の内容は変更できないので注意 (新しいjobをcloneして対応) • タスクの割り振り量はワーカーごとに等分ではない。好きな量作業できる形式 • ワーカーごとに進捗確認する機能が必要な場合、現状作り込む必要あり • アノテーションを誰も⾏わない期間が10⽇ほど続くとjobがFailed状態となるため注意 ※ 2019年 4⽉ 時点での状況です ※ お客様からの要望に応じて、今後も様々な機能拡張が⾏われます
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. 組み込みのラベリングツールの使⽤例 bird bird
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. 組み込みのラベリングツールの使⽤例
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. カスタムテンプレート 前・後処理のLambda関数とラベリングツールのHTMLテンプレートを変更する ことで、様々なタスクに対応できる機能
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. カスタムテンプレート 前処理⽤Lambdaの作成 • ⼊⼒データの記述されたマニフェストファイルの各項⽬を読み込み、 それをテンプレートエンジンに返す処理を記述 HTMLテンプレート作成 • テンプレートエンジンのLiquidを採⽤ • 簡単なサンプルも多数⽤意されている 後処理⽤Lambda作成 • ワーカーが処理を終了した際の後処理を記述 ※ Lambdaはドキュメントのサンプルコードをベースに作成する必要あり HTMLテンプレートは多数のサンプルの中から選択できる
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. カスタムテンプレート HTMLテンプレートのサンプル例
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. カスタムテンプレート アノテーション対象のデータ形式 • 画像、映像、⾳声、⽂章など様々なファイルをUIに表⽰できる • 複数のデータを扱うことも可能 (2画像の類似度推定等) ラベルの形式 • 既存テンプレートにあるラベル • 多クラス分類 • 画像のセマンティックセグメンテーション • 画像の物体検出(カスタムテンプレートであれば複数クラスも可能) • テキスト(画像に説明⽂を付与するなど) • 詳細はドキュメントに
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ⾃動ラベリングの仕組み アノテーション 前データ ⼀部のデータ
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ⾃動ラベリングの仕組み ラベリング⽤ モデル アノテーション 前データ
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ⾃動ラベリングの仕組み アノテーション 済みデータ ラベリング⽤ モデル アノテーション 前データ 確信度: 0.9
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ⾃動ラベリングの仕組み アノテーション 済みデータ ラベリング⽤ モデル アノテーション 前データ 確信度: 0.2 確信度: 0.9 アノテーション
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ⾃動ラベリングの仕組み アノテーション 済みデータ ラベリング⽤ モデル アノテーション 前データ 確信度: 0.9 確信度: 0.2 アノテーション
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. プライベートなワーカーを追加する 「ラベリング労働⼒ > 新しいワーカーを招待 」から ワーカーのメールアドレスを追加可能
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. パブリックなワーカーを利⽤する プライベートとの違いは以下の3つのみ • ジョブ作成時にワーカータイプ > パブリック を選択 • タスクあたりの料⾦を設定 • 確認項⽬にチェック
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. パブリックなワーカーを利⽤する あとはワーカーがアサインされ、タスクが終了するのを待つだけ
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. パブリックなワーカーを利⽤する • タスクに対して設定する料⾦が安すぎると、 ⼈が集まらない場合やアノテーションの質が低下する場合あり • アノテーションの質を向上させるためには、タスクの説明⽂章の改善や、 1データにアノテーションするワーカーの数を増やすことで対応
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. bulldog sharpei bulldog bulldog 0.7 0.9 0.5 0.3 bulldog 0.1 sharpei 0.9 ラベルの決定 (Label Consolidation): 正答率による評価 正しい ラベルを 選ぶ確率 (犬に詳しい人) • ワーカーの信頼度の重みを付けた多数決によりラベルを決定 • 他のワーカーと異なる回答を頻繁にするワーカーは信頼度が下がる仕組み (ラベリングジョブごとにワーカーの信頼度は異なる)