Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
アノテーション支援サービス / Amazon SageMaker Ground Truth
Search
kazuya iwami
July 01, 2019
Technology
0
230
アノテーション支援サービス / Amazon SageMaker Ground Truth
アノテーション支援サービスであるAmazon SageMaker Ground Truthの概要を解説した際の資料です
kazuya iwami
July 01, 2019
Tweet
Share
More Decks by kazuya iwami
See All by kazuya iwami
コンテンツ審査を題材とした 生成AI機能実装のベストプラクティス
kiiwami
0
2
N=1から解き明かすAWS ソリューションアーキテクトの魅力
kiiwami
0
200
BIT VALLEY 2020 数千人規模の顔認証受付サービス、一ヶ月で構築できますか?
kiiwami
0
110
Other Decks in Technology
See All in Technology
クラウド開発環境Cloud Workstationsの紹介
yunosukey
0
200
Writing Ruby Scripts with TypeProf
mame
0
380
Classmethod AI Talks(CATs) #21 司会進行スライド(2025.04.17) / classmethod-ai-talks-aka-cats_moderator-slides_vol21_2025-04-17
shinyaa31
0
620
バクラクの認証基盤の成長と現在地 / bakuraku-authn-platform
convto
4
720
意思決定を支える検索体験を目指してやってきたこと
hinatades
PRO
0
270
ガバクラのAWS長期継続割引 ~次の4/1に慌てないために~
hamijay_cloud
1
450
Winning at PHP in Production in 2025
beberlei
1
200
2025-04-24 "Manga AI Understanding & Localization" Furukawa Arata (CyberAgent, Inc)
ornew
2
280
MCPを活用した検索システムの作り方/How to implement search systems with MCP #catalks
quiver
13
7.1k
SnowflakeとDatabricks両方でRAGを構築してみた
kameitomohiro
1
470
“パスワードレス認証への道" ユーザー認証の変遷とパスキーの関係
ritou
1
630
JPOUG Tech Talk #12 UNDO Tablespace Reintroduction
nori_shinoda
2
160
Featured
See All Featured
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
26k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
29
1.6k
Statistics for Hackers
jakevdp
798
220k
The Cult of Friendly URLs
andyhume
78
6.3k
Docker and Python
trallard
44
3.3k
jQuery: Nuts, Bolts and Bling
dougneiner
63
7.7k
Optimizing for Happiness
mojombo
377
70k
Site-Speed That Sticks
csswizardry
5
500
Building a Scalable Design System with Sketch
lauravandoore
462
33k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
135
33k
The Pragmatic Product Professional
lauravandoore
33
6.6k
GitHub's CSS Performance
jonrohan
1030
460k
Transcript
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. アノテーション⽀援サービス Amazon SageMaker Ground Truth Kazuya Iwami Solutions Architect Amazon Web Services Japan K.K.
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ラベル付きデータ 準備 独⾃のデータを利⽤した機械学習の流れ ⼤量の⾼品質な ラベル付けが重要
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ラベル付きデータ 準備 アノテーション(データへのラベル付け)にはコスト・時間がかかる • 進捗管理・作業割り振り • 効率の良いラベリングツールの作成 • 作業を割り当てるワーカーの募集 • これらを⽤意した上で数万個のデータへのラベル付け… 独⾃のデータを利⽤した機械学習の流れ これらの課題を解決するのが Amazon SageMaker Ground Truth
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. Amazon SageMaker Ground Truth データにラベル (Ground Truth) を付与するアノテーション作業の⽀援サービス • アノテーションの⼀般的なワークフローをサポート • 4種類の組み込みラベリングツールを提供 • アノテーション作業を⾏うワーカーとの連携・管理機能を提供 • ⼤規模データセットに対しては⾃動ラベリング機能で最⼤70%のコスト削減 迅速なラベル付け ワーカーとの連携が容易 ⾼精度 New!
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. Ground Truth 利⽤のワークフロー Amazon SageMaker Ground Truth S3 S3 Amazon SageMaker 複数⼈の 結果をマージ ビルトインアルゴリズムを そのまま適応可能
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. 組み込みラベリングツールの利⽤も 独⾃実装も可能 カスタム
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. 物体検出⽤ラベリングツールの画⾯例
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ワーカーは以下の3種類から選択可能 パブリック • クラウドソーシングサービスの Amazon Mechanical Turk を利⽤ • ⾮⾔語依存で機密性の低いタスク向き プライベート • 友⼈や社員をワーカーとして登録出来る • 機密性の⾼いタスク向き • ワーカーの管理にCognitoを利⽤(SAMLでの連携も可) ベンダー • SageMaker Ground Truthに登録済みの アノテーション専⾨ベンダーに依頼
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ⾃動ラベリング データの⼀部をワーカーがラベル付けするだけで、 残りのラベル付けが⾃動化され、時間とコストを⼤幅に削減 アノテーション済み データ ※ 5000データ以上の⼤規模データセットに対して利⽤可能なオプション機能
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. 価格と提供リージョン 価格 • ラベル付けした対象の数に応じた利⽤料 $0.08 / 個 (5万個以上はより安価) • Amazon Mechanical Turk および 外部ベンダを利⽤する際の利⽤料 • ⾃動ラベリング利⽤時は、裏で動くSageMakerの学習/推論の利⽤料 提供リージョン • バージニア北部 / オレゴン / オハイオ / アイルランド / 東京
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. お客様事例 • テキスト分析 • 精密農業 • 製造業の効率化 • ⾃動運転 • 在庫の⽬録作成
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. 組み込みのラベリングツールを利⽤する 場合の⼀例
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. 準備 • アノテーションする画像と結果を保存するS3バケットを⽤意 • アノテーション対象の画像群をS3バケットに保存 (テキスト分類の場合は複数の⽂章が書かれた txt/csv ファイルを⽤意) • 画像群のパスを記述したマニフェストファイルを作成し、S3バケットに保存 (マニフェストファイルは⾃動⽣成機能あり)
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ラベリングジョブの作成 基本情報を設定 • ジョブ名 • マニフェストファイルの場所 (ここで⾃動作成も可能) • 結果の保存場所 • IAMロール
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ラベリングジョブの作成 タスクの種類を選択 • 画像分類 • 物体検出 • セマンティックセグメンテーション • テキスト分類 • ユーザ定義のカスタムタスク
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ラベリングジョブの作成 作業をアサインするワーカーを指定 • ワーカーの種類を選択 • Public (Amazon Mechanical Turk) • Private (社内でアノテーション) • ベンダー • 追加の設定 • ⾃動ラベリングの有効化 • 1データにラベル付けするワーカーの数 ここではPrivateを選択し、数⼈のワーカーのメールアドレスを登録
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ラベリングジョブの作成 ラベリングツールのテンプレートを修正 • タイトル • アノテーションの指⽰ • 説明 • タスクの詳細 • 良い/悪いアノテーション例など • ラベル
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ラベリングジョブの作成 これでジョブが作成され、数分後ワーカーの画⾯でジョブが選択可能になる ワーカーにはツールのURL・ユーザー名・⼀時パスワードがメールで送信される
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. まとめ Amazon SageMaker Ground Truth データにラベル (Ground Truth) を付与するアノテーション作業の⽀援サービス • アノテーションの⼀般的なワークフローをサポート • 4種類の組み込みラベリングツールを提供 • アノテーション作業を⾏うワーカーとの連携・管理機能を提供 • ⼤規模データセットに対しては⾃動ラベリング機能で最⼤70%のコスト削減 迅速なラベル付け ワーカーとの連携が容易 ⾼精度 New!
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. 補⾜
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. その他 • Ground Truthでラベル付けされたデータは、拡張マニフェストファイル形式(JSON) でS3に保存される • アノテーションページのPrivate Linkは未対応 • アノテーション例として表⽰する画像は公開する必要がある (アノテーション対象の画像を公開する必要はない) • ジョブを作成した後にテンプレート等の内容は変更できないので注意 (新しいjobをcloneして対応) • タスクの割り振り量はワーカーごとに等分ではない。好きな量作業できる形式 • ワーカーごとに進捗確認する機能が必要な場合、現状作り込む必要あり • アノテーションを誰も⾏わない期間が10⽇ほど続くとjobがFailed状態となるため注意 ※ 2019年 4⽉ 時点での状況です ※ お客様からの要望に応じて、今後も様々な機能拡張が⾏われます
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. 組み込みのラベリングツールの使⽤例 bird bird
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. 組み込みのラベリングツールの使⽤例
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. カスタムテンプレート 前・後処理のLambda関数とラベリングツールのHTMLテンプレートを変更する ことで、様々なタスクに対応できる機能
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. カスタムテンプレート 前処理⽤Lambdaの作成 • ⼊⼒データの記述されたマニフェストファイルの各項⽬を読み込み、 それをテンプレートエンジンに返す処理を記述 HTMLテンプレート作成 • テンプレートエンジンのLiquidを採⽤ • 簡単なサンプルも多数⽤意されている 後処理⽤Lambda作成 • ワーカーが処理を終了した際の後処理を記述 ※ Lambdaはドキュメントのサンプルコードをベースに作成する必要あり HTMLテンプレートは多数のサンプルの中から選択できる
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. カスタムテンプレート HTMLテンプレートのサンプル例
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. カスタムテンプレート アノテーション対象のデータ形式 • 画像、映像、⾳声、⽂章など様々なファイルをUIに表⽰できる • 複数のデータを扱うことも可能 (2画像の類似度推定等) ラベルの形式 • 既存テンプレートにあるラベル • 多クラス分類 • 画像のセマンティックセグメンテーション • 画像の物体検出(カスタムテンプレートであれば複数クラスも可能) • テキスト(画像に説明⽂を付与するなど) • 詳細はドキュメントに
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ⾃動ラベリングの仕組み アノテーション 前データ ⼀部のデータ
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ⾃動ラベリングの仕組み ラベリング⽤ モデル アノテーション 前データ
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ⾃動ラベリングの仕組み アノテーション 済みデータ ラベリング⽤ モデル アノテーション 前データ 確信度: 0.9
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ⾃動ラベリングの仕組み アノテーション 済みデータ ラベリング⽤ モデル アノテーション 前データ 確信度: 0.2 確信度: 0.9 アノテーション
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ⾃動ラベリングの仕組み アノテーション 済みデータ ラベリング⽤ モデル アノテーション 前データ 確信度: 0.9 確信度: 0.2 アノテーション
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. プライベートなワーカーを追加する 「ラベリング労働⼒ > 新しいワーカーを招待 」から ワーカーのメールアドレスを追加可能
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. パブリックなワーカーを利⽤する プライベートとの違いは以下の3つのみ • ジョブ作成時にワーカータイプ > パブリック を選択 • タスクあたりの料⾦を設定 • 確認項⽬にチェック
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. パブリックなワーカーを利⽤する あとはワーカーがアサインされ、タスクが終了するのを待つだけ
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. パブリックなワーカーを利⽤する • タスクに対して設定する料⾦が安すぎると、 ⼈が集まらない場合やアノテーションの質が低下する場合あり • アノテーションの質を向上させるためには、タスクの説明⽂章の改善や、 1データにアノテーションするワーカーの数を増やすことで対応
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. bulldog sharpei bulldog bulldog 0.7 0.9 0.5 0.3 bulldog 0.1 sharpei 0.9 ラベルの決定 (Label Consolidation): 正答率による評価 正しい ラベルを 選ぶ確率 (犬に詳しい人) • ワーカーの信頼度の重みを付けた多数決によりラベルを決定 • 他のワーカーと異なる回答を頻繁にするワーカーは信頼度が下がる仕組み (ラベリングジョブごとにワーカーの信頼度は異なる)