Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
アノテーション支援サービス / Amazon SageMaker Ground Truth
Search
kazuya iwami
July 01, 2019
Technology
280
0
Share
アノテーション支援サービス / Amazon SageMaker Ground Truth
アノテーション支援サービスであるAmazon SageMaker Ground Truthの概要を解説した際の資料です
kazuya iwami
July 01, 2019
More Decks by kazuya iwami
See All by kazuya iwami
コンテンツ審査を題材とした 生成AI機能実装のベストプラクティス
kiiwami
0
28
N=1から解き明かすAWS ソリューションアーキテクトの魅力
kiiwami
0
340
Amazon Bedrock を用いた生成 AI 活用時のコスト最適化
kiiwami
1
39
はじめてのアーキテクティング - クラウド上でアーキテクチャを設計するコツを学ぼう
kiiwami
0
13
BIT VALLEY 2020 数千人規模の顔認証受付サービス、一ヶ月で構築できますか?
kiiwami
0
120
1人から1000万人までの道のり:AWSにおけるスケールするインフラ設計とは?
kiiwami
0
25
Other Decks in Technology
See All in Technology
20260428_Product Management Summit_tadokoroyoshiro
tadokoro_yoshiro
15
18k
VespaのParent Childを用いたフィードパフォーマンスの改善
taking
0
260
AI時代に越境し、 組織を変えるQAスキルの正体 / QA Skills for Transforming an Organization
mii3king
5
3.8k
新卒エンジニア研修、ハンズオンの設計における課題と実践知/ #tachikawaany
nishiuma
2
120
バイブコーディングで3倍早く⚪⚪を作ってみた
samakada
0
220
Digital Independence: Why, When and How
wannesrams
0
280
アクセシビリティはすべての人のもの
tomokusaba
0
260
毎日の作業を Claude Code 経由にしたら、 ノウハウがコードになった
kossykinto
0
230
AIと乗り切った1,500ページ超のヘルプサイト基盤刷新とさらにその先の話
mugi_uno
2
300
Agent の「自由」と「安全」〜未来に向けて今できること〜
katayan
0
330
生成AIはソフトウェア開発の革命か、ソフトウェア工学の宿題再提出なのか -ソフトウェア品質特性の追加提案-
kyonmm
PRO
2
840
コミュニティ・勉強会を作るのは目的じゃない
ohmori_yusuke
0
290
Featured
See All Featured
Unsuck your backbone
ammeep
672
58k
Crafting Experiences
bethany
1
140
Organizational Design Perspectives: An Ontology of Organizational Design Elements
kimpetersen
PRO
1
680
Measuring Dark Social's Impact On Conversion and Attribution
stephenakadiri
2
190
A Tale of Four Properties
chriscoyier
163
24k
What the history of the web can teach us about the future of AI
inesmontani
PRO
1
540
Large-scale JavaScript Application Architecture
addyosmani
515
110k
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
1
180
Tell your own story through comics
letsgokoyo
1
910
Code Reviewing Like a Champion
maltzj
528
40k
Conquering PDFs: document understanding beyond plain text
inesmontani
PRO
4
2.7k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.6k
Transcript
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. アノテーション⽀援サービス Amazon SageMaker Ground Truth Kazuya Iwami Solutions Architect Amazon Web Services Japan K.K.
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ラベル付きデータ 準備 独⾃のデータを利⽤した機械学習の流れ ⼤量の⾼品質な ラベル付けが重要
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ラベル付きデータ 準備 アノテーション(データへのラベル付け)にはコスト・時間がかかる • 進捗管理・作業割り振り • 効率の良いラベリングツールの作成 • 作業を割り当てるワーカーの募集 • これらを⽤意した上で数万個のデータへのラベル付け… 独⾃のデータを利⽤した機械学習の流れ これらの課題を解決するのが Amazon SageMaker Ground Truth
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. Amazon SageMaker Ground Truth データにラベル (Ground Truth) を付与するアノテーション作業の⽀援サービス • アノテーションの⼀般的なワークフローをサポート • 4種類の組み込みラベリングツールを提供 • アノテーション作業を⾏うワーカーとの連携・管理機能を提供 • ⼤規模データセットに対しては⾃動ラベリング機能で最⼤70%のコスト削減 迅速なラベル付け ワーカーとの連携が容易 ⾼精度 New!
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. Ground Truth 利⽤のワークフロー Amazon SageMaker Ground Truth S3 S3 Amazon SageMaker 複数⼈の 結果をマージ ビルトインアルゴリズムを そのまま適応可能
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. 組み込みラベリングツールの利⽤も 独⾃実装も可能 カスタム
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. 物体検出⽤ラベリングツールの画⾯例
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ワーカーは以下の3種類から選択可能 パブリック • クラウドソーシングサービスの Amazon Mechanical Turk を利⽤ • ⾮⾔語依存で機密性の低いタスク向き プライベート • 友⼈や社員をワーカーとして登録出来る • 機密性の⾼いタスク向き • ワーカーの管理にCognitoを利⽤(SAMLでの連携も可) ベンダー • SageMaker Ground Truthに登録済みの アノテーション専⾨ベンダーに依頼
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ⾃動ラベリング データの⼀部をワーカーがラベル付けするだけで、 残りのラベル付けが⾃動化され、時間とコストを⼤幅に削減 アノテーション済み データ ※ 5000データ以上の⼤規模データセットに対して利⽤可能なオプション機能
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. 価格と提供リージョン 価格 • ラベル付けした対象の数に応じた利⽤料 $0.08 / 個 (5万個以上はより安価) • Amazon Mechanical Turk および 外部ベンダを利⽤する際の利⽤料 • ⾃動ラベリング利⽤時は、裏で動くSageMakerの学習/推論の利⽤料 提供リージョン • バージニア北部 / オレゴン / オハイオ / アイルランド / 東京
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. お客様事例 • テキスト分析 • 精密農業 • 製造業の効率化 • ⾃動運転 • 在庫の⽬録作成
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. 組み込みのラベリングツールを利⽤する 場合の⼀例
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. 準備 • アノテーションする画像と結果を保存するS3バケットを⽤意 • アノテーション対象の画像群をS3バケットに保存 (テキスト分類の場合は複数の⽂章が書かれた txt/csv ファイルを⽤意) • 画像群のパスを記述したマニフェストファイルを作成し、S3バケットに保存 (マニフェストファイルは⾃動⽣成機能あり)
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ラベリングジョブの作成 基本情報を設定 • ジョブ名 • マニフェストファイルの場所 (ここで⾃動作成も可能) • 結果の保存場所 • IAMロール
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ラベリングジョブの作成 タスクの種類を選択 • 画像分類 • 物体検出 • セマンティックセグメンテーション • テキスト分類 • ユーザ定義のカスタムタスク
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ラベリングジョブの作成 作業をアサインするワーカーを指定 • ワーカーの種類を選択 • Public (Amazon Mechanical Turk) • Private (社内でアノテーション) • ベンダー • 追加の設定 • ⾃動ラベリングの有効化 • 1データにラベル付けするワーカーの数 ここではPrivateを選択し、数⼈のワーカーのメールアドレスを登録
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ラベリングジョブの作成 ラベリングツールのテンプレートを修正 • タイトル • アノテーションの指⽰ • 説明 • タスクの詳細 • 良い/悪いアノテーション例など • ラベル
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ラベリングジョブの作成 これでジョブが作成され、数分後ワーカーの画⾯でジョブが選択可能になる ワーカーにはツールのURL・ユーザー名・⼀時パスワードがメールで送信される
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. まとめ Amazon SageMaker Ground Truth データにラベル (Ground Truth) を付与するアノテーション作業の⽀援サービス • アノテーションの⼀般的なワークフローをサポート • 4種類の組み込みラベリングツールを提供 • アノテーション作業を⾏うワーカーとの連携・管理機能を提供 • ⼤規模データセットに対しては⾃動ラベリング機能で最⼤70%のコスト削減 迅速なラベル付け ワーカーとの連携が容易 ⾼精度 New!
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. 補⾜
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. その他 • Ground Truthでラベル付けされたデータは、拡張マニフェストファイル形式(JSON) でS3に保存される • アノテーションページのPrivate Linkは未対応 • アノテーション例として表⽰する画像は公開する必要がある (アノテーション対象の画像を公開する必要はない) • ジョブを作成した後にテンプレート等の内容は変更できないので注意 (新しいjobをcloneして対応) • タスクの割り振り量はワーカーごとに等分ではない。好きな量作業できる形式 • ワーカーごとに進捗確認する機能が必要な場合、現状作り込む必要あり • アノテーションを誰も⾏わない期間が10⽇ほど続くとjobがFailed状態となるため注意 ※ 2019年 4⽉ 時点での状況です ※ お客様からの要望に応じて、今後も様々な機能拡張が⾏われます
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. 組み込みのラベリングツールの使⽤例 bird bird
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. 組み込みのラベリングツールの使⽤例
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. カスタムテンプレート 前・後処理のLambda関数とラベリングツールのHTMLテンプレートを変更する ことで、様々なタスクに対応できる機能
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. カスタムテンプレート 前処理⽤Lambdaの作成 • ⼊⼒データの記述されたマニフェストファイルの各項⽬を読み込み、 それをテンプレートエンジンに返す処理を記述 HTMLテンプレート作成 • テンプレートエンジンのLiquidを採⽤ • 簡単なサンプルも多数⽤意されている 後処理⽤Lambda作成 • ワーカーが処理を終了した際の後処理を記述 ※ Lambdaはドキュメントのサンプルコードをベースに作成する必要あり HTMLテンプレートは多数のサンプルの中から選択できる
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. カスタムテンプレート HTMLテンプレートのサンプル例
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. カスタムテンプレート アノテーション対象のデータ形式 • 画像、映像、⾳声、⽂章など様々なファイルをUIに表⽰できる • 複数のデータを扱うことも可能 (2画像の類似度推定等) ラベルの形式 • 既存テンプレートにあるラベル • 多クラス分類 • 画像のセマンティックセグメンテーション • 画像の物体検出(カスタムテンプレートであれば複数クラスも可能) • テキスト(画像に説明⽂を付与するなど) • 詳細はドキュメントに
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ⾃動ラベリングの仕組み アノテーション 前データ ⼀部のデータ
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ⾃動ラベリングの仕組み ラベリング⽤ モデル アノテーション 前データ
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ⾃動ラベリングの仕組み アノテーション 済みデータ ラベリング⽤ モデル アノテーション 前データ 確信度: 0.9
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ⾃動ラベリングの仕組み アノテーション 済みデータ ラベリング⽤ モデル アノテーション 前データ 確信度: 0.2 確信度: 0.9 アノテーション
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ⾃動ラベリングの仕組み アノテーション 済みデータ ラベリング⽤ モデル アノテーション 前データ 確信度: 0.9 確信度: 0.2 アノテーション
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. プライベートなワーカーを追加する 「ラベリング労働⼒ > 新しいワーカーを招待 」から ワーカーのメールアドレスを追加可能
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. パブリックなワーカーを利⽤する プライベートとの違いは以下の3つのみ • ジョブ作成時にワーカータイプ > パブリック を選択 • タスクあたりの料⾦を設定 • 確認項⽬にチェック
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. パブリックなワーカーを利⽤する あとはワーカーがアサインされ、タスクが終了するのを待つだけ
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. パブリックなワーカーを利⽤する • タスクに対して設定する料⾦が安すぎると、 ⼈が集まらない場合やアノテーションの質が低下する場合あり • アノテーションの質を向上させるためには、タスクの説明⽂章の改善や、 1データにアノテーションするワーカーの数を増やすことで対応
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. bulldog sharpei bulldog bulldog 0.7 0.9 0.5 0.3 bulldog 0.1 sharpei 0.9 ラベルの決定 (Label Consolidation): 正答率による評価 正しい ラベルを 選ぶ確率 (犬に詳しい人) • ワーカーの信頼度の重みを付けた多数決によりラベルを決定 • 他のワーカーと異なる回答を頻繁にするワーカーは信頼度が下がる仕組み (ラベリングジョブごとにワーカーの信頼度は異なる)