Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SageMaker Ground Truthはどう使うべきか/When to use SageMaker Ground Truth

SageMaker Ground Truthはどう使うべきか/When to use SageMaker Ground Truth

JAWS-UG名古屋支部【2018年12月12日】忘年会スペシャル & re.invent振り返LT大会
https://jawsug-nagoya.doorkeeper.jp/events/83623

C0eb1445cda9489ebf8c31c367fec3fb?s=128

TATSUNO Yasuhiro

December 12, 2018
Tweet

Transcript

  1. 機械学習の肝 「教師データ」 を量産! SageMaker Ground Truthは どう使うべきか? 2018-12-12 TATSUNO Yasuhiro

    JAWS-UG名古屋支部 re:Invent振り返りLT大会
  2. 自己紹介 TATSUNO Yasuhiro 所属 twitter.com/smogami github.com/exoego 最近うれしかったこと: AWS向け新機能追加PRが マージされました

  3. おことわり • 所属先で教師データ作成の製品開発をしています • 他社製品への根拠ないFUDはしないつもりです。…が、 全機能を使い切ってませんし、触った範囲も誤解して 間違いがあるかもしれません。ご容赦ください • Ground Truthの長所と短所が伝わるように、試しただけ

    の中立的紹介ではなく、教師データ作成に携わる者ならで はの見解を盛り込みました
  4. 自然言語処理 機械学習向けAWSとGround Truthの位置付け 文書分析 メール、サービスチケット、 製品レビュー、 SNSなど チャットボット 自然言語理解や 音声認識

    リアルな読み上げ 多言語対応 ニューラル翻訳 音声の自動文字起こし 複数話者の識別 プログラマブルな 開発者向けビデオカメラ 深層学習+IoT TensorFlow, MXNet, Chainer, PyTorch など主要機械学習 FW導入済AMI。EC2で使える 画像&動画分析 シーン認識、オブジェクト検出、文字認識、 顔検出、表情分析、同一人物判定、有名 人認識、危険/不適切コンテンツ認識など 機械学習の開発・ 実験環境+推論モ デルのエンドポイント 研究者・開発者支援ツール コンピュータービジョン Ground Truth 教師データ作成+ MTurkへの作業依頼 モデルを鍛える 教師データ提供 Textract: スケーラブルなOCR re:Invent2018 Forecast: 時系列 Personalize: 推薦 re:Invent2018 カスタム用語辞書 予測 re:Invent2018 re:Invent2018
  5. “Ground truth”とは もともとの語源 • 「航空機や人工衛星から地上を遠隔測定して得られたデータ」に対し、 「地表 (ground)での現地調査に基づく真実(truth)のデータ」 • つまり、遠隔測定データを検証するための正解データ 転じて機械学習において、推論モデル(いわゆるAI)に学習させたり、推

    論結果を評価するための正解データ=教師データ、アノテーションとも 教師データは基本的に人間が作成(タグ付け、アノテーション) ぼやき)業界専門用語を製品名にしちゃうのは…検索ノイズになって、 ちょっと困りますよね(AWS Lambdaとか)
  6. 機械学習で教師データはなぜ重要? •教師データの質、量、多様性が性能改善に直結 •教師データは推論モデルを定量評価する土台 https://www.slideshare.net/youheiyamaguchi/annotation-meetup-20180705

  7. 機械学習では教師データが肝。 ついにAWSも乗り出してきた

  8. あれ、教師データといえば… どこかで…

  9. またAWSと同じもの作っちゃったよ 2018 2017 サービスイン → Ground Truth リリース オンプレ/クラウド両対応の大規模機械学習実験スケジューラ KCI

    Ahab お客様に提供開始 → Amazon SageMakerリリース 高度・高品質なアノテーションの量産を支援する工夫が盛りだくさん
  10. いやいや、結構ちがうんです すみわけできそうでホッ

  11. ということで SageMaker Ground Truth をざっと見ていきます

  12. ココ SageMakerコンソール

  13. 教師データ作成の流れ① ラベリングジョブ=作業依頼

  14. ラベリングジョブ= 教師データ作成してもらう作業依頼の作成 ココ

  15. 今回は、オブジェクト検出で 一般的に使われる 長方形(Bounding Box)を つけるジョブにします

  16. 教師データをつけたい画像やテキス トのS3オブジェクトキーを羅列した 『マニフェストファイル』を指定 教師データ格納場所を指定

  17. マニフェストファイルの 自動作成機能あり

  18. つづいて『誰に作業を依頼するか』を指定 同じ画像/テキストへの教師データを複数人に作成させることで、 「作業が雑な人」「ウソをつく人」や「個人の判断の違い」の影響 を軽減させる戦略。最大9人まで指定できる 全世界へクラウドソーシ ングできちゃう! 24時間毎日、50万人のクラウド ワーカー(Mechanical Turk)

  19. AWSマーケットプレイス経由で アノテーションベンダーに依頼 AWSマーケットプレイス経由で アノテーションベンダーに依頼 もできる(MTurkより割高)

  20. 今回は自分たちでやるので Privateにする メールアドレスで作業者を招待 作業者が問い合わせするための プロジェクトの責任者(自分) のメールアドレス

  21. さきほど作った Private 作業チームや 依頼先ベンダーなどの「労働力」はこちらで管理 ココ

  22. いよいよ『どんな教師データ』 をつけてもらうかを指定 作業指示を書けるのはGood 今のところ ・1ジョブ=1ラベル ・追加属性は一切なし これは良し悪し S3バケットへのアクセス権限を 「ジョブを依頼する労働力/Workforce」 に適切に設定する必要あり。

    手を抜いて PUBLIC に公開するとヤバイ
  23. SageMakerのリージョンと S3のリージョンは一致させる必要あり より詳細な作業指示も 書けるのはGood

  24. ラベリングジョブが完成!

  25. できあがったジョブのメタデータ閲覧ページ。 1度作ったジョブは修正できず、停止のみ。 間違えたら作り直し

  26. 教師データ作成の流れ② 実際の教師データ作成作業

  27. 作業者にはこんなメールが届きます 「Workforce/労働力」 ごとに固有URL

  28. どの顧客(AWSアカウント)からの依頼か ジョブ一覧画面

  29. さきほど作成したジョブの作業指示 入力支援機能は最低限。 その分、クラウドワーカーが 誰でもすぐ使えていいかも?

  30. こんな感じで Bounding-Box をつける

  31. 作業完了すると次の作業一覧へ。 自分の作業生産性の把握とかは なさそう?

  32. 教師データ作成の流れ③ できあがった成果物の確認

  33. { "source-ref": "s3://xxxxxx/6899657615_e7b7ba9cee_b.jpg", "jawsug-beer-labeling": { "annotations": [ {"class_id": 0, "width":

    124, "top": 135, "height": 492, "left": 238}, {"class_id": 0, "width": 123.5, "top": 130, "height": 498.5, "left": 363.5}, {"class_id": 0, "width": 117, "top": 137.5, "height": 484.5, "left": 492}, {"class_id": 0, "width": 158, "top": 362, "height": 287, "left": 83}, {"class_id": 0, "width": 136, "top": 91, "height": 527, "left": 877}, {"class_id": 0, "width": 116, "top": 150, "height": 455, "left": 741}, {"class_id": 0, "width": 113, "top": 137, "height": 475, "left": 616} ], "image_size": [{"width": 1024, "depth": 3, "height": 768}] }, "jawsug-beer-labeling-metadata": { "job-name": "labeling-job/jawsug-beer-labeling", "class-map": { "0": "BeerBottle" }, "human-annotated": "yes", "objects": [ {"confidence": 0.28}, {"confidence": 0.28}, {"confidence": 0.26}, {"confidence": 0.09}, {"confidence": 0.09}, {"confidence": 0.09}, {"confidence": 0.09} ], "creation-date": "2018-12-11T11:43:23.567454", "type": "groundtruth/object-detection" } } Bounding-Boxの座標とサイズ 確信度。同じ画像を複数人にやらせたら、重なりから 自動計算される。BBoxも自動で共通部分になる模様。 1人1人ががんばって品質を高めるのではなく、 複数人の多数決/IoUで品質を保証する!!
  34. 気になるお値段は…

  35. Mechania Turkでの1画像=5人にやらせる場合 10万 B-Box=24,000ドル ⇨ 0.24ドル/B-Box 5人にやらせて精度高めてこれなら、結構安い。 (計算間違ってなかったら)

  36. まとめ • 教師データ作成ツールとしては簡素、低機能 • 「品質検査」を省く代わりに、安価で互いに独立した労働力に やらせて「多数決」で精度をそこそこ保証する思い切りがすごい • 高度なアノテーション(豊富なメタデータ、ポリゴン…)の作り 込みよりは、単純なアノテーションの量産に向いてそう •

    Ground Truthはいわば『大衆向けMechanical Turk』。従来使うのが 難しかったM-Turkに、典型的なアノテーションツールと管理UIを つけて、敷居をグッと下げた感じ
  37. 宣伝)弊社製品とのすみ分け 少 教師データ の情報量 多 生産量 少 多 SageMaker Ground

    Truth 利用 料金 SageMaker Ground Truth 基本料金 ¥0 S3料金 + 作業依頼料金