SageMaker Ground Truthはどう使うべきか/When to use SageMaker Ground Truth

SageMaker Ground Truthはどう使うべきか/When to use SageMaker Ground Truth

JAWS-UG名古屋支部【2018年12月12日】忘年会スペシャル & re.invent振り返LT大会
https://jawsug-nagoya.doorkeeper.jp/events/83623

C0eb1445cda9489ebf8c31c367fec3fb?s=128

TATSUNO Yasuhiro

December 12, 2018
Tweet

Transcript

  1. 4.

    自然言語処理 機械学習向けAWSとGround Truthの位置付け 文書分析 メール、サービスチケット、 製品レビュー、 SNSなど チャットボット 自然言語理解や 音声認識

    リアルな読み上げ 多言語対応 ニューラル翻訳 音声の自動文字起こし 複数話者の識別 プログラマブルな 開発者向けビデオカメラ 深層学習+IoT TensorFlow, MXNet, Chainer, PyTorch など主要機械学習 FW導入済AMI。EC2で使える 画像&動画分析 シーン認識、オブジェクト検出、文字認識、 顔検出、表情分析、同一人物判定、有名 人認識、危険/不適切コンテンツ認識など 機械学習の開発・ 実験環境+推論モ デルのエンドポイント 研究者・開発者支援ツール コンピュータービジョン Ground Truth 教師データ作成+ MTurkへの作業依頼 モデルを鍛える 教師データ提供 Textract: スケーラブルなOCR re:Invent2018 Forecast: 時系列 Personalize: 推薦 re:Invent2018 カスタム用語辞書 予測 re:Invent2018 re:Invent2018
  2. 5.

    “Ground truth”とは もともとの語源 • 「航空機や人工衛星から地上を遠隔測定して得られたデータ」に対し、 「地表 (ground)での現地調査に基づく真実(truth)のデータ」 • つまり、遠隔測定データを検証するための正解データ 転じて機械学習において、推論モデル(いわゆるAI)に学習させたり、推

    論結果を評価するための正解データ=教師データ、アノテーションとも 教師データは基本的に人間が作成(タグ付け、アノテーション) ぼやき)業界専門用語を製品名にしちゃうのは…検索ノイズになって、 ちょっと困りますよね(AWS Lambdaとか)
  3. 9.

    またAWSと同じもの作っちゃったよ 2018 2017 サービスイン → Ground Truth リリース オンプレ/クラウド両対応の大規模機械学習実験スケジューラ KCI

    Ahab お客様に提供開始 → Amazon SageMakerリリース 高度・高品質なアノテーションの量産を支援する工夫が盛りだくさん
  4. 33.

    { "source-ref": "s3://xxxxxx/6899657615_e7b7ba9cee_b.jpg", "jawsug-beer-labeling": { "annotations": [ {"class_id": 0, "width":

    124, "top": 135, "height": 492, "left": 238}, {"class_id": 0, "width": 123.5, "top": 130, "height": 498.5, "left": 363.5}, {"class_id": 0, "width": 117, "top": 137.5, "height": 484.5, "left": 492}, {"class_id": 0, "width": 158, "top": 362, "height": 287, "left": 83}, {"class_id": 0, "width": 136, "top": 91, "height": 527, "left": 877}, {"class_id": 0, "width": 116, "top": 150, "height": 455, "left": 741}, {"class_id": 0, "width": 113, "top": 137, "height": 475, "left": 616} ], "image_size": [{"width": 1024, "depth": 3, "height": 768}] }, "jawsug-beer-labeling-metadata": { "job-name": "labeling-job/jawsug-beer-labeling", "class-map": { "0": "BeerBottle" }, "human-annotated": "yes", "objects": [ {"confidence": 0.28}, {"confidence": 0.28}, {"confidence": 0.26}, {"confidence": 0.09}, {"confidence": 0.09}, {"confidence": 0.09}, {"confidence": 0.09} ], "creation-date": "2018-12-11T11:43:23.567454", "type": "groundtruth/object-detection" } } Bounding-Boxの座標とサイズ 確信度。同じ画像を複数人にやらせたら、重なりから 自動計算される。BBoxも自動で共通部分になる模様。 1人1人ががんばって品質を高めるのではなく、 複数人の多数決/IoUで品質を保証する!!
  5. 37.

    宣伝)弊社製品とのすみ分け 少 教師データ の情報量 多 生産量 少 多 SageMaker Ground

    Truth 利用 料金 SageMaker Ground Truth 基本料金 ¥0 S3料金 + 作業依頼料金