Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SageMaker Ground Truthはどう使うべきか/When to use Sage...

SageMaker Ground Truthはどう使うべきか/When to use SageMaker Ground Truth

JAWS-UG名古屋支部【2018年12月12日】忘年会スペシャル & re.invent振り返LT大会
https://jawsug-nagoya.doorkeeper.jp/events/83623

TATSUNO Yasuhiro

December 12, 2018
Tweet

More Decks by TATSUNO Yasuhiro

Other Decks in Programming

Transcript

  1. 自然言語処理 機械学習向けAWSとGround Truthの位置付け 文書分析 メール、サービスチケット、 製品レビュー、 SNSなど チャットボット 自然言語理解や 音声認識

    リアルな読み上げ 多言語対応 ニューラル翻訳 音声の自動文字起こし 複数話者の識別 プログラマブルな 開発者向けビデオカメラ 深層学習+IoT TensorFlow, MXNet, Chainer, PyTorch など主要機械学習 FW導入済AMI。EC2で使える 画像&動画分析 シーン認識、オブジェクト検出、文字認識、 顔検出、表情分析、同一人物判定、有名 人認識、危険/不適切コンテンツ認識など 機械学習の開発・ 実験環境+推論モ デルのエンドポイント 研究者・開発者支援ツール コンピュータービジョン Ground Truth 教師データ作成+ MTurkへの作業依頼 モデルを鍛える 教師データ提供 Textract: スケーラブルなOCR re:Invent2018 Forecast: 時系列 Personalize: 推薦 re:Invent2018 カスタム用語辞書 予測 re:Invent2018 re:Invent2018
  2. “Ground truth”とは もともとの語源 • 「航空機や人工衛星から地上を遠隔測定して得られたデータ」に対し、 「地表 (ground)での現地調査に基づく真実(truth)のデータ」 • つまり、遠隔測定データを検証するための正解データ 転じて機械学習において、推論モデル(いわゆるAI)に学習させたり、推

    論結果を評価するための正解データ=教師データ、アノテーションとも 教師データは基本的に人間が作成(タグ付け、アノテーション) ぼやき)業界専門用語を製品名にしちゃうのは…検索ノイズになって、 ちょっと困りますよね(AWS Lambdaとか)
  3. またAWSと同じもの作っちゃったよ 2018 2017 サービスイン → Ground Truth リリース オンプレ/クラウド両対応の大規模機械学習実験スケジューラ KCI

    Ahab お客様に提供開始 → Amazon SageMakerリリース 高度・高品質なアノテーションの量産を支援する工夫が盛りだくさん
  4. { "source-ref": "s3://xxxxxx/6899657615_e7b7ba9cee_b.jpg", "jawsug-beer-labeling": { "annotations": [ {"class_id": 0, "width":

    124, "top": 135, "height": 492, "left": 238}, {"class_id": 0, "width": 123.5, "top": 130, "height": 498.5, "left": 363.5}, {"class_id": 0, "width": 117, "top": 137.5, "height": 484.5, "left": 492}, {"class_id": 0, "width": 158, "top": 362, "height": 287, "left": 83}, {"class_id": 0, "width": 136, "top": 91, "height": 527, "left": 877}, {"class_id": 0, "width": 116, "top": 150, "height": 455, "left": 741}, {"class_id": 0, "width": 113, "top": 137, "height": 475, "left": 616} ], "image_size": [{"width": 1024, "depth": 3, "height": 768}] }, "jawsug-beer-labeling-metadata": { "job-name": "labeling-job/jawsug-beer-labeling", "class-map": { "0": "BeerBottle" }, "human-annotated": "yes", "objects": [ {"confidence": 0.28}, {"confidence": 0.28}, {"confidence": 0.26}, {"confidence": 0.09}, {"confidence": 0.09}, {"confidence": 0.09}, {"confidence": 0.09} ], "creation-date": "2018-12-11T11:43:23.567454", "type": "groundtruth/object-detection" } } Bounding-Boxの座標とサイズ 確信度。同じ画像を複数人にやらせたら、重なりから 自動計算される。BBoxも自動で共通部分になる模様。 1人1人ががんばって品質を高めるのではなく、 複数人の多数決/IoUで品質を保証する!!
  5. 宣伝)弊社製品とのすみ分け 少 教師データ の情報量 多 生産量 少 多 SageMaker Ground

    Truth 利用 料金 SageMaker Ground Truth 基本料金 ¥0 S3料金 + 作業依頼料金