Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AIのビジネス利用を加速する教師データ作成の戦略 / Annotation Strategy to accelerate using AI for business

AIのビジネス利用を加速する教師データ作成の戦略 / Annotation Strategy to accelerate using AI for business

2019年3月16日 名古屋CV・PRML勉強会 来栖川電算
https://nagoyacv.connpass.com/event/121088/

TATSUNO Yasuhiro

March 16, 2019
Tweet

More Decks by TATSUNO Yasuhiro

Other Decks in Technology

Transcript

  1. 表に出せる 具体的な領域 実世界クローラー 自動運転向け地図生成 生活習慣改善 2018~ ヤフー株式会社さまとの共同研究。 道路沿い視覚情報をAIでテキスト化する実証実験 https://about.yahoo.co.jp/pr/release/2018/10/15a/ 2016~

    株式会社トヨタマップマスターさまとの共同研究。 オルソ画像からの地物検出 詳しくは https://www.kurusugawa.jp/service/ 教師データ作成、機械学習の研究 教師データ作成(一部)、機械学習の研究 教師データ作成、機械学習の研究、 アプリケーション開発・運営 2013~ 自社サービス。スマートデバイスでの 深層学習利用。ヘルスケア企業との実証実験も https://maiasa.jp
  2. 工程別の重要度 研究・仮説検証 ビジネスへの実運用 タスク 設計 データ 整備 機械 学習 ニーズ

    タスク 設計 データ 整備 機械 学習 よし、イケる 精度や速度改善が 必要になったら重要に 40% 40% 20% この時期では そこまで重要でない
  3. というのも:深層学習以降は データ整備による性能改善が効果的 教師データ量 推 論 精 度 この辺でモデル改良を がんばっても効果的でない 少

    多 高 低 高度な機械学習が活きるのは 精度や速度を極めたい実運用 まずは教師データを早く少量でも用意し、 既存モデルを使って課題を見極めるのが重要
  4. もし全部当てはまるなら 世界的な教師データ外注サービスもひとつの手! 外注サービス一例 対応 料金例 特徴 Amazon SageMaker Ground Truth

    (おなじみのMechanical Turkにも発注できる) Bounding Box Semantic Seg. 画像やテキスト分類 $0.036 / label $0.840 / image / label $0.012 / label ・安い ・ラベル単位発注や品 質保証の考えは一癖 ・教師データ作成ツー ルとして使うなら平凡 https://scale.ai Bounding Box Semantic Seg. 3D Point Cloud Cuboid Polyline・Polygon 画像やテキスト分類 帳票類のOCRテキスト起こし $0.080 / label $6.400 / image ? ? $0.080 / label $0.080 / label $0.080 / field ・高度な形状の 教師データに対応 ・品質そこそこ保証 ・外注に特化してて、 自分では使えない
  5. ・発生頻度がレア(めったに起きない) ・発生場所がレア(遠方、危険地帯…) ・OSSツールで物足りない部分をがんばろうとして、ツール開発に時間をとられる ・1人用のツールで作業分担しようとすると、ツールのデータや管理が大変 ・作業に難しい判断が必要で、分担のための作業ルールづくりや教育が大変 そもそも前提が正しくない(ことが最後に分かる) ツールやルールがない そもそも生データがない ・作った教師データに課題が見つかり、作り直し… ・これでいいと思いこんで大量に作りすぎて予算を食いつぶしてしまった…

    品質や生産性が上がらない ・教師データ作成は単純作業に見えて単純でない。人の判断がブレるとAIもブレる ・安くするために使ったクラウドソーシングの信頼性が低い(騙して稼ぐワーカーも) ・手作業で品質を高めようとチェックを増やす生産性が落ちる コストをかけて少しでも集める。 安価に集まる仕組みを作るのが望ましい。 今回はスコープ外 ここをどう 改善するか
  6. 戦略2. 早くスタート、速くフィードバックループ チーム招集 生データ用意 教師データ作成ツール設定や 作業ルールの確立 教師データ作成 教師データ試用 本格的な量産へ 我々自身の学習を促す仕組み

    ・外注任せでなく、信頼できるチームワーク重視 ・何度でも手軽にやり直せるツール ・品質問題や作業履歴の記録、統計 ツール調達や運用のリードタイムをゼロに ・いくらでも画像をアップロードして、すぐ着手 ・カンタンな設定で教師データ作成ツールを構築 すばやく試行錯誤することで深く理解できる ・このタスク設計でいけるか ・この教師データでやりたいことが実現できるか ・教師データを現実的なコストで量産できるか
  7. 戦略3. 信頼できる分業体制の確立 • 複雑で高品質な教師データ作成 • 作業を支えるツールの開発 どちらも片手間にやれない、 プロの仕事 仕様、ルール検討 レポート

    作業ルール教育 要員管理、品質検査 アノテーションマネージャ or データエンジニア 研究者 ツールエンジニア アノテーター こんな 教師データ 作りたい ルール改善 ツール開発 レポート ツール開発 ア ノ テ ー シ ョ ン 弊社またはお客様 高練度の専門チーム
  8. いま日本のAIベンチャーで クラウド型教師データ作成ツール提供が熱い • 来栖川電算 • ABEJAさん • ALBERTさん • LeapMindさん

    特徴 ・申込なく今すぐ使えて、ほぼ全機能が無料 ・既存ツールにできない高度なニーズを実現(後述) 基本利用無料にしてる理由 ぶっちゃけツールで稼ごうとしてない、それよりも 社内外の教師データの悩みを解決したい!!
  9. 教師データツールのカスタマイズ • ラベル • 属性(サブラベル) • ショートカット • 表示色 •

    入力制約(品質自動検査) こうしたものを選択していくだけで ツールができあがります
  10. まとめ • 機械学習活用には高品質教師データの量産がカギ • 典型的なアノテーションを量産するなら Scale や SageMaker Ground Truth

    を検討しよう • 高度なアノテーションをすばやく試行錯誤し、 高品質 に量産していくなら annofab.com をお試しください。 フィードバックお待ちしております • 共同研究やアノテーション作成も承ってます
  11. 補足)ツールの向き・不向き フリーソフト アノテーション作成 外注サービス AnnoFab 単純なアノテーションの量産 ★ ★★★★★★★★★★ ★★★ 高度なアノテーションの量産

    ★ ★★ ★★★ 高度なアノテーションの試行錯誤 ★ ★★★ 個人利用 ★★★ ★★★ 大人数使用での ソフトやデータの配布、管理 ★ ★★★ ★★★ アノテーションの品質担保 ★ ★★ ★★★ 画像や動画などを社外秘に ★ ★★★ システム連携 ★★★ ★★★