AIのビジネス利用を加速する教師データ作成の戦略 / Annotation Strategy to accelerate using AI for business

AIのビジネス利用を加速する教師データ作成の戦略 / Annotation Strategy to accelerate using AI for business

2019年3月16日 名古屋CV・PRML勉強会 来栖川電算
https://nagoyacv.connpass.com/event/121088/

C0eb1445cda9489ebf8c31c367fec3fb?s=128

TATSUNO Yasuhiro

March 16, 2019
Tweet

Transcript

  1. AIのビジネス利用を加速する 教師データ作成の戦略 TATSUNO Yasuhiro 2019-3-16 第53回名古屋CV・PRML勉強会 #nagoyacv annofab.com

  2. 教師データとは? 推論モデル(いわゆるAI)に「何が正解、 何が不正解」を学習させたり、どれくらい の精度になったか評価したりに使うデータ 画像のここに自動車、 ここに人が映っている 3人が会話していて、 この人は楽しそうだ このユーザーの意見は 当社製品に肯定的だ

    この急激な変化は この現象に対応 ア ノ テ ー シ ョ ン
  3. TATSUNO Yasuhiro プロダクトマネージャ@来栖川電算 長野県からリモートワーカー github: exoego community: Vue i18n Japan

    AWS User Group 名古屋支部 名古屋 Java User Group
  4. 認識技術の研究開発、体制作り支援 研究開発を支えるツール開発 教師データ作成、品質検査 認識技術を活用したアプリ開発

  5. 表に出せる 具体的な領域 実世界クローラー 自動運転向け地図生成 生活習慣改善 2018~ ヤフー株式会社さまとの共同研究。 道路沿い視覚情報をAIでテキスト化する実証実験 https://about.yahoo.co.jp/pr/release/2018/10/15a/ 2016~

    株式会社トヨタマップマスターさまとの共同研究。 オルソ画像からの地物検出 詳しくは https://www.kurusugawa.jp/service/ 教師データ作成、機械学習の研究 教師データ作成(一部)、機械学習の研究 教師データ作成、機械学習の研究、 アプリケーション開発・運営 2013~ 自社サービス。スマートデバイスでの 深層学習利用。ヘルスケア企業との実証実験も https://maiasa.jp
  6. 大学 中部大 平田研「自動車ドライバーの眠気予兆検知」瞳孔位置推定 の教師データ、Androidアプリ開発 名工大 犬塚研「加速度センターを用いたラジオ体操の局所的動作 についての分析」 津田塾大 栗原研「HCI・エンターテイメントコンピューティング のためのミドルウェア開発」

    他多数。お待ちしております!!
  7. 本日のお話 1. 教師データこそがAIビジネス利用のカギ 2. 教師データ作成、あなたの課題は? 3. 高品質教師データ量産を加速する戦略 本日のスコープは教師あり学習、半教師あり学習を対象とします。 教師なし学習(出力すべき正解が未知)はまた別の機会に。

  8. 1. 教師データこそが AIビジネス利用のカギ

  9. ①タスク設計:やりたいことをどんなフローで実現するか システム全体のデータフロー 機械学習を適用する機能と入出力の明確化 ②データ整備:「AIを教育、精度を評価する」ための教師データの用意 データの質・量・時期の計画、生産 アノテーションルールの明確化、改良 ③機械学習:AIの研究、実装 パイプライン(学習・推論)の設計、改良 訓練、検証、ハイパーパラメータの調整 AI実現に向けた工程

  10. 工程別の重要度 研究・仮説検証 ビジネスへの実運用 タスク 設計 データ 整備 機械 学習 ニーズ

    タスク 設計 データ 整備 機械 学習 よし、イケる 精度や速度改善が 必要になったら重要に 40% 40% 20% この時期では そこまで重要でない
  11. というのも:深層学習以降は データ整備による性能改善が効果的 教師データ量 推 論 精 度 この辺でモデル改良を がんばっても効果的でない 少

    多 高 低 高度な機械学習が活きるのは 精度や速度を極めたい実運用 まずは教師データを早く少量でも用意し、 既存モデルを使って課題を見極めるのが重要
  12. 巨人の肩に乗ってスピードアップ • テック企業やアカデミアが磨き上げたモデル にそこそこ量の教師データを学習させれば、 そこそこ精度は短期間で得られる • ただし、教師データがあれば…… GAFA+M

  13. 2. 教師データ作成、 あなたの課題は?

  14. どれくらい当てはまりますか? • 生データ(画像や動画やテキスト)用意できた • 素人でも見ればアノテーションつけれるくらいの 単純作業内容に落とし込めた • 金で時間を買いたい(速く大量に作りたい) • 部外者に生データや作業内容を見せてよい

  15. もし全部当てはまるなら 世界的な教師データ外注サービスもひとつの手! 外注サービス一例 対応 料金例 特徴 Amazon SageMaker Ground Truth

    (おなじみのMechanical Turkにも発注できる) Bounding Box Semantic Seg. 画像やテキスト分類 $0.036 / label $0.840 / image / label $0.012 / label ・安い ・ラベル単位発注や品 質保証の考えは一癖 ・教師データ作成ツー ルとして使うなら平凡 https://scale.ai Bounding Box Semantic Seg. 3D Point Cloud Cuboid Polyline・Polygon 画像やテキスト分類 帳票類のOCRテキスト起こし $0.080 / label $6.400 / image ? ? $0.080 / label $0.080 / label $0.080 / field ・高度な形状の 教師データに対応 ・品質そこそこ保証 ・外注に特化してて、 自分では使えない
  16. こんな理想的な 状況ばかりでない

  17. ・発生頻度がレア(めったに起きない) ・発生場所がレア(遠方、危険地帯…) ・OSSツールで物足りない部分をがんばろうとして、ツール開発に時間をとられる ・1人用のツールで作業分担しようとすると、ツールのデータや管理が大変 ・作業に難しい判断が必要で、分担のための作業ルールづくりや教育が大変 そもそも前提が正しくない(ことが最後に分かる) ツールやルールがない そもそも生データがない ・作った教師データに課題が見つかり、作り直し… ・これでいいと思いこんで大量に作りすぎて予算を食いつぶしてしまった…

    品質や生産性が上がらない ・教師データ作成は単純作業に見えて単純でない。人の判断がブレるとAIもブレる ・安くするために使ったクラウドソーシングの信頼性が低い(騙して稼ぐワーカーも) ・手作業で品質を高めようとチェックを増やす生産性が落ちる コストをかけて少しでも集める。 安価に集まる仕組みを作るのが望ましい。 今回はスコープ外 ここをどう 改善するか
  18. 3. 高品質教師データ量産を 加速する戦略

  19. 戦略 1. 個別最適化を避け、汎用的なツールとプロセスの 改善に投資 2. 早くスタート、速くフィードバックループ 3. 信頼できる分業体制の確立

  20. 戦略1. 個別最適化を避け、 汎用的なツールとプロセスに投資 陥りがちなアンチパターン • 「1人か少人数でちょっと作業」なら、フリーの教師データ 作成ツールで十分なことも。でも、いざ量産のときに大人数 で運用できますか? • フリーソフトでは物足りない、案件特化の「俺の考えた最強

    の教師データ作成ツール」を作って大幅生産性アップ! 本番 運用ならともかく、研究段階でそこに時間とお金を注ぎ込む 価値は本当にありますか? メンテナンス続けられますか?
  21. 戦略2. 早くスタート、速くフィードバックループ チーム招集 生データ用意 教師データ作成ツール設定や 作業ルールの確立 教師データ作成 教師データ試用 本格的な量産へ 我々自身の学習を促す仕組み

    ・外注任せでなく、信頼できるチームワーク重視 ・何度でも手軽にやり直せるツール ・品質問題や作業履歴の記録、統計 ツール調達や運用のリードタイムをゼロに ・いくらでも画像をアップロードして、すぐ着手 ・カンタンな設定で教師データ作成ツールを構築 すばやく試行錯誤することで深く理解できる ・このタスク設計でいけるか ・この教師データでやりたいことが実現できるか ・教師データを現実的なコストで量産できるか
  22. 戦略3. 信頼できる分業体制の確立 • 複雑で高品質な教師データ作成 • 作業を支えるツールの開発 どちらも片手間にやれない、 プロの仕事 仕様、ルール検討 レポート

    作業ルール教育 要員管理、品質検査 アノテーションマネージャ or データエンジニア 研究者 ツールエンジニア アノテーター こんな 教師データ 作りたい ルール改善 ツール開発 レポート ツール開発 ア ノ テ ー シ ョ ン 弊社またはお客様 高練度の専門チーム
  23. そんな戦略を どう実現するか

  24. いま日本のAIベンチャーで クラウド型教師データ作成ツール提供が熱い • 来栖川電算 • ABEJAさん • ALBERTさん • LeapMindさん

    特徴 ・申込なく今すぐ使えて、ほぼ全機能が無料 ・既存ツールにできない高度なニーズを実現(後述) 基本利用無料にしてる理由 ぶっちゃけツールで稼ごうとしてない、それよりも 社内外の教師データの悩みを解決したい!!
  25. で作れる教師データ例 矩形 ポリライン

  26. 頭:矩形 胴体:ポリライン で作れる教師データ例 複合的教師データ(複数の教師データから構成) リンク:頭と胴体

  27. セグメンテーション で作れる教師データ例 ※インスタンスを区別するセグ メンテーションはポリゴン

  28. で作れる教師データ例 その他 点 動画やセンサーデータなど時系列データ 未対応(要望お待ちしてます) テキスト分類 点群

  29. 教師データツールのカスタマイズ • ラベル • 属性(サブラベル) • ショートカット • 表示色 •

    入力制約(品質自動検査) こうしたものを選択していくだけで ツールができあがります
  30. アノテーション生産性を高める仕組み • ショートカットキー、入力補助 • 品質検査を減らす自動検査や、変化点の強調 • 作業進捗、作業ミス、修正履歴などの記録や分析 • 作業の選り好みをなくす作業割当メカニズム

  31. 企業やプロユーザー向け • システム連携や定常作業自動化のAPI、WebHook • 画像や動画を社外に出さないプライベートスト レージ • アノテーターが作業スペース外(自宅など)から アクセスしたりするのを防ぐファイアウォール

  32. まとめ • 機械学習活用には高品質教師データの量産がカギ • 典型的なアノテーションを量産するなら Scale や SageMaker Ground Truth

    を検討しよう • 高度なアノテーションをすばやく試行錯誤し、 高品質 に量産していくなら annofab.com をお試しください。 フィードバックお待ちしております • 共同研究やアノテーション作成も承ってます
  33. 補足)ツールの向き・不向き フリーソフト アノテーション作成 外注サービス AnnoFab 単純なアノテーションの量産 ★ ★★★★★★★★★★ ★★★ 高度なアノテーションの量産

    ★ ★★ ★★★ 高度なアノテーションの試行錯誤 ★ ★★★ 個人利用 ★★★ ★★★ 大人数使用での ソフトやデータの配布、管理 ★ ★★★ ★★★ アノテーションの品質担保 ★ ★★ ★★★ 画像や動画などを社外秘に ★ ★★★ システム連携 ★★★ ★★★