Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AIのビジネス利用を加速する教師データ作成の戦略 / Annotation Strategy to accelerate using AI for business

AIのビジネス利用を加速する教師データ作成の戦略 / Annotation Strategy to accelerate using AI for business

2019年3月16日 名古屋CV・PRML勉強会 来栖川電算
https://nagoyacv.connpass.com/event/121088/

TATSUNO Yasuhiro

March 16, 2019
Tweet

More Decks by TATSUNO Yasuhiro

Other Decks in Technology

Transcript

  1. AIのビジネス利用を加速する
    教師データ作成の戦略
    TATSUNO Yasuhiro 2019-3-16
    第53回名古屋CV・PRML勉強会 #nagoyacv
    annofab.com

    View Slide

  2. 教師データとは?
    推論モデル(いわゆるAI)に「何が正解、
    何が不正解」を学習させたり、どれくらい
    の精度になったか評価したりに使うデータ
    画像のここに自動車、
    ここに人が映っている
    3人が会話していて、
    この人は楽しそうだ
    このユーザーの意見は
    当社製品に肯定的だ
    この急激な変化は
    この現象に対応
    ア ノ テ ー シ ョ ン

    View Slide

  3. TATSUNO Yasuhiro
    プロダクトマネージャ@来栖川電算
    長野県からリモートワーカー
    github: exoego
    community:
    Vue i18n
    Japan AWS User Group
    名古屋支部
    名古屋
    Java User Group

    View Slide

  4. 認識技術の研究開発、体制作り支援
    研究開発を支えるツール開発
    教師データ作成、品質検査
    認識技術を活用したアプリ開発

    View Slide

  5. 表に出せる
    具体的な領域
    実世界クローラー 自動運転向け地図生成 生活習慣改善
    2018~ ヤフー株式会社さまとの共同研究。
    道路沿い視覚情報をAIでテキスト化する実証実験
    https://about.yahoo.co.jp/pr/release/2018/10/15a/
    2016~ 株式会社トヨタマップマスターさまとの共同研究。
    オルソ画像からの地物検出
    詳しくは https://www.kurusugawa.jp/service/
    教師データ作成、機械学習の研究 教師データ作成(一部)、機械学習の研究 教師データ作成、機械学習の研究、
    アプリケーション開発・運営
    2013~ 自社サービス。スマートデバイスでの
    深層学習利用。ヘルスケア企業との実証実験も
    https://maiasa.jp

    View Slide

  6. 大学
    中部大 平田研「自動車ドライバーの眠気予兆検知」瞳孔位置推定
    の教師データ、Androidアプリ開発
    名工大 犬塚研「加速度センターを用いたラジオ体操の局所的動作
    についての分析」
    津田塾大 栗原研「HCI・エンターテイメントコンピューティング
    のためのミドルウェア開発」
    他多数。お待ちしております!!

    View Slide

  7. 本日のお話
    1. 教師データこそがAIビジネス利用のカギ
    2. 教師データ作成、あなたの課題は?
    3. 高品質教師データ量産を加速する戦略
    本日のスコープは教師あり学習、半教師あり学習を対象とします。
    教師なし学習(出力すべき正解が未知)はまた別の機会に。

    View Slide

  8. 1. 教師データこそが
    AIビジネス利用のカギ

    View Slide

  9. ①タスク設計:やりたいことをどんなフローで実現するか
    システム全体のデータフロー
    機械学習を適用する機能と入出力の明確化
    ②データ整備:「AIを教育、精度を評価する」ための教師データの用意
    データの質・量・時期の計画、生産
    アノテーションルールの明確化、改良
    ③機械学習:AIの研究、実装
    パイプライン(学習・推論)の設計、改良
    訓練、検証、ハイパーパラメータの調整
    AI実現に向けた工程

    View Slide

  10. 工程別の重要度
    研究・仮説検証 ビジネスへの実運用
    タスク
    設計
    データ
    整備
    機械
    学習
    ニーズ
    タスク
    設計
    データ
    整備
    機械
    学習
    よし、イケる
    精度や速度改善が
    必要になったら重要に
    40%
    40%
    20%
    この時期では
    そこまで重要でない

    View Slide

  11. というのも:深層学習以降は
    データ整備による性能改善が効果的
    教師データ量




    この辺でモデル改良を
    がんばっても効果的でない
    少 多


    高度な機械学習が活きるのは
    精度や速度を極めたい実運用
    まずは教師データを早く少量でも用意し、
    既存モデルを使って課題を見極めるのが重要

    View Slide

  12. 巨人の肩に乗ってスピードアップ
    • テック企業やアカデミアが磨き上げたモデル
    にそこそこ量の教師データを学習させれば、
    そこそこ精度は短期間で得られる
    • ただし、教師データがあれば……
    GAFA+M

    View Slide

  13. 2. 教師データ作成、
    あなたの課題は?

    View Slide

  14. どれくらい当てはまりますか?
    • 生データ(画像や動画やテキスト)用意できた
    • 素人でも見ればアノテーションつけれるくらいの
    単純作業内容に落とし込めた
    • 金で時間を買いたい(速く大量に作りたい)
    • 部外者に生データや作業内容を見せてよい

    View Slide

  15. もし全部当てはまるなら
    世界的な教師データ外注サービスもひとつの手!
    外注サービス一例 対応 料金例 特徴
    Amazon SageMaker
    Ground Truth
    (おなじみのMechanical
    Turkにも発注できる)
    Bounding Box
    Semantic Seg.
    画像やテキスト分類
    $0.036 / label
    $0.840 / image / label
    $0.012 / label
    ・安い
    ・ラベル単位発注や品
    質保証の考えは一癖
    ・教師データ作成ツー
    ルとして使うなら平凡
    https://scale.ai
    Bounding Box
    Semantic Seg.
    3D Point Cloud
    Cuboid
    Polyline・Polygon
    画像やテキスト分類
    帳票類のOCRテキスト起こし
    $0.080 / label
    $6.400 / image
    ?
    ?
    $0.080 / label
    $0.080 / label
    $0.080 / field
    ・高度な形状の
    教師データに対応
    ・品質そこそこ保証
    ・外注に特化してて、
    自分では使えない

    View Slide

  16. こんな理想的な
    状況ばかりでない

    View Slide

  17. ・発生頻度がレア(めったに起きない)
    ・発生場所がレア(遠方、危険地帯…)
    ・OSSツールで物足りない部分をがんばろうとして、ツール開発に時間をとられる
    ・1人用のツールで作業分担しようとすると、ツールのデータや管理が大変
    ・作業に難しい判断が必要で、分担のための作業ルールづくりや教育が大変
    そもそも前提が正しくない(ことが最後に分かる)
    ツールやルールがない
    そもそも生データがない
    ・作った教師データに課題が見つかり、作り直し…
    ・これでいいと思いこんで大量に作りすぎて予算を食いつぶしてしまった…
    品質や生産性が上がらない
    ・教師データ作成は単純作業に見えて単純でない。人の判断がブレるとAIもブレる
    ・安くするために使ったクラウドソーシングの信頼性が低い(騙して稼ぐワーカーも)
    ・手作業で品質を高めようとチェックを増やす生産性が落ちる
    コストをかけて少しでも集める。
    安価に集まる仕組みを作るのが望ましい。
    今回はスコープ外
    ここをどう
    改善するか

    View Slide

  18. 3. 高品質教師データ量産を
    加速する戦略

    View Slide

  19. 戦略
    1. 個別最適化を避け、汎用的なツールとプロセスの
    改善に投資
    2. 早くスタート、速くフィードバックループ
    3. 信頼できる分業体制の確立

    View Slide

  20. 戦略1. 個別最適化を避け、
    汎用的なツールとプロセスに投資
    陥りがちなアンチパターン
    • 「1人か少人数でちょっと作業」なら、フリーの教師データ
    作成ツールで十分なことも。でも、いざ量産のときに大人数
    で運用できますか?
    • フリーソフトでは物足りない、案件特化の「俺の考えた最強
    の教師データ作成ツール」を作って大幅生産性アップ! 本番
    運用ならともかく、研究段階でそこに時間とお金を注ぎ込む
    価値は本当にありますか? メンテナンス続けられますか?

    View Slide

  21. 戦略2.
    早くスタート、速くフィードバックループ
    チーム招集
    生データ用意
    教師データ作成ツール設定や
    作業ルールの確立
    教師データ作成
    教師データ試用
    本格的な量産へ
    我々自身の学習を促す仕組み
    ・外注任せでなく、信頼できるチームワーク重視
    ・何度でも手軽にやり直せるツール
    ・品質問題や作業履歴の記録、統計
    ツール調達や運用のリードタイムをゼロに
    ・いくらでも画像をアップロードして、すぐ着手
    ・カンタンな設定で教師データ作成ツールを構築
    すばやく試行錯誤することで深く理解できる
    ・このタスク設計でいけるか
    ・この教師データでやりたいことが実現できるか
    ・教師データを現実的なコストで量産できるか

    View Slide

  22. 戦略3.
    信頼できる分業体制の確立
    • 複雑で高品質な教師データ作成
    • 作業を支えるツールの開発
    どちらも片手間にやれない、
    プロの仕事
    仕様、ルール検討
    レポート
    作業ルール教育
    要員管理、品質検査
    アノテーションマネージャ
    or データエンジニア
    研究者
    ツールエンジニア
    アノテーター
    こんな
    教師データ
    作りたい
    ルール改善
    ツール開発
    レポート
    ツール開発
    ア ノ テ ー シ ョ ン
    弊社またはお客様
    高練度の専門チーム

    View Slide

  23. そんな戦略を
    どう実現するか

    View Slide

  24. いま日本のAIベンチャーで
    クラウド型教師データ作成ツール提供が熱い
    • 来栖川電算
    • ABEJAさん
    • ALBERTさん
    • LeapMindさん
    特徴
    ・申込なく今すぐ使えて、ほぼ全機能が無料
    ・既存ツールにできない高度なニーズを実現(後述)
    基本利用無料にしてる理由
    ぶっちゃけツールで稼ごうとしてない、それよりも
    社内外の教師データの悩みを解決したい!!

    View Slide

  25. で作れる教師データ例
    矩形
    ポリライン

    View Slide

  26. 頭:矩形
    胴体:ポリライン
    で作れる教師データ例
    複合的教師データ(複数の教師データから構成)
    リンク:頭と胴体

    View Slide

  27. セグメンテーション
    で作れる教師データ例
    ※インスタンスを区別するセグ
    メンテーションはポリゴン

    View Slide

  28. で作れる教師データ例
    その他

    動画やセンサーデータなど時系列データ
    未対応(要望お待ちしてます)
    テキスト分類
    点群

    View Slide

  29. 教師データツールのカスタマイズ
    • ラベル
    • 属性(サブラベル)
    • ショートカット
    • 表示色
    • 入力制約(品質自動検査)
    こうしたものを選択していくだけで
    ツールができあがります

    View Slide

  30. アノテーション生産性を高める仕組み
    • ショートカットキー、入力補助
    • 品質検査を減らす自動検査や、変化点の強調
    • 作業進捗、作業ミス、修正履歴などの記録や分析
    • 作業の選り好みをなくす作業割当メカニズム

    View Slide

  31. 企業やプロユーザー向け
    • システム連携や定常作業自動化のAPI、WebHook
    • 画像や動画を社外に出さないプライベートスト
    レージ
    • アノテーターが作業スペース外(自宅など)から
    アクセスしたりするのを防ぐファイアウォール

    View Slide

  32. まとめ
    • 機械学習活用には高品質教師データの量産がカギ
    • 典型的なアノテーションを量産するなら Scale や
    SageMaker Ground Truth を検討しよう
    • 高度なアノテーションをすばやく試行錯誤し、 高品質
    に量産していくなら annofab.com をお試しください。
    フィードバックお待ちしております
    • 共同研究やアノテーション作成も承ってます

    View Slide

  33. 補足)ツールの向き・不向き
    フリーソフト
    アノテーション作成
    外注サービス
    AnnoFab
    単純なアノテーションの量産 ★ ★★★★★★★★★★ ★★★
    高度なアノテーションの量産 ★ ★★ ★★★
    高度なアノテーションの試行錯誤 ★ ★★★
    個人利用 ★★★ ★★★
    大人数使用での
    ソフトやデータの配布、管理
    ★ ★★★ ★★★
    アノテーションの品質担保 ★ ★★ ★★★
    画像や動画などを社外秘に ★ ★★★
    システム連携 ★★★ ★★★

    View Slide