2019年3月16日 名古屋CV・PRML勉強会 来栖川電算 https://nagoyacv.connpass.com/event/121088/
AIのビジネス利用を加速する教師データ作成の戦略TATSUNO Yasuhiro 2019-3-16第53回名古屋CV・PRML勉強会 #nagoyacvannofab.com
View Slide
教師データとは?推論モデル(いわゆるAI)に「何が正解、何が不正解」を学習させたり、どれくらいの精度になったか評価したりに使うデータ画像のここに自動車、ここに人が映っている3人が会話していて、この人は楽しそうだこのユーザーの意見は当社製品に肯定的だこの急激な変化はこの現象に対応ア ノ テ ー シ ョ ン
TATSUNO Yasuhiroプロダクトマネージャ@来栖川電算長野県からリモートワーカーgithub: exoegocommunity:Vue i18nJapan AWS User Group名古屋支部名古屋Java User Group
認識技術の研究開発、体制作り支援研究開発を支えるツール開発教師データ作成、品質検査認識技術を活用したアプリ開発
表に出せる具体的な領域実世界クローラー 自動運転向け地図生成 生活習慣改善2018~ ヤフー株式会社さまとの共同研究。道路沿い視覚情報をAIでテキスト化する実証実験https://about.yahoo.co.jp/pr/release/2018/10/15a/2016~ 株式会社トヨタマップマスターさまとの共同研究。オルソ画像からの地物検出詳しくは https://www.kurusugawa.jp/service/教師データ作成、機械学習の研究 教師データ作成(一部)、機械学習の研究 教師データ作成、機械学習の研究、アプリケーション開発・運営2013~ 自社サービス。スマートデバイスでの深層学習利用。ヘルスケア企業との実証実験もhttps://maiasa.jp
大学中部大 平田研「自動車ドライバーの眠気予兆検知」瞳孔位置推定の教師データ、Androidアプリ開発名工大 犬塚研「加速度センターを用いたラジオ体操の局所的動作についての分析」津田塾大 栗原研「HCI・エンターテイメントコンピューティングのためのミドルウェア開発」他多数。お待ちしております!!
本日のお話1. 教師データこそがAIビジネス利用のカギ2. 教師データ作成、あなたの課題は?3. 高品質教師データ量産を加速する戦略本日のスコープは教師あり学習、半教師あり学習を対象とします。教師なし学習(出力すべき正解が未知)はまた別の機会に。
1. 教師データこそがAIビジネス利用のカギ
①タスク設計:やりたいことをどんなフローで実現するかシステム全体のデータフロー機械学習を適用する機能と入出力の明確化②データ整備:「AIを教育、精度を評価する」ための教師データの用意データの質・量・時期の計画、生産アノテーションルールの明確化、改良③機械学習:AIの研究、実装パイプライン(学習・推論)の設計、改良訓練、検証、ハイパーパラメータの調整AI実現に向けた工程
工程別の重要度研究・仮説検証 ビジネスへの実運用タスク設計データ整備機械学習ニーズタスク設計データ整備機械学習よし、イケる精度や速度改善が必要になったら重要に40%40%20%この時期ではそこまで重要でない
というのも:深層学習以降はデータ整備による性能改善が効果的教師データ量推論精度この辺でモデル改良をがんばっても効果的でない少 多高低高度な機械学習が活きるのは精度や速度を極めたい実運用まずは教師データを早く少量でも用意し、既存モデルを使って課題を見極めるのが重要
巨人の肩に乗ってスピードアップ• テック企業やアカデミアが磨き上げたモデルにそこそこ量の教師データを学習させれば、そこそこ精度は短期間で得られる• ただし、教師データがあれば……GAFA+M
2. 教師データ作成、あなたの課題は?
どれくらい当てはまりますか?• 生データ(画像や動画やテキスト)用意できた• 素人でも見ればアノテーションつけれるくらいの単純作業内容に落とし込めた• 金で時間を買いたい(速く大量に作りたい)• 部外者に生データや作業内容を見せてよい
もし全部当てはまるなら世界的な教師データ外注サービスもひとつの手!外注サービス一例 対応 料金例 特徴Amazon SageMakerGround Truth(おなじみのMechanicalTurkにも発注できる)Bounding BoxSemantic Seg.画像やテキスト分類$0.036 / label$0.840 / image / label$0.012 / label・安い・ラベル単位発注や品質保証の考えは一癖・教師データ作成ツールとして使うなら平凡https://scale.aiBounding BoxSemantic Seg.3D Point CloudCuboidPolyline・Polygon画像やテキスト分類帳票類のOCRテキスト起こし$0.080 / label$6.400 / image??$0.080 / label$0.080 / label$0.080 / field・高度な形状の教師データに対応・品質そこそこ保証・外注に特化してて、自分では使えない
こんな理想的な状況ばかりでない
・発生頻度がレア(めったに起きない)・発生場所がレア(遠方、危険地帯…)・OSSツールで物足りない部分をがんばろうとして、ツール開発に時間をとられる・1人用のツールで作業分担しようとすると、ツールのデータや管理が大変・作業に難しい判断が必要で、分担のための作業ルールづくりや教育が大変そもそも前提が正しくない(ことが最後に分かる)ツールやルールがないそもそも生データがない・作った教師データに課題が見つかり、作り直し…・これでいいと思いこんで大量に作りすぎて予算を食いつぶしてしまった…品質や生産性が上がらない・教師データ作成は単純作業に見えて単純でない。人の判断がブレるとAIもブレる・安くするために使ったクラウドソーシングの信頼性が低い(騙して稼ぐワーカーも)・手作業で品質を高めようとチェックを増やす生産性が落ちるコストをかけて少しでも集める。安価に集まる仕組みを作るのが望ましい。今回はスコープ外ここをどう改善するか
3. 高品質教師データ量産を加速する戦略
戦略1. 個別最適化を避け、汎用的なツールとプロセスの改善に投資2. 早くスタート、速くフィードバックループ3. 信頼できる分業体制の確立
戦略1. 個別最適化を避け、汎用的なツールとプロセスに投資陥りがちなアンチパターン• 「1人か少人数でちょっと作業」なら、フリーの教師データ作成ツールで十分なことも。でも、いざ量産のときに大人数で運用できますか?• フリーソフトでは物足りない、案件特化の「俺の考えた最強の教師データ作成ツール」を作って大幅生産性アップ! 本番運用ならともかく、研究段階でそこに時間とお金を注ぎ込む価値は本当にありますか? メンテナンス続けられますか?
戦略2.早くスタート、速くフィードバックループチーム招集生データ用意教師データ作成ツール設定や作業ルールの確立教師データ作成教師データ試用本格的な量産へ我々自身の学習を促す仕組み・外注任せでなく、信頼できるチームワーク重視・何度でも手軽にやり直せるツール・品質問題や作業履歴の記録、統計ツール調達や運用のリードタイムをゼロに・いくらでも画像をアップロードして、すぐ着手・カンタンな設定で教師データ作成ツールを構築すばやく試行錯誤することで深く理解できる・このタスク設計でいけるか・この教師データでやりたいことが実現できるか・教師データを現実的なコストで量産できるか
戦略3.信頼できる分業体制の確立• 複雑で高品質な教師データ作成• 作業を支えるツールの開発どちらも片手間にやれない、プロの仕事仕様、ルール検討レポート作業ルール教育要員管理、品質検査アノテーションマネージャor データエンジニア研究者ツールエンジニアアノテーターこんな教師データ作りたいルール改善ツール開発レポートツール開発ア ノ テ ー シ ョ ン弊社またはお客様高練度の専門チーム
そんな戦略をどう実現するか
いま日本のAIベンチャーでクラウド型教師データ作成ツール提供が熱い• 来栖川電算• ABEJAさん• ALBERTさん• LeapMindさん特徴・申込なく今すぐ使えて、ほぼ全機能が無料・既存ツールにできない高度なニーズを実現(後述)基本利用無料にしてる理由ぶっちゃけツールで稼ごうとしてない、それよりも社内外の教師データの悩みを解決したい!!
で作れる教師データ例矩形ポリライン
頭:矩形胴体:ポリラインで作れる教師データ例複合的教師データ(複数の教師データから構成)リンク:頭と胴体
セグメンテーションで作れる教師データ例※インスタンスを区別するセグメンテーションはポリゴン
で作れる教師データ例その他点動画やセンサーデータなど時系列データ未対応(要望お待ちしてます)テキスト分類点群
教師データツールのカスタマイズ• ラベル• 属性(サブラベル)• ショートカット• 表示色• 入力制約(品質自動検査)こうしたものを選択していくだけでツールができあがります
アノテーション生産性を高める仕組み• ショートカットキー、入力補助• 品質検査を減らす自動検査や、変化点の強調• 作業進捗、作業ミス、修正履歴などの記録や分析• 作業の選り好みをなくす作業割当メカニズム
企業やプロユーザー向け• システム連携や定常作業自動化のAPI、WebHook• 画像や動画を社外に出さないプライベートストレージ• アノテーターが作業スペース外(自宅など)からアクセスしたりするのを防ぐファイアウォール
まとめ• 機械学習活用には高品質教師データの量産がカギ• 典型的なアノテーションを量産するなら Scale やSageMaker Ground Truth を検討しよう• 高度なアノテーションをすばやく試行錯誤し、 高品質に量産していくなら annofab.com をお試しください。フィードバックお待ちしております• 共同研究やアノテーション作成も承ってます
補足)ツールの向き・不向きフリーソフトアノテーション作成外注サービスAnnoFab単純なアノテーションの量産 ★ ★★★★★★★★★★ ★★★高度なアノテーションの量産 ★ ★★ ★★★高度なアノテーションの試行錯誤 ★ ★★★個人利用 ★★★ ★★★大人数使用でのソフトやデータの配布、管理★ ★★★ ★★★アノテーションの品質担保 ★ ★★ ★★★画像や動画などを社外秘に ★ ★★★システム連携 ★★★ ★★★