Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AIのビジネス利用を加速する教師データ作成の戦略 / Annotation Strategy ...
Search
TATSUNO Yasuhiro
March 16, 2019
Technology
0
1.3k
AIのビジネス利用を加速する教師データ作成の戦略 / Annotation Strategy to accelerate using AI for business
2019年3月16日 名古屋CV・PRML勉強会 来栖川電算
https://nagoyacv.connpass.com/event/121088/
TATSUNO Yasuhiro
March 16, 2019
Tweet
Share
More Decks by TATSUNO Yasuhiro
See All by TATSUNO Yasuhiro
Bun に LCOV 出力を実装した
exoego
2
94
terraform-provider-aws にプルリクして マージされるまで
exoego
2
350
ライブラリをパブリッシュせずにすばやく試す
exoego
2
220
esbuild 最適化芸人
exoego
3
1.7k
いい感じに AWS を組み合わせたビルディングブロックでアプリ開発を支援する / TdTechTalk 2022 11
exoego
0
610
Empowering App Dev by Nicely-Crafted High-Level AWS Components
exoego
0
38
月間数十億リクエストのマイクロサービスを支える JVM+AWS フルサーバーレス開発事例 / Now and Future of Fully Serverless development at Chatwork
exoego
1
680
Scala と AWS でフルサーバーレス開発事例 / How Chatworks uses Scala and Serverless
exoego
3
1.4k
忙しい Scala 開発者の超時間節約術 / Big Timesavers for Busy Scala Developers
exoego
1
1.1k
Other Decks in Technology
See All in Technology
バクラクのドキュメント解析技術と実データにおける課題 / layerx-ccc-winter-2024
shimacos
2
1.1k
ハイテク休憩
sat
PRO
2
160
MLOps の現場から
asei
7
650
Amazon Kendra GenAI Index 登場でどう変わる? 評価から学ぶ最適なRAG構成
naoki_0531
0
110
TSKaigi 2024 の登壇から広がったコミュニティ活動について
tsukuha
0
160
Oracle Cloud Infrastructure:2024年12月度サービス・アップデート
oracle4engineer
PRO
0
210
小学3年生夏休みの自由研究「夏休みに Copilot で遊んでみた」
taichinakamura
0
170
社外コミュニティで学び社内に活かす共に学ぶプロジェクトの実践/backlogworld2024
nishiuma
0
270
普通のエンジニアがLaravelコアチームメンバーになるまで
avosalmon
0
110
オプトインカメラ:UWB測位を応用したオプトイン型のカメラ計測
matthewlujp
0
180
20241220_S3 tablesの使い方を検証してみた
handy
4
610
Turing × atmaCup #18 - 1st Place Solution
hakubishin3
0
490
Featured
See All Featured
Six Lessons from altMBA
skipperchong
27
3.5k
Building Your Own Lightsaber
phodgson
103
6.1k
Rebuilding a faster, lazier Slack
samanthasiow
79
8.7k
We Have a Design System, Now What?
morganepeng
51
7.3k
It's Worth the Effort
3n
183
28k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
232
17k
Making Projects Easy
brettharned
116
5.9k
Speed Design
sergeychernyshev
25
670
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
47
5.1k
Practical Orchestrator
shlominoach
186
10k
Large-scale JavaScript Application Architecture
addyosmani
510
110k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
356
29k
Transcript
AIのビジネス利用を加速する 教師データ作成の戦略 TATSUNO Yasuhiro 2019-3-16 第53回名古屋CV・PRML勉強会 #nagoyacv annofab.com
教師データとは? 推論モデル(いわゆるAI)に「何が正解、 何が不正解」を学習させたり、どれくらい の精度になったか評価したりに使うデータ 画像のここに自動車、 ここに人が映っている 3人が会話していて、 この人は楽しそうだ このユーザーの意見は 当社製品に肯定的だ
この急激な変化は この現象に対応 ア ノ テ ー シ ョ ン
TATSUNO Yasuhiro プロダクトマネージャ@来栖川電算 長野県からリモートワーカー github: exoego community: Vue i18n Japan
AWS User Group 名古屋支部 名古屋 Java User Group
認識技術の研究開発、体制作り支援 研究開発を支えるツール開発 教師データ作成、品質検査 認識技術を活用したアプリ開発
表に出せる 具体的な領域 実世界クローラー 自動運転向け地図生成 生活習慣改善 2018~ ヤフー株式会社さまとの共同研究。 道路沿い視覚情報をAIでテキスト化する実証実験 https://about.yahoo.co.jp/pr/release/2018/10/15a/ 2016~
株式会社トヨタマップマスターさまとの共同研究。 オルソ画像からの地物検出 詳しくは https://www.kurusugawa.jp/service/ 教師データ作成、機械学習の研究 教師データ作成(一部)、機械学習の研究 教師データ作成、機械学習の研究、 アプリケーション開発・運営 2013~ 自社サービス。スマートデバイスでの 深層学習利用。ヘルスケア企業との実証実験も https://maiasa.jp
大学 中部大 平田研「自動車ドライバーの眠気予兆検知」瞳孔位置推定 の教師データ、Androidアプリ開発 名工大 犬塚研「加速度センターを用いたラジオ体操の局所的動作 についての分析」 津田塾大 栗原研「HCI・エンターテイメントコンピューティング のためのミドルウェア開発」
他多数。お待ちしております!!
本日のお話 1. 教師データこそがAIビジネス利用のカギ 2. 教師データ作成、あなたの課題は? 3. 高品質教師データ量産を加速する戦略 本日のスコープは教師あり学習、半教師あり学習を対象とします。 教師なし学習(出力すべき正解が未知)はまた別の機会に。
1. 教師データこそが AIビジネス利用のカギ
①タスク設計:やりたいことをどんなフローで実現するか システム全体のデータフロー 機械学習を適用する機能と入出力の明確化 ②データ整備:「AIを教育、精度を評価する」ための教師データの用意 データの質・量・時期の計画、生産 アノテーションルールの明確化、改良 ③機械学習:AIの研究、実装 パイプライン(学習・推論)の設計、改良 訓練、検証、ハイパーパラメータの調整 AI実現に向けた工程
工程別の重要度 研究・仮説検証 ビジネスへの実運用 タスク 設計 データ 整備 機械 学習 ニーズ
タスク 設計 データ 整備 機械 学習 よし、イケる 精度や速度改善が 必要になったら重要に 40% 40% 20% この時期では そこまで重要でない
というのも:深層学習以降は データ整備による性能改善が効果的 教師データ量 推 論 精 度 この辺でモデル改良を がんばっても効果的でない 少
多 高 低 高度な機械学習が活きるのは 精度や速度を極めたい実運用 まずは教師データを早く少量でも用意し、 既存モデルを使って課題を見極めるのが重要
巨人の肩に乗ってスピードアップ • テック企業やアカデミアが磨き上げたモデル にそこそこ量の教師データを学習させれば、 そこそこ精度は短期間で得られる • ただし、教師データがあれば…… GAFA+M
2. 教師データ作成、 あなたの課題は?
どれくらい当てはまりますか? • 生データ(画像や動画やテキスト)用意できた • 素人でも見ればアノテーションつけれるくらいの 単純作業内容に落とし込めた • 金で時間を買いたい(速く大量に作りたい) • 部外者に生データや作業内容を見せてよい
もし全部当てはまるなら 世界的な教師データ外注サービスもひとつの手! 外注サービス一例 対応 料金例 特徴 Amazon SageMaker Ground Truth
(おなじみのMechanical Turkにも発注できる) Bounding Box Semantic Seg. 画像やテキスト分類 $0.036 / label $0.840 / image / label $0.012 / label ・安い ・ラベル単位発注や品 質保証の考えは一癖 ・教師データ作成ツー ルとして使うなら平凡 https://scale.ai Bounding Box Semantic Seg. 3D Point Cloud Cuboid Polyline・Polygon 画像やテキスト分類 帳票類のOCRテキスト起こし $0.080 / label $6.400 / image ? ? $0.080 / label $0.080 / label $0.080 / field ・高度な形状の 教師データに対応 ・品質そこそこ保証 ・外注に特化してて、 自分では使えない
こんな理想的な 状況ばかりでない
・発生頻度がレア(めったに起きない) ・発生場所がレア(遠方、危険地帯…) ・OSSツールで物足りない部分をがんばろうとして、ツール開発に時間をとられる ・1人用のツールで作業分担しようとすると、ツールのデータや管理が大変 ・作業に難しい判断が必要で、分担のための作業ルールづくりや教育が大変 そもそも前提が正しくない(ことが最後に分かる) ツールやルールがない そもそも生データがない ・作った教師データに課題が見つかり、作り直し… ・これでいいと思いこんで大量に作りすぎて予算を食いつぶしてしまった…
品質や生産性が上がらない ・教師データ作成は単純作業に見えて単純でない。人の判断がブレるとAIもブレる ・安くするために使ったクラウドソーシングの信頼性が低い(騙して稼ぐワーカーも) ・手作業で品質を高めようとチェックを増やす生産性が落ちる コストをかけて少しでも集める。 安価に集まる仕組みを作るのが望ましい。 今回はスコープ外 ここをどう 改善するか
3. 高品質教師データ量産を 加速する戦略
戦略 1. 個別最適化を避け、汎用的なツールとプロセスの 改善に投資 2. 早くスタート、速くフィードバックループ 3. 信頼できる分業体制の確立
戦略1. 個別最適化を避け、 汎用的なツールとプロセスに投資 陥りがちなアンチパターン • 「1人か少人数でちょっと作業」なら、フリーの教師データ 作成ツールで十分なことも。でも、いざ量産のときに大人数 で運用できますか? • フリーソフトでは物足りない、案件特化の「俺の考えた最強
の教師データ作成ツール」を作って大幅生産性アップ! 本番 運用ならともかく、研究段階でそこに時間とお金を注ぎ込む 価値は本当にありますか? メンテナンス続けられますか?
戦略2. 早くスタート、速くフィードバックループ チーム招集 生データ用意 教師データ作成ツール設定や 作業ルールの確立 教師データ作成 教師データ試用 本格的な量産へ 我々自身の学習を促す仕組み
・外注任せでなく、信頼できるチームワーク重視 ・何度でも手軽にやり直せるツール ・品質問題や作業履歴の記録、統計 ツール調達や運用のリードタイムをゼロに ・いくらでも画像をアップロードして、すぐ着手 ・カンタンな設定で教師データ作成ツールを構築 すばやく試行錯誤することで深く理解できる ・このタスク設計でいけるか ・この教師データでやりたいことが実現できるか ・教師データを現実的なコストで量産できるか
戦略3. 信頼できる分業体制の確立 • 複雑で高品質な教師データ作成 • 作業を支えるツールの開発 どちらも片手間にやれない、 プロの仕事 仕様、ルール検討 レポート
作業ルール教育 要員管理、品質検査 アノテーションマネージャ or データエンジニア 研究者 ツールエンジニア アノテーター こんな 教師データ 作りたい ルール改善 ツール開発 レポート ツール開発 ア ノ テ ー シ ョ ン 弊社またはお客様 高練度の専門チーム
そんな戦略を どう実現するか
いま日本のAIベンチャーで クラウド型教師データ作成ツール提供が熱い • 来栖川電算 • ABEJAさん • ALBERTさん • LeapMindさん
特徴 ・申込なく今すぐ使えて、ほぼ全機能が無料 ・既存ツールにできない高度なニーズを実現(後述) 基本利用無料にしてる理由 ぶっちゃけツールで稼ごうとしてない、それよりも 社内外の教師データの悩みを解決したい!!
で作れる教師データ例 矩形 ポリライン
頭:矩形 胴体:ポリライン で作れる教師データ例 複合的教師データ(複数の教師データから構成) リンク:頭と胴体
セグメンテーション で作れる教師データ例 ※インスタンスを区別するセグ メンテーションはポリゴン
で作れる教師データ例 その他 点 動画やセンサーデータなど時系列データ 未対応(要望お待ちしてます) テキスト分類 点群
教師データツールのカスタマイズ • ラベル • 属性(サブラベル) • ショートカット • 表示色 •
入力制約(品質自動検査) こうしたものを選択していくだけで ツールができあがります
アノテーション生産性を高める仕組み • ショートカットキー、入力補助 • 品質検査を減らす自動検査や、変化点の強調 • 作業進捗、作業ミス、修正履歴などの記録や分析 • 作業の選り好みをなくす作業割当メカニズム
企業やプロユーザー向け • システム連携や定常作業自動化のAPI、WebHook • 画像や動画を社外に出さないプライベートスト レージ • アノテーターが作業スペース外(自宅など)から アクセスしたりするのを防ぐファイアウォール
まとめ • 機械学習活用には高品質教師データの量産がカギ • 典型的なアノテーションを量産するなら Scale や SageMaker Ground Truth
を検討しよう • 高度なアノテーションをすばやく試行錯誤し、 高品質 に量産していくなら annofab.com をお試しください。 フィードバックお待ちしております • 共同研究やアノテーション作成も承ってます
補足)ツールの向き・不向き フリーソフト アノテーション作成 外注サービス AnnoFab 単純なアノテーションの量産 ★ ★★★★★★★★★★ ★★★ 高度なアノテーションの量産
★ ★★ ★★★ 高度なアノテーションの試行錯誤 ★ ★★★ 個人利用 ★★★ ★★★ 大人数使用での ソフトやデータの配布、管理 ★ ★★★ ★★★ アノテーションの品質担保 ★ ★★ ★★★ 画像や動画などを社外秘に ★ ★★★ システム連携 ★★★ ★★★