Slide 1

Slide 1 text

多品種大量製品向け AnnoOpsの紹介 Toyota Research Institute Advanced Development (TRI-AD) Yusuke Yachide 2020.04.30

Slide 2

Slide 2 text

自己紹介 ● 谷内出悠介 (やちでゆうすけ), Ph.D ○ Software Platform/ MLTools ■ MLOps 基盤開発 ■ AnnoOps(アノテーション基盤開発)&サービス運用 ■ Areneの開発 @yachide yachide-yusuke-23a2 7035/ Arene

Slide 3

Slide 3 text

?

Slide 4

Slide 4 text

Our goal is to make the world’s safest car. James Kuffner (CEO) The future of car is software. Nikos Michalakis (VP of software platform)

Slide 5

Slide 5 text

No content

Slide 6

Slide 6 text

MLToolsのミッション MLモデルの車載デプロイ ↑

Slide 7

Slide 7 text

今日のお話 TRI-ADにおけるアノテーション業務紹介 ※アノテーション... 教師データ・正解データの作成

Slide 8

Slide 8 text

どんなアノテーション要求? 量 数千枚〜数XX万枚 精度 ~数%レベル データ 画像・ビデオ・LiDAR etc タスク 20prj (ポイント・ボックス・領域 etc) 納期 1~2ヶ月〜半年レベル etc

Slide 9

Slide 9 text

多品種大量

Slide 10

Slide 10 text

施策 複数アノテベンダーの使いこなし 課題 ベンダーフリーのアノテルール・基盤

Slide 11

Slide 11 text

アノテーションプロセスのおさらい ① Rule making… アノテーションするための指示書を作成 ② Project creation… アノテーションプロジェクトを作成 ④ Inspection… アノテーションデータの検品 ③ Annotation… 実際のアノテーションの実施 ⑤ Delivery… アノテーションデータのリリース

Slide 12

Slide 12 text

ベンダーフリー観点での課題感(今日話す内容) Rule making… アノテーションするための指示書を作成 Project creation… アノテーションプロジェクトを作成 Inspection… アノテーションデータの検品 Annotation… 実際のアノテーションの実施 Delivery… アノテーションデータのリリース 3. 簡単なデリバリー・データ共有 ... スムーズなアノテーションデータの出力 1. アノテーション品質平準化 ... ベンダー素性を読み解いてルール共通化 2. ベンダーフリーを目指した基盤 ... 各アノテツールの出力はそれぞれ違う!

Slide 13

Slide 13 text

0. 前提:ルールと検品は表裏一体 ルール 検品 ルールが悪い→不良品 不良品の例→ルール反映

Slide 14

Slide 14 text

0. 前提:アノテーションベンダーの素性知る ベンダーA:生産力は普通・高精度 ベンダーB:生産力は高い・中精度 NG rate NG rate #annotated data #annotated data Date Date 新アノテタスク運用開始 新アノテタスク運用開始 いずれも100人以上の規模のため、複数ベンダーとなると共通化させて楽する部分(ルール)と、 ベンダーごとに切り替える部分を丁寧に考える必要がある(事例集)

Slide 15

Slide 15 text

1. 共通ルールに対する考え方→ フローチャート 国土交通省 例:標識アノテーション 言語フリーの共通ルール化 路面? 静的? 形状定義? 長方形? 三角形? 円? Yes Yes Yes アノテしない アノテする ルール複雑性定量化可 能 ルール再利用可能 多言語化しやすい ● 数100人の主観を統一するのは不可能 → 主観でいい部分の明確化 ● 機械学習者は大体、重要⇔主観でいい基準・アノテーション手順を持っている

Slide 16

Slide 16 text

1. 事例集:ベンダー素性からの深堀り ベンダーA:生産性が普通、NGレート→質問が多い #Question #annotated data Date 通常、NG例を事例集に追加 ベンダーAに関しては、事例集ではなく、受けた質問を事例集に反映 NG rate #annotated data Date

Slide 17

Slide 17 text

1. ルール作成取組の結果 #Question #annotated data Date ベンダーA:生産性が向上 ベンダーB:NG率減少 NG rate #annotated data Date 30%減 生産性10%~増

Slide 18

Slide 18 text

2. ベンダーフリーを目指した基盤 Unlabeled data format converter Project generation & submission Annotation Downloader Labeled data format converter

Slide 19

Slide 19 text

2. ベンダーフリーを目指した基盤 Unlabeled data format converter Project generation & submission Annotation Downloader Labeled data format converter Tool #2 Tool #3 ● ベンダー毎にアノテーションツール (複数の入出力フォーマット ) ● アノテーション単位の違い (複数アノテタスクの同時実行 or not) それぞれのツールに特徴が違う

Slide 20

Slide 20 text

アノテーションツールの違い ベンダーBはBBoxとセグメンテーション同時 アノテーションできない →別プロジェクトにする必要あり ベンダーAはBBoxとセグメンテーション同時 アノテーションできる

Slide 21

Slide 21 text

2. ベンダーフリーを目指した基盤 Unlabeled data format converter Project generation & submission Annotation Downloader Labeled data format converter 一度に複数アノテーションできる (例: ポイントアノテとBBoxアノテーション同時にできる ) 同時に複数のアノテーションを実行できない (アノテーションプロジェクトをシリアルに回す ) task task ベンダーAのTool ベンダーBのTool コントロール

Slide 22

Slide 22 text

3. 簡単なデリバリー・データ共有 Unlabeled data format converter Project generation & submission Annotation Downloader Labeled data format converter MLOps データ管理 容易なデータデリバリー データローダー共通化

Slide 23

Slide 23 text

まとめ TRI-ADでは多品種・大量アノテーションデータ生成要求に対して ➔ 量 数千枚〜数XX万枚 ➔ 精度 ~数%レベル ➔ データ 画像・ビデオ・LiDAR etc ➔ タスク 20prj (ポイント・ボックス・領域 etc) ➔ 納期 1~2ヶ月〜半年レベル etc 特徴の異なる複数のベンダーを目指したルール・基盤作りを行っている 7~8人程度で運用できるくらいの体勢を組んでます

Slide 24

Slide 24 text

Silicon Valley “Innovation” シリコンバレーの
 イノベーション
 Japanese “Craftsmanship” 日本のモノづくり
 NOW HIRING