多品種大量製品向けAnnoOpsの紹介 /AnnoOps

7e96ce7e2e952f7d29e6bbc3b647f421?s=47 Yachi
April 30, 2020

多品種大量製品向けAnnoOpsの紹介 /AnnoOps

7e96ce7e2e952f7d29e6bbc3b647f421?s=128

Yachi

April 30, 2020
Tweet

Transcript

  1. 多品種大量製品向け AnnoOpsの紹介 Toyota Research Institute Advanced Development (TRI-AD) Yusuke Yachide

    2020.04.30
  2. 自己紹介 • 谷内出悠介 (やちでゆうすけ), Ph.D ◦ Software Platform/ MLTools ▪

    MLOps 基盤開発 ▪ AnnoOps(アノテーション基盤開発)&サービス運用 ▪ Areneの開発 @yachide yachide-yusuke-23a2 7035/ Arene
  3. ?

  4. Our goal is to make the world’s safest car. James

    Kuffner (CEO) The future of car is software. Nikos Michalakis (VP of software platform)
  5. None
  6. MLToolsのミッション MLモデルの車載デプロイ ↑

  7. 今日のお話 TRI-ADにおけるアノテーション業務紹介 ※アノテーション... 教師データ・正解データの作成

  8. どんなアノテーション要求? 量 数千枚〜数XX万枚 精度 ~数%レベル データ 画像・ビデオ・LiDAR etc タスク 20prj

    (ポイント・ボックス・領域 etc) 納期 1~2ヶ月〜半年レベル etc
  9. 多品種大量

  10. 施策 複数アノテベンダーの使いこなし 課題 ベンダーフリーのアノテルール・基盤

  11. アノテーションプロセスのおさらい ① Rule making… アノテーションするための指示書を作成 ② Project creation… アノテーションプロジェクトを作成 ④

    Inspection… アノテーションデータの検品 ③ Annotation… 実際のアノテーションの実施 ⑤ Delivery… アノテーションデータのリリース
  12. ベンダーフリー観点での課題感(今日話す内容) Rule making… アノテーションするための指示書を作成 Project creation… アノテーションプロジェクトを作成 Inspection… アノテーションデータの検品 Annotation…

    実際のアノテーションの実施 Delivery… アノテーションデータのリリース 3. 簡単なデリバリー・データ共有 ... スムーズなアノテーションデータの出力 1. アノテーション品質平準化 ... ベンダー素性を読み解いてルール共通化 2. ベンダーフリーを目指した基盤 ... 各アノテツールの出力はそれぞれ違う!
  13. 0. 前提:ルールと検品は表裏一体 ルール 検品 ルールが悪い→不良品 不良品の例→ルール反映

  14. 0. 前提:アノテーションベンダーの素性知る ベンダーA:生産力は普通・高精度 ベンダーB:生産力は高い・中精度 NG rate NG rate #annotated data

    #annotated data Date Date 新アノテタスク運用開始 新アノテタスク運用開始 いずれも100人以上の規模のため、複数ベンダーとなると共通化させて楽する部分(ルール)と、 ベンダーごとに切り替える部分を丁寧に考える必要がある(事例集)
  15. 1. 共通ルールに対する考え方→ フローチャート 国土交通省 例:標識アノテーション 言語フリーの共通ルール化 路面? 静的? 形状定義? 長方形?

    三角形? 円? Yes Yes Yes アノテしない アノテする ルール複雑性定量化可 能 ルール再利用可能 多言語化しやすい • 数100人の主観を統一するのは不可能 → 主観でいい部分の明確化 • 機械学習者は大体、重要⇔主観でいい基準・アノテーション手順を持っている
  16. 1. 事例集:ベンダー素性からの深堀り ベンダーA:生産性が普通、NGレート→質問が多い #Question #annotated data Date 通常、NG例を事例集に追加 ベンダーAに関しては、事例集ではなく、受けた質問を事例集に反映 NG

    rate #annotated data Date
  17. 1. ルール作成取組の結果 #Question #annotated data Date ベンダーA:生産性が向上 ベンダーB:NG率減少 NG rate

    #annotated data Date 30%減 生産性10%~増
  18. 2. ベンダーフリーを目指した基盤 Unlabeled data format converter Project generation & submission

    Annotation Downloader Labeled data format converter
  19. 2. ベンダーフリーを目指した基盤 Unlabeled data format converter Project generation & submission

    Annotation Downloader Labeled data format converter Tool #2 Tool #3 • ベンダー毎にアノテーションツール (複数の入出力フォーマット ) • アノテーション単位の違い (複数アノテタスクの同時実行 or not) それぞれのツールに特徴が違う
  20. アノテーションツールの違い ベンダーBはBBoxとセグメンテーション同時 アノテーションできない →別プロジェクトにする必要あり ベンダーAはBBoxとセグメンテーション同時 アノテーションできる

  21. 2. ベンダーフリーを目指した基盤 Unlabeled data format converter Project generation & submission

    Annotation Downloader Labeled data format converter 一度に複数アノテーションできる (例: ポイントアノテとBBoxアノテーション同時にできる ) 同時に複数のアノテーションを実行できない (アノテーションプロジェクトをシリアルに回す ) task task ベンダーAのTool ベンダーBのTool コントロール
  22. 3. 簡単なデリバリー・データ共有 Unlabeled data format converter Project generation & submission

    Annotation Downloader Labeled data format converter MLOps データ管理 容易なデータデリバリー データローダー共通化
  23. まとめ TRI-ADでは多品種・大量アノテーションデータ生成要求に対して ➔ 量 数千枚〜数XX万枚 ➔ 精度 ~数%レベル ➔ データ

    画像・ビデオ・LiDAR etc ➔ タスク 20prj (ポイント・ボックス・領域 etc) ➔ 納期 1~2ヶ月〜半年レベル etc 特徴の異なる複数のベンダーを目指したルール・基盤作りを行っている 7~8人程度で運用できるくらいの体勢を組んでます
  24. Silicon Valley “Innovation” シリコンバレーの
 イノベーション
 Japanese “Craftsmanship” 日本のモノづくり
 NOW HIRING