Slide 1

Slide 1 text

CA DataNignt AIの血肉となるアノテーションデータの ために大事にしている事 AI事業本部 極事業部 小林 拓磨 1

Slide 2

Slide 2 text

Agenda 1. 自己紹介・やっていること 2. 今回話す領域について 3. 弊社でのアノテーション体制について 4. アノテーションサイクルの概観 5. 現実は… 〜タスクや粒度の具体的なケーススタディ〜 6. まとめ 2

Slide 3

Slide 3 text

自己紹介・やっていること


Slide 4

Slide 4 text

今日の担当 4 小林 拓磨 所属: 極事業部 新規プロダクトチーム 役割: ML/DS→開発責任者 & 技術組織の盛上げ [普段の仕事 ] - ロードマップ・事業戦略・フロー設計 - 画面・システム設計 - PoC設計・バックログ管理 - バックエンド・インフラ実装 [趣味] - 旅行/ご飯/ワーケーション - 仕事 - 猫 @cat_to_love 自己紹介・やっていること

Slide 5

Slide 5 text

5 自己紹介・やっていること 広告予測エンジンの開発 生成系サービスの開発

Slide 6

Slide 6 text

弊社でのアノテーション体制について


Slide 7

Slide 7 text

アノテーションセンター アノテーター データ エンジニア マネジメント 7 アノテーション 依頼 データ 納品 全事業 AI活用を全社で 加速させる IP 弊社でのアノテーション体制について

Slide 8

Slide 8 text

今日のテーマ


Slide 9

Slide 9 text

アノテーションの 
 ブレを無くしたい!! 
 ※ ※基準とか認識とかとか

Slide 10

Slide 10 text

今回話す領域について


Slide 11

Slide 11 text

11 アノテーション このサイクルはどのように回るか? その中でブレを無くす上で 何が大事にしたか? 何が壁だったか? 何ができるのか? 今回話す領域について ? ? ? ? ? ?

Slide 12

Slide 12 text

アノテーションサイクルの概観


Slide 13

Slide 13 text

13 アノテーション まずはサイクルの概観について アノテーションサイクルの概観 ? ? ? ? ? ?

Slide 14

Slide 14 text

14 アノテーション まずはサイクルの概観について 設計 テスト 実行 運用 再設計 評価 FB・改善 アノテーションサイクルの概観

Slide 15

Slide 15 text

15 アノテーションの設計 設計 テスト 実行 運用 再設計 評価 FB・改善 アノテーションの設計

Slide 16

Slide 16 text

16 アノテーションの設計 この小林実家ねこすけの画像に
 アノテーションする


Slide 17

Slide 17 text

17 ・目的に合わせてタスク選定 を行う
  →同じ画像でもタスクは様々
 セグメンテーション 物体検知 キャプション スコアリング 姿勢 タグつけ ねこすけ
 “可愛い茶色のねこが顔を洗っている” 
 可愛さ:100点 
 <猫><可愛い><スコティッシュ> 
 アノテーションの設計

Slide 18

Slide 18 text

18 ・目的に合わせて粒度設計を行う
  →同じタスクでも粒度/基準は様々
 セグメンテーション 物体検知 キャプション ねこすけ
 “可愛い茶色のねこが顔を洗っている” 
 ・セグメンテーションの粒度 
  ・体のパーツ分けはする? 
  ・毛などの周辺領域は? 
  ・背景領域は? 
  などなど
 ・BBoxの粒度 
  ・顔のみなのか 
  ・隠れている領域は? 
  ・BBoxにラベルもつける? 
 ・キャプションの粒度 
  ・表情まで入れ込むか? 
  ・主体物についてのみ? 
  ・背景等の周辺も? 
  ・主観は入れる?( 可愛い など)
 アノテーションの設計

Slide 19

Slide 19 text

19 ・目的に合わせてタスク選定 を行う
  →同じタスクでも粒度/基準は様々
 スコアリング 姿勢 タグつけ 可愛さ:100点 
 <猫><可愛い><スコティッシュ> 
 ・スコアリングの基準 
  ・可愛さの基準は? 
  ・具体何があったら可愛いの か?→主観でいい? 
  などなど
 ・線や点の基準 
  ・手首までなのか指先までか 
  ・隠れている領域は? 
  ・部位ラベルもつける? 
   などなど
 ・タグの粒度 
  ・選択肢に制約はある? 
  ・主体物についてのみ? 
  ・背景等の周辺も? 
  ・主観は入れる?(可愛いなど) 
   などなど
 アノテーションの設計

Slide 20

Slide 20 text

20 タスク x 粒度 x 基準 = 
 ♾ 
 明確なアノテーション設計書と 
 入念なオリエンテーション 
 = めちゃくちゃ ブレる アノテーションの設計

Slide 21

Slide 21 text

21 アノテーションのテストと再設計 設計 テスト 実行 再設計 評価 FB・改善 アノテーションのテストと再設計

Slide 22

Slide 22 text

22 アノテーションのテストと再設計 数百件程 のテスト 実行 再設計 本番のアノテーションを行う前に 
 数百件ほどのテストのアノテーションと再設計を行う アノテーター 
 チームメンバー ・アノテータごとに基準 /分布のブレが出ないか ・疑問として質問 /ミスが多発する場所はないか ・認識の齟齬がないか ここの部分が無くなるまで再設計のサイクルを回す 
 (数千件・数万件やる前に ブレを少なくしておくこと)

Slide 23

Slide 23 text

23 アノテーションの実行と評価 設計 テスト 実行 再設計 評価 FB・改善 アノテーションの実行と評価

Slide 24

Slide 24 text

24 アノテーションの実行と評価 数万件の アノテー ション アノテーション アノテーター 
 チームメンバー どうする? 明確な基準で 
 対応! 迷う… ? 成果物 アノテーションの実行

Slide 25

Slide 25 text

25 アノテーションの実行と評価 数万件の アノテー ション アノテーション アノテーター 
 チームメンバー PASSする!! 明確な基準で 
 対応! 迷う… 質問 シート 成果物 ブレを無くす一環、実行しながら運用していく 
 事前にどれだけテストしていてもここは 
 出てくる→数ヶ月かかることも…! アノテーションの実行

Slide 26

Slide 26 text

26 アノテーションの実行と評価 成果物 アノテーションの評価 ・アノテーションの分布の評価 
 
 ・複数人アノテーションの一致率 
 
 ・認識の齟齬があった所はないか? 
 
 などなど、ここの評価の仕方は事前に決めておけると ⭕
 ここもやりたい事は同じ→ ブレを確認する

Slide 27

Slide 27 text

27 アノテーションのFB・改善 設計 テスト 実行 再設計 評価 FB・改善 アノテーションのFB・改善

Slide 28

Slide 28 text

28 ・アノテーションの分布の評価 
  →該当アノテーション精度の高い(得意な)方を優先アサインする 
  →ブレが少ない方を選定する 
 
 ・自動化できるアノテーションはないか? 
 
 ・設計で改善できる所はないか? 
 
 ・アノテーションのためのvalidation機構は必要か? 
 
 などなど 
 継続的に行うアノテーションの場合は、 運用・評価から
 FBループを回す アノテーションのFB・改善 FBできること

Slide 29

Slide 29 text

現実は…
 ~タスクや粒度の具体的なケーススタディ~


Slide 30

Slide 30 text

事業
 要求
 最先端
 研究
 この社内データ 
 貴重だから 
 いい感じにして! 
 最先端モデル
 出たぞ!
 こういうの
 やりたいから
 いい感じに!
 但し
 こういうデータ
 が必要!
 事業要求や 
 外部要因に 
 そもそもブレ
 (不確実性)が生じ得る 
 
 これにどう対応 
 していくか? 
 現実は… 30

Slide 31

Slide 31 text

● すでに使いたい・やりたいタスクが明確な場合
 ● 使い方は明確でないが、貴重なデータなので
 アノテーションしたい場合①
 ● 使い方は明確でないが、貴重なデータなので
 アノテーションしたい場合②
 31

Slide 32

Slide 32 text

32 現実は… すでに使いたい
 やりたいタスクが明確な場合
 ねこすけ
 顔
 手
 体
 粗く 細かく より特定のタスクに より汎用的に よりスペシフィック からうまく行ったら追 加で汎用的に

Slide 33

Slide 33 text

33 使い方は明確ではないが
 貴重なデータなのでアノテーションしておきたい場合① 
 →段階的に粒度を細かくしていくパターン 
 ねこすけ
 顔
 手
 体
 粗く 細かく より特定のタスクに より汎用的に より抽象・汎用的 にアノテーション してから具体に ※後ほど追加でアノテーションを 
  するのを前提に設計する 現実は…

Slide 34

Slide 34 text

34 使い方は明確ではないが
 貴重なデータなのでアノテーションしておきたい場合② 
 →段階的にタスクを増やしてリッチにしていくパターン 
 ねこすけ
 粗く 細かく より特定のタスクに より汎用的に より簡単なものから やりたいこと明確になったら増やす ※後ほど追加でアノテーションを 
  するのを前提に設計する “可愛い茶色のねこが顔を洗っている” 
 現実は…

Slide 35

Slide 35 text

35 ねこすけ
 顔
 手
 体
 粗く 細かく より特定のタスクに より汎用的に 最終的な 使い方や事業フェーズに合わせて 上手くバランスする 現実は…

Slide 36

Slide 36 text

まとめ


Slide 37

Slide 37 text

37 まとめ ブレを無くすためには 
 ほぼ全ての工程に工夫点がある! 
 
 せっかく付けたアノテーションが 
 無駄にならないように丁寧に。 
 
 目的や段階に合わせて 
 粒度やタスクを柔軟にリッチにしていく。 


Slide 38

Slide 38 text

Tips/Appendix


Slide 39

Slide 39 text

39 Tips/Appendix 


Slide 40

Slide 40 text

40 Tips/Appendix 
 アノテーションの効率化するために 
 アノテーションツールを選定したり 
 開発することも時にもあり 


Slide 41

Slide 41 text

41 ねこすけ
 “可愛い茶色のねこが顔を洗っている” 
 現実は… 確認・修正・追加するのみ
 基本の自動アノテーション 


Slide 42

Slide 42 text

42 そもそ通常の体験のフローや 
 業務内に組み込めないか? 
 概要:ユーザーが一発目に入れる検索で本当に欲しいものを「言語化」されているのか? →マルチモーダルな Active Feedbackを活用して本当に欲しいものへの到達を助ける Goal-Oriented Multi-Modal Interactive Recommendation with Verbal and Non-Verbal Relevance Feedback Visual?Item? Active Feedback Textual Active Feedback Tips/Appendix 


Slide 43

Slide 43 text

43 アノテーションやフロー・評価運用のための知識体系/書籍 
 Tips/Appendix