Slide 1

Slide 1 text

© GO Inc. 第12回 全日本コンピュータビジョン勉強会 論文紹介 Full or Weak annotations? An adaptive strategy for budget-constrained annotation campaigns GO株式会社 鈴木達哉

Slide 2

Slide 2 text

© GO Inc. 自己紹介 鈴木達哉 GO株式会社 AI技術開発部 AI研究開発第二グループ @x_ttyszk

Slide 3

Slide 3 text

© GO Inc. ● 論文:CVPR 2023 open access ● コード:なし ● 概要: ○ セグメンテーションタスクのアノテーション戦略についての話 ○ 使える予算が固定の時、全ての予算を高価な「Fullアノテーション」(ピクセル単位)に使わ ず、一部予算は安価な「Weakアノテーション」(画像単位)に回すと精度が向上 ○ 予算の最適な配分を探索することを提案 どんな論文?

Slide 4

Slide 4 text

© GO Inc. アノテーションにコスト(時間・お金)がかかる 例 PASCAL VOCデータセット [15]で200秒以上/枚 [4] 5,000枚の画像→250時間以上 Weakな画像分類用のクラスラベルならば1秒/枚・クラス程度 セグメンテーションの課題 [15] M Everingham, L Van˜Gool, C K I Williams, J Winn, and A Zisserman. The PASCAL Visual Object Classes Challenge 2012 VOC2012 Results. [4] Amy Bearman, Olga Russakovsky, Vittorio Ferrari, and Li Fei-Fei. What’s the point: Semantic segmentation with point supervision. In Bastian Leibe, Jiri Matas, Nicu Sebe, and Max Welling, editors, Computer Vision – ECCV 2016, pages 549–565, Cham, 2016. Springer International Publishing. [paper] ということは... 時給1200円でアノテーターを雇用したとして 250時間 x 1200円/時間 = 300,000円 以上

Slide 5

Slide 5 text

© GO Inc. アノテーションにドメインの専門知識が求められる ● 必要な知識が設計者本人or少人数に限られる例が多い ● クラウドソーシングが適していない 例 OCTデータセット*は網膜画像に対する疾患のセグメンテーションで、 ● 医学生による画像選定 ● 眼科医4名によるアノテーション ● 20年以上の臨床経験のある網膜専門医2名による検証 を経て作成された セグメンテーションの課題 * Kermany, Daniel S., et al. "Identifying medical diagnoses and treatable diseases by image-based deep learning." cell 172.5 (2018): 1122-1131. [paper]

Slide 6

Slide 6 text

© GO Inc. 開発時に起きそうな悲しいこと 専門家が長時間は 参加してくれない アノテーションに使える お金が少ない! 画像がたくさんあっても... しめ切りまで 時間がない! となってセグメンテーションのアノテーションを付け切ることはできない

Slide 7

Slide 7 text

© GO Inc. ● Active Learning:アノテーション対象を効率的に選ぶ ● Transfer learning:別のデータセットで事前に学習する ● 弱教師あり学習:Weakアノテーションを組み合わせる ←本研究はここに着目 課題解決への選択肢 Active Learningの例 [44] [44] Yawar Siddiqui, Julien Valentin, and Matthias Nießner. Viewal: Active learning with viewpoint entropy for semantic segmentation. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 9433– 9443, 2020. [paper] どの方法でもセグメンテーションの アノテーション数を減らすことができる

Slide 8

Slide 8 text

© GO Inc. ● PASCAL VOC 2012 / 20クラスへのアノテーション時間比較 ○ Full:239.7秒/枚 ○ Weak Imageレベル:20.0秒/枚 ○ Weak Pointレベル:22.1秒/枚 ←画像レベルの1.1倍で手に入る ○ Weak Squiggleレベル 34.9秒/枚 ● コストを固定した場合はPointレベルとObjectness Priorを使 うのが最も高精度 Weakアノテーションとは?→先行研究の例 [4] Amy Bearman, Olga Russakovsky, Vittorio Ferrari, and Li Fei-Fei. What’s the point: Semantic segmentation with point supervision. In Bastian Leibe, Jiri Matas, Nicu Sebe, and Max Welling, editors, Computer Vision – ECCV 2016, pages 549–565, Cham, 2016. Springer International Publishing. [paper] クラスだけ クラスと点 クラスと線 Squiggle-level

Slide 9

Slide 9 text

© GO Inc. 予算の範囲内でFull & Weakアノテーションを組み合わせる Fullアノテーション 例: 予算 100,000円 Fullアノテーション 100円/枚 Weakアノテーション 10円/枚 Full: 100,000円 -> 1,000枚 Weak: 0円 -> 0枚 予算配分5:5ならば Full: 50,000円 -> 500枚 Weak: 5,000円 -> 5,000枚 Full: 0円 -> 0枚 Weak: 10,000円 -> 10,000枚 Fullアノテーション +Weakアノテーション Weakアノテーション 少 多 中 データ量 本研究は この方法→ 使うアノテーションの種類 予算配分 Full: Weak 10:0 N:M 0:10

Slide 10

Slide 10 text

© GO Inc. ● セグメンテーションにWeakアノテーション(例えば、 Bbox、キーポイント、画像レベルのラベル)を組み合わせる ● 精度は「Weakのみ < Weak + Full < Fullのみ」の順序 FullとWeakを組み合わせると精度上がる?→先行研究あり [40] George Papandreou, Liang-Chieh Chen, Kevin P. Murphy, and Alan L. Yuille. Weakly- and semi-supervised learning of a deep convolutional network for semantic image segmentation. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), December 2015. 1 [paper]

Slide 11

Slide 11 text

© GO Inc. 目標精度を達成するために必要な組み合わせ方の研究 →本研究は目標精度は設定せず、アノテーション予算を固定 先行研究:どう組み合わせるかについての研究 [33] Rafid Mahmood, James Lucas, David Acuna, Daiqing Li, Jonah Philion, Jose M Alvarez, Zhiding Yu, Sanja Fidler, and Marc T Law. How much more data do i need? estimating requirements for downstream tasks. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 275–284, 2022. [paper] [34] Rafid Mahmood, James Lucas, Jose M. Alvarez, Sanja Fidler, and Marc T. Law. Optimizing data collection for machine learning. Advances in Neural Information Processing Systems (NeurIPS), 10 2022. [paper] [33]より 10% or 50%のデータがある時 目標精度67%に必要な データセットサイズを予測

Slide 12

Slide 12 text

© GO Inc. 固定の予算がある時、新しいデータに対する2種類アノテーションの最適な比率を見つける 2種類のアノテーションを使いセグメンテーションを学習 ● Fullアノテーション(ピクセル単位の普通のアノテーション) ● Weakアノテーション(今回は画像単位でクラスラベルを付けるアノテーション) 提案手法 なお、他のタスクや組み合わせでも本研究の考え方は利用可能 画像は[4]から

Slide 13

Slide 13 text

© GO Inc. Weakで学習し収束させたモデルでFullを学習の2段階 提案手法:WeakとFullで学習 Weakアノテーションで学習 Fullアノテーションで学習 画像は[4]から

Slide 14

Slide 14 text

© GO Inc. モデルの精度は(Full枚数, Weak枚数)によって決まる。精度を最大化したい 条件として、 ● 合計コスト = Fullコスト/枚 x Full枚数 + Weakコスト/枚 x Weak枚数 ● 合計コスト ≦ 予算 提案手法:定式化 Full, Weakのコストと予算は固定 変えられるのはFull, Weakの枚数

Slide 15

Slide 15 text

© GO Inc. 例 FullとWeakの枚数配分から精度を予測できるようにすればOK ● 一部予算で作ったアノテーションで予測のための学習データを用意しモデルを作成 ● より多い予算での精度を予測し、最適な配分でアノテーション 提案手法:配分から精度を予測 セグメンテーション精度 = 関数(Full枚数, Weak枚数) Fullが10倍のコストとして ある予算B0で Full 20枚、Weak 20枚を用意 10枚 : 18枚 score 0.60 19枚 : 5枚 score 0.50 15枚 : 20枚 score 0.65 … ランダムなM種類で実測 予測 B0と同額足した予算B1では Full 20枚、Weak 240枚 〜Full 42枚、20枚 30枚 : 140枚 score 0.68? 40枚 : 60枚 score 0.62? 22枚 : 200枚 score 0.69? … 作れる範囲内で予測

Slide 16

Slide 16 text

© GO Inc. 例 FullとWeakの枚数配分から精度を予測できるようにすればOK ● 一部予算で作ったアノテーションで予測のための学習データを用意しモデルを作成 ● より多い予算での精度を予測し、最適な配分でアノテーション 提案手法:配分から精度を予測 セグメンテーション精度 = 関数(Full枚数, Weak枚数) 予算B1で Full 22枚、Weak 200枚を用意 ランダムなM種類で実測 予測 予算B2で作れるのは Full 22枚、Weak 420枚 〜Full 44枚、200枚 作れる範囲内で予測 これを繰り返す

Slide 17

Slide 17 text

© GO Inc. 提案手法:予測を繰り返していく 予算Btで付けたアノテーションから 予算B+tでの最適な配分を求める 縦軸 S Fullアノテーションに使う予算 横軸 C Weakアノテーションに使う予算 予算Bt+1でアノテーション 予算Bt+2での最適な配分を求める 本論文 Fig. 2 より 予算Bに 達するまで T回続く

Slide 18

Slide 18 text

© GO Inc. 予測にはガウス過程を用いる ● 非線形の回帰が可能 ● 少量のデータでも有効に学習 提案手法:予測にはガウス過程を用いる C: Weakアノテーション枚数 S: Fullアノテーション枚数 βc: Weakアノテーションのコスト βs: Fullアノテーションのコスト σ, lc, lsは学習対象のパラメータ mean function covariance function セグメンテーション精度 データサイズが大きいほど セグメンテーション精度が 対数に従い成長すると仮定 [42](U-Net) [42] Olaf Ronneberger, Philipp Fischer, and Thomas Brox. Unet: Convolutional networks for biomedical image segmentation. In International Conference on Medical image computing and computer-assisted intervention, pages 234–241. Springer, 2015. [paper] 2つのRBFカーネル

Slide 19

Slide 19 text

© GO Inc. 4種類のデータセットに対して実験 OCT: U-Net3 それ以外:DeepLabv3 (ResNet50) 実験 Imagenetのpre-trainedは用いない。 CityscapesやPASCAL VOCの Weakアノテーションと似ており、 Weakな学習の影響が見えづらくなるため。

Slide 20

Slide 20 text

© GO Inc. 比較手法 ● 固定の配分:Fullの配分が50, 55, …, 90, 95%を用意 ● Estimated-best-fixed:最初の予算B0で推定した配分を最後まで使う手法 最初の予算B0ではFull, Weakそれぞれデータセットの8%を使う 実験

Slide 21

Slide 21 text

© GO Inc. ある固定の配分(青)がどのデータセットにも強いわけではない 提案手法(橙)を越える精度の固定の配分があるように見えるけど... →実際はその固定の配分を知ることはできない 結果:データセットごとの比較 全データセットでFullコスト:Weakコスト=12:1 と設定した時 OCTでは95%が強い SUIMでは95%が弱い 得意不得意があるが それは事前には分からない

Slide 22

Slide 22 text

© GO Inc. Estimated-best-fixed(赤)は予算が増えるほど競争力低下 結果:データセットごとの比較 SUIMの最適固定戦略(赤)が4000で切れているのは何故? →50%の時で、ここで画像が尽きる 全データセットでFullコスト:Weakコスト=12:1 と設定した時

Slide 23

Slide 23 text

© GO Inc. 提案手法(橙)はどのデータセットでもそれなりに精度を出せている ただしSUIMで予算が増えた時には負け気味 結果:データセットごとの比較 一番強いわけじゃないけど えいやと配分するよりは安定的に勝てる 全データセットでFullコスト:Weakコスト=12:1 と設定した時

Slide 24

Slide 24 text

© GO Inc. データセットサイズと精度の関係を見てみると... ● Cityscapes(やその他)では精度がデータセットサイズとともに対数的に成長している ● SUIMではサイズとともに対数的に成長しない →対数的な成長を仮定として置いているためSUIMではうまく機能しなかった。将来への課題 結果:SUIMではなぜうまく機能していない?

Slide 25

Slide 25 text

© GO Inc. FullコストがWeakコストの5, 12, 25, 50倍とした時の比較 ● 提案手法はコスト比率が何倍でもロバスト ● 25, 50倍では平均以上 結果:Fullコストがどれだけ高いかによる違い Fullアノテーションが大変な時ほど提案手法が役立ちそう! 画像は[4]から

Slide 26

Slide 26 text

© GO Inc. 前提:繰り返し回数はトレードオフ ● 小さい時→解の質が下がるはず ● 大きい時→時間がかかってしまう 実験結果を見ると ● 繰り返し3回だと信頼できない ● 繰り返し5回以上ならばロバスト 結果:ハイパーパラメータな繰り返し回数Tによる違い

Slide 27

Slide 27 text

© GO Inc. ● セグメンテーションのアノテーションはコストが高い ● 固定の予算が与えられた時、Weakアノテーションも組み合わせることで精度が向上 ● 予算とデータセットに応じた最適な配分を見つける手法を提案した ❏ アノテーションが難しいタスクでは簡単なアノテーションも混ぜてみよう ❏ 混ぜる時は本手法を使って適切な配分を見つけよう まとめ [4]より。右のような簡単な アノテーションを多数用意すれば精度向上 Fig. 2より。一部予算を使って 実測・予測モデル作成を繰り返す

Slide 28

Slide 28 text

© GO Inc. ● AI 開発における「データ」に着目した取り組みについて、世界的な動向や、様々な人・組織の 知見・ノウハウなどを共有するためのコミュニティ ● 定期的な勉強会を開催しており、これまでの発表者は 19 名、のべ参加者数は 1300 人以上 Data-Centric AI Community https://dcai-jp.connpass.com/ https://twitter.com/dcai_jp ご参加・ご発表を お待ちしております!

Slide 29

Slide 29 text

文章・画像等の内容の無断転載及び複製等の行為はご遠慮ください。 © GO Inc.