$30 off During Our Annual Pro Sale. View Details »

第61回コンピュータビジョン勉強会「BioCLIP: A Vision Foundation ...

第61回コンピュータビジョン勉強会「BioCLIP: A Vision Foundation Model for the Tree of Life」

第61回 コンピュータビジョン勉強会@関東(前編)CVPR2024読み会での発表資料です。
https://kantocv.connpass.com/event/321174/

論文URL:
https://openaccess.thecvf.com/content/CVPR2024/html/Stevens_BioCLIP_A_Vision_Foundation_Model_for_the_Tree_of_Life_CVPR_2024_paper.html

Tatsuya Suzuki

July 06, 2024
Tweet

More Decks by Tatsuya Suzuki

Other Decks in Science

Transcript

  1. © GO Inc. 自己紹介 鈴木達哉 GO株式会社 AI技術開発部 AI研究開発第二グループ Data-Centric AI

    Community運営 「データ」に着目した勉強会を1, 2ヶ月毎に開催中 発表いただける方随時募集中です! @x_ttyszk 2
  2. © GO Inc. • 論文:CVPR 2024 open access • コード:https://github.com/Imageomics/BioCLIP

    • プロジェクトページ:https://imageomics.github.io/bioclip/ • モデル:https://huggingface.co/imageomics/bioclip • 概要: ◦ 生物学分野特化のマルチモーダル基盤モデルの提案 ◦ 大規模学習データセットを作成 ◦ 生物分類学の階層構造を学習し未学習の種へも一般化 • Best Student Paper どんな論文? 3
  3. © GO Inc. 4 imageomics/bioclip · Hugging Faceで試せます こういうことができるモデルの話 この写真はアジサイ科?シレンゲ科?ミズキ科?

    この写真は犬?オオカミ?狐?猫? この例はかなり簡単だけど、 相当珍しい生物を入れても対応してくれる
  4. © GO Inc. 7 ImageNetも階層的なラベル付けがされている。 Bilalら[10]はImageNetの誤検出が階層構造に関係していることを発見し、階層構造を利用し たアーキテクチャにより精度を改善した。 関連研究:クラスの階層構造を扱ったコンピュータビジョン [10] Alsallakh

    Bilal, Amin Jourabloo, Mao Ye, Xiaoming Liu, and Liu Ren. Do convolutional neural networks learn class hierarchy? IEEE Transactions on Visualization and Computer Graphics, 24(1):152–162, 2018. [10]より、ImageNetの階層ごとに並べた混同行列 グループ内で 間違えやすい
  5. © GO Inc. 8 Bertinettoら[9]は階層構造を使った損失関数を提案した。 Top-1の精度を妥協し、別のグループとの間違いを減らした。 関連研究:クラスの階層構造を扱ったコンピュータビジョン [9] Luca Bertinetto,

    Romain Mueller, Konstantinos Tertikas, Sina Samangooei, and Nicholas A Lord. Making better mistakes: Leveraging class hierarchies with deep networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 12506–12515, 2020. [9]より。ImageNetのTop-1は年々改善しているが、 誤分類時の階層的な遠さは改善できていないことを示す図 [9]より2つのデータセットに対する手法比較。 Top-1 errorと間違いの階層的距離のトレードオフの図 グループ外と 間違えて欲しくない話
  6. © GO Inc. 9 Zhangら[96]は階層的距離を使ったContrastive Lossを提案した。 ImageNetとiNat17でクロスエントロピーによるモデルを上回った。 関連研究:クラスの階層構造を扱ったコンピュータビジョン [96] Shu

    Zhang, Ran Xu, Caiming Xiong, and Chetan Ramaiah. Use all the labels: A hierarchical multi-label contrastive learning framework. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 16660–16669, 2022. [96]より。階層的距離を使った学習のイメージ図。
  7. © GO Inc. 10 • CLIPモデルの訓練にはデータの質と多様性が重要[24, 26, 57] • Encyclopedia

    of Lifeプロジェクトから44万種類・660万枚の画像を入手 • iNat21の1万種類・270万枚の画像や昆虫のデータセットBIOSCAN-1Mも利用 TreeOfLife-10Mデータセット Encyclopedia of Lifeプロジェクト TreeOfLife-10Mに含まれる生物の種類 [24] Alex Fang, Gabriel Ilharco, Mitchell Wortsman, Yuhao Wan, Vaishaal Shankar, Achal Dave, and Ludwig Schmidt. Data determines distributional robustness in contrastive language image pre-training (CLIP). In International Conference on Machine Learning, pages 6216–6234, 2022. [26] Samir Yitzhak Gadre, Gabriel Ilharco, Alex Fang, Jonathan Hayase, Georgios Smyrnis, Thao Nguyen, Ryan Marten, Mitchell Wortsman, Dhruba Ghosh, Jieyu Zhang, et al. DataComp: In search of the next generation of multimodal datasets. arXiv preprint arXiv:2304.14108, 2023. [57] Thao Nguyen, Gabriel Ilharco, Mitchell Wortsman, Sewoong Oh, and Ludwig Schmidt. Quality not quantity: On the interaction between dataset design and robustness of CLIP. In Advances in Neural Information Processing Systems, pages 21455–21469, 2022.
  8. © GO Inc. 11 • 複数のデータセットに統一的な生物の名前のラベルをつける難しい作業を実施 • ITISなど複数の情報源を優先順位を付けて利用 • 84%のデータに完全なラベリング

    • Hugging Faceで公開 imageomics/TreeOfLife-10M · Datasets at Hugging Face TreeOfLife-10Mデータセット 表:3つのデータセットから構成 1000万枚!45万クラス! 丁寧なラベル付けによる 高品質なデータ作りがポイント
  9. © GO Inc. 12 生物の名前は複数ある。推論時に柔軟に扱えるように分類学名以外も利用する。 Taxonomic name 分類学名 界〜種の7種類が標準的。本研究では単一の文字列に連結して扱う。 例:Animalia

    Chordata Aves Passeriformes Corvidae Pica hudsonia Scientific name 学名 属と種から構成された名称。ラテン語。 例:Pica hudsonia Common name 一般名 日常的な名称。言語によって変わる。 分類学名と一対一とは限らない。 例:Black-billed magpie   (日本語ではアメリカカササギ) 生物名称の種類 5種類のテキストを学習に利用 Black-billed magpie - Wikipedia
  10. © GO Inc. 20 ラベル付き画像の学習にCLIPを使うことは直感的ではないので非CLPモデルと比較した。 非CLIPモデルはZero-ShotはできないためOne-Shot, Five-Shotで比較した。 階層的クロスエントロピー[11]はクロスエントロピーよりも高精度だがCLIPよりは低かった。 実験:CLIPが必要かどうか [11]

    Kim Bjerge, Quentin Geissmann, Jamie Alison, Hjalte MR Mann, Toke T Høye, Mads Dyrmann, and Henrik Karstoft. Hierarchical classification of insects with multitask learning and anomaly detection. Ecological Informatics, 77:102278, 2023. 表:学習方法による比較