Slide 1

Slide 1 text

© GO Inc. 第61回 コンピュータビジョン勉強会@関東(前編) CVPR2024読み会 BioCLIP: A Vision Foundation Model for the Tree of Life GO株式会社 鈴木達哉 1

Slide 2

Slide 2 text

© GO Inc. 自己紹介 鈴木達哉 GO株式会社 AI技術開発部 AI研究開発第二グループ Data-Centric AI Community運営 「データ」に着目した勉強会を1, 2ヶ月毎に開催中 発表いただける方随時募集中です! @x_ttyszk 2

Slide 3

Slide 3 text

© GO Inc. ● 論文:CVPR 2024 open access ● コード:https://github.com/Imageomics/BioCLIP ● プロジェクトページ:https://imageomics.github.io/bioclip/ ● モデル:https://huggingface.co/imageomics/bioclip ● 概要: ○ 生物学分野特化のマルチモーダル基盤モデルの提案 ○ 大規模学習データセットを作成 ○ 生物分類学の階層構造を学習し未学習の種へも一般化 ● Best Student Paper どんな論文? 3

Slide 4

Slide 4 text

© GO Inc. 4 imageomics/bioclip · Hugging Faceで試せます こういうことができるモデルの話 この写真はアジサイ科?シレンゲ科?ミズキ科? この写真は犬?オオカミ?狐?猫? この例はかなり簡単だけど、 相当珍しい生物を入れても対応してくれる

Slide 5

Slide 5 text

© GO Inc. 5 生物は似た特徴を持つものをグルーピングし、種・属・科などの階層構造で整理されている。 生物分類学の階層構造? 生物の分類 - Wikipedia より 生物以外でもこういった階層構造を持つ 領域には適用できるだろう研究

Slide 6

Slide 6 text

© GO Inc. 6 ● 写真から生物の種類が分かると自然界の研究に役立つが、種類は合計200万種と膨大 ● 従来の最大規模の生物データセットiNat21でも1万種類だけしかない ● 一般的な学習法では近い種でも独立して扱われてしまい、未学習の種をうまく扱えない 課題 iNaturalist - Google Play のアプリ 応用例。生物を撮影し記録できる。画像認識によるサジェスト機能もあり。

Slide 7

Slide 7 text

© GO Inc. 7 ImageNetも階層的なラベル付けがされている。 Bilalら[10]はImageNetの誤検出が階層構造に関係していることを発見し、階層構造を利用し たアーキテクチャにより精度を改善した。 関連研究:クラスの階層構造を扱ったコンピュータビジョン [10] Alsallakh Bilal, Amin Jourabloo, Mao Ye, Xiaoming Liu, and Liu Ren. Do convolutional neural networks learn class hierarchy? IEEE Transactions on Visualization and Computer Graphics, 24(1):152–162, 2018. [10]より、ImageNetの階層ごとに並べた混同行列 グループ内で 間違えやすい

Slide 8

Slide 8 text

© GO Inc. 8 Bertinettoら[9]は階層構造を使った損失関数を提案した。 Top-1の精度を妥協し、別のグループとの間違いを減らした。 関連研究:クラスの階層構造を扱ったコンピュータビジョン [9] Luca Bertinetto, Romain Mueller, Konstantinos Tertikas, Sina Samangooei, and Nicholas A Lord. Making better mistakes: Leveraging class hierarchies with deep networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 12506–12515, 2020. [9]より。ImageNetのTop-1は年々改善しているが、 誤分類時の階層的な遠さは改善できていないことを示す図 [9]より2つのデータセットに対する手法比較。 Top-1 errorと間違いの階層的距離のトレードオフの図 グループ外と 間違えて欲しくない話

Slide 9

Slide 9 text

© GO Inc. 9 Zhangら[96]は階層的距離を使ったContrastive Lossを提案した。 ImageNetとiNat17でクロスエントロピーによるモデルを上回った。 関連研究:クラスの階層構造を扱ったコンピュータビジョン [96] Shu Zhang, Ran Xu, Caiming Xiong, and Chetan Ramaiah. Use all the labels: A hierarchical multi-label contrastive learning framework. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 16660–16669, 2022. [96]より。階層的距離を使った学習のイメージ図。

Slide 10

Slide 10 text

© GO Inc. 10 ● CLIPモデルの訓練にはデータの質と多様性が重要[24, 26, 57] ● Encyclopedia of Lifeプロジェクトから44万種類・660万枚の画像を入手 ● iNat21の1万種類・270万枚の画像や昆虫のデータセットBIOSCAN-1Mも利用 TreeOfLife-10Mデータセット Encyclopedia of Lifeプロジェクト TreeOfLife-10Mに含まれる生物の種類 [24] Alex Fang, Gabriel Ilharco, Mitchell Wortsman, Yuhao Wan, Vaishaal Shankar, Achal Dave, and Ludwig Schmidt. Data determines distributional robustness in contrastive language image pre-training (CLIP). In International Conference on Machine Learning, pages 6216–6234, 2022. [26] Samir Yitzhak Gadre, Gabriel Ilharco, Alex Fang, Jonathan Hayase, Georgios Smyrnis, Thao Nguyen, Ryan Marten, Mitchell Wortsman, Dhruba Ghosh, Jieyu Zhang, et al. DataComp: In search of the next generation of multimodal datasets. arXiv preprint arXiv:2304.14108, 2023. [57] Thao Nguyen, Gabriel Ilharco, Mitchell Wortsman, Sewoong Oh, and Ludwig Schmidt. Quality not quantity: On the interaction between dataset design and robustness of CLIP. In Advances in Neural Information Processing Systems, pages 21455–21469, 2022.

Slide 11

Slide 11 text

© GO Inc. 11 ● 複数のデータセットに統一的な生物の名前のラベルをつける難しい作業を実施 ● ITISなど複数の情報源を優先順位を付けて利用 ● 84%のデータに完全なラベリング ● Hugging Faceで公開 imageomics/TreeOfLife-10M · Datasets at Hugging Face TreeOfLife-10Mデータセット 表:3つのデータセットから構成 1000万枚!45万クラス! 丁寧なラベル付けによる 高品質なデータ作りがポイント

Slide 12

Slide 12 text

© GO Inc. 12 生物の名前は複数ある。推論時に柔軟に扱えるように分類学名以外も利用する。 Taxonomic name 分類学名 界〜種の7種類が標準的。本研究では単一の文字列に連結して扱う。 例:Animalia Chordata Aves Passeriformes Corvidae Pica hudsonia Scientific name 学名 属と種から構成された名称。ラテン語。 例:Pica hudsonia Common name 一般名 日常的な名称。言語によって変わる。 分類学名と一対一とは限らない。 例:Black-billed magpie   (日本語ではアメリカカササギ) 生物名称の種類 5種類のテキストを学習に利用 Black-billed magpie - Wikipedia

Slide 13

Slide 13 text

© GO Inc. 13 分類学名など生物の名称のテキストと画像の埋め込みが近づくようにCLIPを学習する。 ResNetやSwin Transformerは各ラベルを独立して扱う。 提案手法は階層情報を捉えられると期待できる。 提案手法:生物分類学の階層構造を学習 モデルとして特別なことはしていない 入力するデータ(テキスト)を工夫

Slide 14

Slide 14 text

© GO Inc. 14 ● BioCLIPと通常のCLIPやvision-onlyモデルを比較 ● 10種類のテストデータを用意 実験:提案手法の効果 動物 植物・菌類 希少種

Slide 15

Slide 15 text

© GO Inc. 15 Zero-Shot・One-Shot・Five-Shotどれも平均を見るとBioCLIPが高精度だった。 実験:提案手法の効果 結果

Slide 16

Slide 16 text

© GO Inc. 16 iNat21のみよりTreeOfLifeを使った方が高精度となった。 特にZero-Shotで差が大きい。より多様なデータを使うことに意味があった。 実験:データセットによる差

Slide 17

Slide 17 text

© GO Inc. 17 特に希少種に対してBioCLIPは高精度に認識できた。 TreeOfLife-10Mから30枚の画像がある400種を削除しテストデータとして使用している。 実験:希少種の認識結果

Slide 18

Slide 18 text

© GO Inc. 18 植物の病気の診断データセットに対して、特にZero-Shotの際に高精度だった。 生物の種類を学習しているが、それ以外のタスクにも利用できる特徴を捉えている。 実験:種類以外の認識結果

Slide 19

Slide 19 text

© GO Inc. 19 各タイプで学習・評価を実施した。効率化のためサブセットで実験した。 一般名・学名・分類学名を混ぜると単独の時よりも精度が向上した。(青が橙を超えている) INatulalist2021-2.7MよりTreeOfLife-10Mがどのタイプに対しても高精度だった。 実験:利用するテキストタイプによる比較 表:タイプごとのZero-Shotの結果 表:テキストタイプ(再掲)

Slide 20

Slide 20 text

© GO Inc. 20 ラベル付き画像の学習にCLIPを使うことは直感的ではないので非CLPモデルと比較した。 非CLIPモデルはZero-ShotはできないためOne-Shot, Five-Shotで比較した。 階層的クロスエントロピー[11]はクロスエントロピーよりも高精度だがCLIPよりは低かった。 実験:CLIPが必要かどうか [11] Kim Bjerge, Quentin Geissmann, Jamie Alison, Hjalte MR Mann, Toke T Høye, Mads Dyrmann, and Henrik Karstoft. Hierarchical classification of insects with multitask learning and anomaly detection. Ecological Informatics, 77:102278, 2023. 表:学習方法による比較

Slide 21

Slide 21 text

© GO Inc. 21 学習していない画像の埋め込みをt-SNEを用いて可視化し、分類学的ラベルで色分けした。 BioCLIPはCLIPよりも明確に階層構造ごとに分離できていた。 実験:BioCLIPは階層構造を学習できている? 図:t-SNEによる可視化。(B) BioCLIP, (O) OpenAI’s CLIP BioCLIP CLIP Animalia(動物界) -> Arthropoda(節足動物門) -> Insecta(昆虫網) 境界がぼやっとしている 境界が明確

Slide 22

Slide 22 text

© GO Inc. 22 学習していない画像の埋め込みをt-SNEを用いて可視化し、分類学的ラベルで色分けした。 BioCLIPはCLIPよりも明確に階層構造ごとに分離できていた。 実験:BioCLIPは階層構造を学習できている? 図:t-SNEによる可視化。(B) BioCLIP, (O) OpenAI’s CLIP BioCLIP CLIP Lepidoptera(チョウ目) -> Nymphalidae(タテハチョウ科) -> Junonia(タテハモドキ属) 境界がぼやっとしている 境界が明確

Slide 23

Slide 23 text

© GO Inc. 23 ● 膨大な種類を含む生物学のデータセットTreeOfLife-10Mを作成 ● 分類学名をCLIPで学習させることで階層構造を学習できる ● 生物の種類をZero-shot, Few-shotで高精度に分類できる まとめ

Slide 24

Slide 24 text

文章・画像等の内容の無断転載及び複製等の行為はご遠慮ください。 © GO Inc. 24