Slide 1

Slide 1 text

ライセンスの呪いを祓う 機械学習の社会実装勉強会第18回 Henry 2022/12/31

Slide 2

Slide 2 text

ライセンス! ■ このライブラリー・この実装を使いたい! → ライセンスを見てみたら、だめでした。。。 ■ 色々回避策を施し、やっとリリースできる → と思いきや、pre-trained modelをfine tuningしていた ■ ほとんどのpre-trained modelはImageNetで学習していた ● ImageNetやPlaces365自体は商用不可 ● 学習済みモデルの重みという数値の塊は、ImageNetと違うけど、商用 不可と承認したうえでデータをダウンロードし学習を回すので、やはり 学習済みモデルも商用不可なのでは → そもそも最初でImageNetでpre-trainしなければ厄介なことにならな い → ImageNet以外のpre-training data候補として、人工生成画像が有 望! 2

Slide 3

Slide 3 text

Pre-training without Natural Images ■ ACCV 2020, IJCV 2022 ■ 数学的に大量な画像を生成したい ● Fractalは有名な数学的構造 ● シンプルなパラメータで複雑な模様を制御できる ■ Iterated Function System (IFS)で生成プロセスを定義 ● ● 一つのIFSを一つの分類カテゴリにする ● 確率pでiを決める ● 以下の式でxを変換 3

Slide 4

Slide 4 text

Pre-training without Natural Images ■ Downstream taskにおいて、scratchを遥かに超える収束速 度を達成 4

Slide 5

Slide 5 text

実験結果 ■ 基本的にデータ数(カテゴリ数または各カテゴリの画像数)は 多いほうが性能が良い ■ ResNet-50という小さめのモデルを使ったので、キャパシティ のより大きいモデルで更に精度向上の可能性 5

Slide 6

Slide 6 text

実験結果 ■ ImageNetと拮抗するぐらいの性能 ■ 人工データに数の上限がないので、モデルのキャパシティを 上げることで性能向上の可能性 6

Slide 7

Slide 7 text

Can Vision Transformers Learn without Natural Images? ■ AAAI 2022 ■ 前述の生成過程を少し拡張し、Vision Transformersに適用し た ■ より性能の良いpre-trainが達成できた 7

Slide 8

Slide 8 text

Replacing Labeled Real-Image Datasets with Auto-Generated Contours ■ CVPR 2022 ■ 生成プロセスがより精緻化になったContourベースの人工 データで、Vision Transformersのpre-trainで(限定的ですが) ImageNetを超えた 8

Slide 9

Slide 9 text

Replacing Labeled Real-Image Datasets with Auto-Generated Contours ■ Vision TransformerのAttention Mapで、Fractalsにとって縁 のところが注目される → Contourで良い ■ 自由度が高い人工データのほうが性能が良い → 生成プロセ スにある可動パラメータを増やせば良い 9

Slide 10

Slide 10 text

まとめ ■ ライセンス問題回避のために、人工生成画像で画像認識モデ ルをpre-trainする手法に関する論文 ● Vision Transformersで優れた性能が実現 ■ Future work ● ほとんど白黒の画像を扱ってきたが、カラフルな生成画像でpre-train すればよりパワフルになる! 10