ライセンスの呪いを祓う

by Henry Cui

Slide 1

Slide 1 text

ライセンスの呪いを祓う機械学習の社会実装勉強会第18回 Henry 2022/12/31

Slide 2

Slide 2 text

ライセンス！ ■ このライブラリー・この実装を使いたい！ → ライセンスを見てみたら、だめでした。。。 ■ 色々回避策を施し、やっとリリースできる → と思いきや、pre-trained modelをfine tuningしていた ■ ほとんどのpre-trained modelはImageNetで学習していた ● ImageNetやPlaces365自体は商用不可 ● 学習済みモデルの重みという数値の塊は、ImageNetと違うけど、商用不可と承認したうえでデータをダウンロードし学習を回すので、やはり学習済みモデルも商用不可なのでは → そもそも最初でImageNetでpre-trainしなければ厄介なことにならない → ImageNet以外のpre-training data候補として、人工生成画像が有望！ 2

Slide 3

Slide 3 text

Pre-training without Natural Images ■ ACCV 2020, IJCV 2022 ■ 数学的に大量な画像を生成したい ● Fractalは有名な数学的構造 ● シンプルなパラメータで複雑な模様を制御できる ■ Iterated Function System (IFS)で生成プロセスを定義 ● ● 一つのIFSを一つの分類カテゴリにする ● 確率pでiを決める ● 以下の式でxを変換 3

Slide 4

Slide 4 text

Pre-training without Natural Images ■ Downstream taskにおいて、scratchを遥かに超える収束速度を達成 4

Slide 5

Slide 5 text

実験結果 ■ 基本的にデータ数（カテゴリ数または各カテゴリの画像数）は多いほうが性能が良い ■ ResNet-50という小さめのモデルを使ったので、キャパシティのより大きいモデルで更に精度向上の可能性 5

Slide 6

Slide 6 text

実験結果 ■ ImageNetと拮抗するぐらいの性能 ■ 人工データに数の上限がないので、モデルのキャパシティを上げることで性能向上の可能性 6

Slide 7

Slide 7 text

Can Vision Transformers Learn without Natural Images? ■ AAAI 2022 ■ 前述の生成過程を少し拡張し、Vision Transformersに適用した ■ より性能の良いpre-trainが達成できた 7

Slide 8

Slide 8 text

Replacing Labeled Real-Image Datasets with Auto-Generated Contours ■ CVPR 2022 ■ 生成プロセスがより精緻化になったContourベースの人工データで、Vision Transformersのpre-trainで（限定的ですが） ImageNetを超えた 8

Slide 9

Slide 9 text

Replacing Labeled Real-Image Datasets with Auto-Generated Contours ■ Vision TransformerのAttention Mapで、Fractalsにとって縁のところが注目される → Contourで良い ■ 自由度が高い人工データのほうが性能が良い → 生成プロセスにある可動パラメータを増やせば良い 9

Slide 10

Slide 10 text

まとめ ■ ライセンス問題回避のために、人工生成画像で画像認識モデルをpre-trainする手法に関する論文 ● Vision Transformersで優れた性能が実現 ■ Future work ● ほとんど白黒の画像を扱ってきたが、カラフルな生成画像でpre-train すればよりパワフルになる！ 10