ライセンスの呪いを祓う機械学習の社会実装勉強会第18回Henry2022/12/31
View Slide
ライセンス!■ このライブラリー・この実装を使いたい!→ ライセンスを見てみたら、だめでした。。。■ 色々回避策を施し、やっとリリースできる→ と思いきや、pre-trained modelをfine tuningしていた■ ほとんどのpre-trained modelはImageNetで学習していた● ImageNetやPlaces365自体は商用不可● 学習済みモデルの重みという数値の塊は、ImageNetと違うけど、商用不可と承認したうえでデータをダウンロードし学習を回すので、やはり学習済みモデルも商用不可なのでは→ そもそも最初でImageNetでpre-trainしなければ厄介なことにならない→ ImageNet以外のpre-training data候補として、人工生成画像が有望!2
Pre-training without Natural Images■ ACCV 2020, IJCV 2022■ 数学的に大量な画像を生成したい● Fractalは有名な数学的構造● シンプルなパラメータで複雑な模様を制御できる■ Iterated Function System (IFS)で生成プロセスを定義●● 一つのIFSを一つの分類カテゴリにする● 確率pでiを決める● 以下の式でxを変換3
Pre-training without Natural Images■ Downstream taskにおいて、scratchを遥かに超える収束速度を達成4
実験結果■ 基本的にデータ数(カテゴリ数または各カテゴリの画像数)は多いほうが性能が良い■ ResNet-50という小さめのモデルを使ったので、キャパシティのより大きいモデルで更に精度向上の可能性5
実験結果■ ImageNetと拮抗するぐらいの性能■ 人工データに数の上限がないので、モデルのキャパシティを上げることで性能向上の可能性6
Can Vision Transformers Learn without Natural Images?■ AAAI 2022■ 前述の生成過程を少し拡張し、Vision Transformersに適用した■ より性能の良いpre-trainが達成できた7
Replacing Labeled Real-Image Datasets withAuto-Generated Contours■ CVPR 2022■ 生成プロセスがより精緻化になったContourベースの人工データで、Vision Transformersのpre-trainで(限定的ですが)ImageNetを超えた8
Replacing Labeled Real-Image Datasets withAuto-Generated Contours■ Vision TransformerのAttention Mapで、Fractalsにとって縁のところが注目される → Contourで良い■ 自由度が高い人工データのほうが性能が良い → 生成プロセスにある可動パラメータを増やせば良い9
まとめ■ ライセンス問題回避のために、人工生成画像で画像認識モデルをpre-trainする手法に関する論文● Vision Transformersで優れた性能が実現■ Future work● ほとんど白黒の画像を扱ってきたが、カラフルな生成画像でpre-trainすればよりパワフルになる!10