局所特徴量：画像認識における特徴表現獲得の変遷

Slide 1

Slide 1 text

.*36प೥ˍճه೦ಛผاըʮաڈΛ஌ΓɺະདྷΛ૝͏ʯ ہॴಛ௃ྔɿը૾ೝࣝʹ͓͚Δಛ௃දݱ֫ಘͷมભ ౻٢߂࿱ʢத෦େֶɾػց஌֮ϩϘςΟΫεݚڀάϧʔϓʣ IUUQNQSHKQ

Slide 2

Slide 2 text

ը૾ೝٕࣝज़ͷมભ าߦऀݕग़ )0(47. ޯ഑ํ޲ώετάϥϜ إݕग़ )BSSMJLF"EB#PPTU CPYϑΟϧλʹΑΔ໌҉ࠩ ը૾Ϛονϯά 4*'5 εέʔϧෆม ಛ௃఺ݕग़ɾهड़ Ϋϥεͷը૾෼ྨ 4*'5#0' #BHදݱͷಋೖ ಛఆ෺ମೝࣝ ը૾෼ྨ ෺ମݕग़ ηϚϯςΟοΫ ηάϝϯςʔγϣϯ खॻ͖਺ࣈͷ෼ྨ $// ৞ΈࠐΈχϡʔϥϧωοτϫʔΫ ϐΫηϧࠩ෼3BOEPN'PSFTU ϐΫηϧࠩ෼ʹΑΔςΫενϟ 463' ੵ෼ը૾ʹΑΔߴ଎Խ '"45 ܾఆ໦ʹΑΔίʔφʔݕग़ 03# ڭࢣͳֶ͠शʹΑΔϖΞબ୒ 'JTIFS7FDUPS ֬཰ີ౓ؔ਺ʹΑΔಛ௃දݱ 7-"% ؔ࿈͢Δ78ͷಛ௃ +PJOU)0( $P)0( )0(ͷڞىදݱ #3*&' ೋ஋ಛ௃ $"3% ಛ௃ྔͷೋ஋Խ 5FYUPO ϑΟϧλόϯΫ $)"-$ ہॴࣗݾ૬ؔ Ϋϥϥε෼ྨ*NBHF/FU "MFY/FU ৞ΈࠐΈχϡʔϥϧωοτϫʔΫ ೥୅ 7(( ૚ (PPH-F/FU ૚ 3FT/FU ૚ʴεΩοϓߏ଄ ଟΫϥε෺ମݕग़ 'BTUFS3$// 3FHJPO1SPQPTBM :0-0 4JOHMFTIPU 44% 4JOHMFTIPU '$/ ৞ΈࠐΈʹΑΔηάϝϯςʔγϣϯ 141/FU 1ZSBNJE1PPMJOH .%FU ϚϧνϨϕϧಛ௃ϐϥϛου Πϯελϯεηάϝϯςʔγϣϯ .BTL3$// &OEUPFOEͰ࣮ݱ 7J5 7JTJPO5SBOTGPSNFS 4&/FU &YDJUBUJPO %*/0 44-7J5 4JN$-3 ରরֶश .P$P ରরֶश #:0- ϙδςΟϒϖΞͷΈ 4FH/FU &ODPEFSEFDPEFS %FFQ-BCW "USPVT৞ΈࠐΈ 4FH'PSNFS 7J5 %&53 5SBOTGPSNFS '1/ ಛ௃ϐϥϛου 6/FU '$/Λར༻ & ffi DJFOU/FU /"4 $// 7JTJPO5SBOTGPSNFS 4VQFS(MVF (//ͷར༻ $FOUFS/FU ΞϯΧʔϨε ڭࢣ͋Γֶश ࣗݾڭࢣ͋Γֶश

Slide 9

Slide 9 text

4*'5Ҏ߱ͷΞϓϩʔν 9 த෦େֶϩΰ த෦େֶϩΰ w ΩʔϙΠϯτݕग़ ߴ଎Խɿ463'<&$$7> ίʔφʔʹಛԽɿ'"45<&$$7> w ಛ௃هड़ ߴ଎Խɿ463'<&$$7> ೋ஋ಛ௃ɿ #3*&'<&$$7> 03#<&$$7> #3*4,<*$$7> $"3%<*$$7> w ରԠ఺୳ࡧ͔Βը૾෼ྨλεΫ΁ #BHPGWJTVBMXPSE<$713> 画像技術の最前線局所勾配特徴抽出技術* ―SIFT 以降のアプローチ― Gradient-based Image Local Features 藤吉弘亘** 安倍満*** Hironobu FUJIYOSHI and Mitsuru AMBAI Key words image local feature, SIFT, SURF, FAST, RIFF, BRIEF, BRISK, ORB, CARD 1．はじめに画像のスケール変化や回転に不変な特徴量を抽出する Scale Invariant Feature Transform（SIFT)1)は，特定物体認識だけではなく画像合成や画像分類など多くのアプリケーションに利用されている．SIFT の処理過程は，キーポイント検出と特徴量記述の二段階からなり，各処理は以下の流れとなる．キーポイント検出 ] 1．スケールとキーポイント検出 2．キーポイントのローカライズ特徴量記述 ] 3．オリエンテーションの算出 4．特徴量の記述キーポイント検出処理では，Diﬀerence-of-Gaussian （DoG）処理によりキーポイントのスケールと位置を検出する．特徴量記述では，スケール内の勾配情報からオリエンテーションを求め，キーポイント周辺領域（パッチ）をオリエンテーション方向に回転させて特徴量を記述することで，回転に対して不変な特徴量を抽出する．SIFT では，キーポイント検出処理における DoG 画像の生成や，特徴量記述処理における勾配ヒストグラム算出の計算コストが高いという問題がある．この問題を解決する高速化の手法として，2006 年に SURF2)が提案された．SURF では，各処理において積分画像を利用した Box フィルタを用いることで，SIFT と比較して約 10 倍の高速化を実現した．近年では，高性能な PC だけではなく携帯端末等の小型デバイスでの利用を考慮し，キーポイント検出と特徴量記述の各処理を高速化および省メモリ化した手法が提案されている．図 1 に，キーポイント検出と特徴量記述における SIFT 以降の変遷を示す．キーポイント検出処理では，コーナーに特化することで高速かつ省メモリを実現した FAST3)が提案された．FAST は，後述の特徴量記述手法と組み合わせて使用される．特徴量記述の処理においては，SIFT や SURF と同様に勾配特徴量に基づく RIFF4) が 2010 年に提案された．SIFT では 128 次元，SURF では 64 次元，RIFF では 100 次元のベクトルが抽出される．高次元のベクトル特徴量は，高い識別能力をもつ反面，メモリ消費量が多く，2010 年以降ではベクトル特徴量の代わりにバイナリコードで特徴量を記述する手法が提案されている．パッチからバイナリコードを直接生成する手法として BRIEF5)，BRISK6)，ORB7)が，間接的にバイナリコードを生成する手法として CARD8)が提案された．このように，SIFT と SURF 以降では，キーポイント検出および特徴量記述において，高速化と省メモリ化を同時に実現する手法が展開されている．本稿では，SIFT や SURF 以降のアプローチが，キーポイント検出と特徴量記述の各処理おいて，どのように展開されてきたかを各手法のアルゴリズムとともに解説する． 2．キーポイント検出 SIFT では，複数の DoG 画像からキーポイントを検出するのと同時に，キーポイントを中心とした特徴量記述を行う範囲を表すスケールも検出する．DoG 画像の作成は計算コストが高い上，複数の DoG 画像を保持するためのメモリを要するという問題点がある．キーポイント検出の高速化として，SURF では積分画像を利用した Box フィルタを用い高速化を実現した．Edward らが提案した精密工学会誌 Vol.77, No.12, 2011 1109 *原稿受付平成 23 年 10 月 3 日 **中部大学工学部情報工学科（愛知県春日井市松本町 1200） ***(株)デンソーアイティーラボラトリ（東京都渋谷区二丁目 15 番 1 号渋谷クロスタワー 25 階）藤吉弘亘 1997 年中部大学大学院博士後期課程修了．博士（工学）．1997∼2000 年米カーネギーメロン大学ロボット工学研究所 Postdoctoral Fellow．2000 年中部大学講師，2004 年同大准教授を経て 2010 年より同大教授． 2005∼2006 年米カーネギーメロン大学ロボット工学研究所客員研究員． 2010 年計算機視覚，動画像処理，パターン認識・理解の研究に従事．2005 年度ロボカップ研究賞．2009 年度情報処理学会論文誌コンピュータビジョンとイメージメディア優秀論文賞．2009 年度山下記念研究賞．情報処理学会，電子情報通信学会，電気学会，IEEE 各会員．安倍満 2007 年慶應義塾大学大学院博士後期課程修了．博士（工学）．2007 年株式会社デンソーアイティーラボラトリシニアエンジニア．2011 年画像センシングシンポジウム（SSII）オーディエンス賞．2011 年画像の認識・理解シンポジウム（MIRU）インタラクティブセッション賞．パターン認識・理解，コンピュータビジョンの研究に従事．電子情報通信学会，IEEE 各会員． ౻٢ ҆ഒɿzہॴޯ഑ಛ௃நग़4*'5Ҏ߱ͷΞϓϩʔνz ਫ਼ີ޻ֶձࢽ೥݄ר߸QQ

Slide 15

Slide 15 text

w ػցֶशʹΑΓϩʔϨϕϧಛ௃Λ૊Έ߹ΘͤͯϛυϧϨϕϧಛ௃Λ֫ಘ +PJOU)BBSMJLF<.JUB 1".*> إը૾ʹ͓͚Δߏ଄తͳྨࣅੑΛଊ͑Δ ͨΊʹෳ਺ͷಛ௃ྔͷڞىੑΛදݱ +PJOU)0(<.JUTVJ *&*$&> $P)0(<8BUBOBCF *14+> าߦऀͷߏ଄తͳྨࣅੑΛଊ͑ΔͨΊʹෳ਺ͷಛ௃ྔͷڞىੑΛදݱ ୈੈ୅ɿϋϯυΫϥϑτಛ௃ +PJOU)BBSMJLFGFBUVSF ϙδςΟϒΫϥε ωΨςΟϒΫϥε j =ʢ̍̍̍ʣ= ̓ ͖͍͠஋ॲཧ )0(ಛ௃ྔͷڞىදݱ த ޻ ߨ ࢁ ػ 4 Ѫ Te F ya h த෦େֶ ޻ֶ෦ϩϘο τཧ޻ֶՊ ڭत ౻٢߂࿱ ػց஌֮ˍϩϘςΟ Ϋεάϧʔϓ 487-8501 Ѫ஌ݝय़೔Ҫࢢদຊொ1200 Tel 0568-51-9096 Fax 0568-51-9409 [email protected] http://vision.cs.chubu.ac.jp ത࢜ ʢ޻ֶʣ M த෦େֶ ޻ֶ෦ϩϘο τཧ޻ֶՊ ڭत ౻٢߂࿱ ػց஌֮ˍϩϘςΟ Ϋεάϧʔϓ 487-8501 Ѫ஌ݝय़೔Ҫࢢদຊொ1200 Tel 0568-51-9096 Fax 0568-51-9409 [email protected] http://vision.cs.chubu.ac.jp ത࢜ ʢ޻ֶʣ MACHINE PERCEPTION AND ROBOTICS GROUP Chubu University Department of Robotics Science and Technology College of Engineering Professor Dr.Eng. Hironobu Fujiyoshi Machine Perception and Robotics Group 1200 Matsumoto-cho, Kasugai, Aichi 487-8501 Japan Tel +81-568-51-9096 Fax +81-568-51-9409 [email protected] http://vision.cs.chubu.ac.jp w )0(ಛ௃ྔͷޯ഑ͷؔ܎ੑΛଊ͑Δ r $P)0(<8BUBOBCF> w ہॴྖҬͷޯ഑ϖΞΛྦྷੵͨ͠ಉ࣌ਖ਼ىߦྻ r +PJOU)0(<ࡾҪ> w #PPTJOHʹΑΓࣝผʹ༗ޮͳہॴྖҬͷؔ܎ੑΛ֫ಘ $P)0( )0(ಛ௃ྔͷڞىදݱ த෦େֶ ޻ֶ෦৘ใ޻ֶՊ ߨࢣ ࢁԼོٛ ػց஌֮ˍϩϘςΟ Ϋ 487-8501 Ѫ஌ݝय़೔Ҫࢢদຊ Tel 0568-51-9670 Fax 0568-51-1540 [email protected] http://vision.cs.chubu MACHINE PERCEPTIO Chubu University Department of Compu த෦େֶ ޻ֶ෦ϩϘο τཧ޻ֶՊ ڭत ౻٢߂࿱ ػց஌֮ˍϩϘςΟ Ϋεάϧʔϓ 487-8501 Ѫ஌ݝय़೔Ҫࢢদຊொ1200 Tel 0568-51-9096 Fax 0568-51-9409 [email protected] http://vision.cs.chubu.ac.jp ത࢜ ʢ޻ֶʣ MACHINE PERCEPTION AND ROBOTICS GROUP Chubu University Department of Robotics Science and Technology ࢁԼོٛ ػց஌֮ˍϩϘςΟ Ϋεάϧʔ 487-8501 Ѫ஌ݝय़೔Ҫࢢদຊொ1200 Tel 0568-51-9670 Fax 0568-51-1540 [email protected] http://vision.cs.chubu.ac.jp MACHINE PERCEPTION AND R Chubu University Department of Computer Scie College of Engineering Lecturer Dr.Eng. Takayoshi Yam Machine Perception and Robo 1200 Matsumoto-cho, Kasuga 487-8501 Japan Tel +81-568-51-9670 Fax +81-568-51-1540 [email protected] http://vision.cs.chubu.ac.jp MACHINE PERCEPTION AND R ౻٢߂࿱ ػց஌֮ˍϩϘςΟ Ϋεάϧʔϓ 487-8501 Ѫ஌ݝय़೔Ҫࢢদຊொ1200 Tel 0568-51-9096 Fax 0568-51-9409 [email protected] http://vision.cs.chubu.ac.jp ത࢜ ʢ޻ֶʣ MACHINE PERCEPTION AND ROBOTICS GROUP Chubu University Department of Robotics Science and Technology College of Engineering Professor Dr.Eng. Hironobu Fujiyoshi Machine Perception and Robotics Group 1200 Matsumoto-cho, Kasugai, Aichi 487-8501 Japan Tel +81-568-51-9096 Fax +81-568-51-9409 [email protected] http://vision.cs.chubu.ac.jp MACHINE PERCEPTION AND ROBOTICS GROUP w )0(ಛ௃ྔͷޯ഑ͷؔ܎ੑΛଊ͑Δ r $P)0(<8BUBOBCF> w ہॴྖҬͷޯ഑ϖΞΛྦྷੵͨ͠ಉ࣌ਖ਼ىߦྻ r +PJOU)0(<ࡾҪ> w #PPTJOHʹΑΓࣝผʹ༗ޮͳہॴྖҬͷؔ܎ੑΛ֫ಘ $P)0( +PJOU)0(

Slide 23

Slide 23 text

w 5SBOTGPSNFSΛ7JTJPO෼໺ʹԠ༻ͨ͠ը૾෼ྨख๏ ը૾Λݻఆύονʹ෼ղ 4FMGBUUFOUJPOʹΑΔύονؒͷؔ܎ੑΛଊ͑Δ *NBHF/FUͳͲͷΫϥε෼ྨλεΫͰ4P5" 7JTJPO5SBOTGPSNFS<%PTPWJUTLJZ *$-3> Figure 1: The Transformer - model architecture. 3.1 Encoder and Decoder Stacks Scaled Dot-Product Attention Multi-Head Attention Figure 2: (left) Scaled Dot-Product Attention. (right) Multi-Head Attention consists of several attention layers running in parallel. 3.2.1 Scaled Dot-Product Attention We call our particular attention "Scaled Dot-Product Attention" (Figure 2). The input consists of queries and keys of dimension dk , and values of dimension dv . We compute the dot products of the query with all keys, divide each by p dk , and apply a softmax function to obtain the weights on the values. In practice, we compute the attention function on a set of queries simultaneously, packed together into a matrix Q. The keys and values are also packed together into matrices K and V . We compute the matrix of outputs as: Attention(Q, K, V ) = softmax( QKT p dk )V (1) The two most commonly used attention functions are additive attention [2], and dot-product (multi- plicative) attention. Dot-product attention is identical to our algorithm, except for the scaling factor of 1 p dk . Additive attention computes the compatibility function using a feed-forward network with a single hidden layer. While the two are similar in theoretical complexity, dot-product attention is much faster and more space-efﬁcient in practice, since it can be implemented using highly optimized matrix multiplication code. Scaled Dot-Product Attention Multi-Head Attention Figure 2: (left) Scaled Dot-Product Attention. (right) Multi-Head Attention consists of several attention layers running in parallel. 3.2.1 Scaled Dot-Product Attention We call our particular attention "Scaled Dot-Product Attention" (Figure 2). The input consists of queries and keys of dimension dk , and values of dimension dv . We compute the dot products of the query with all keys, divide each by p dk , and apply a softmax function to obtain the weights on the values. In practice, we compute the attention function on a set of queries simultaneously, packed together 5SBOTGPSNFS 7J5

Slide 25

Slide 25 text

w 7J5͕ͲͷΑ͏ͳಛ௃Λଊ͍͑ͯΔ͔ΛධՁ<5VKJ BS9JW> $//͸ςΫενϟΛॏࢹ 7J5͸෺ମͷܗঢ়Λॏࢹ 7J5ʹ͓͚Δಛ௃දݱ֫ಘ <>3(FJSIPT l*."(&/&553"*/&%$//4"3&#*"4&%508"3%45&9563&*/$3&"4*/(4)"1&#*"4*.1307&4"$$63"$:"/%30#645/&44 z*$-3 blished as a conference paper at ICLR 2019 AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet 100 GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet 100 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 100 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 100 Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans 99 97 99 100100 98 44 49 48 54 75 40 28 24 18 87 100100100100 90 original greyscale silhouette edges texture Figure 2: Accuracies and example stimuli for five different experiments without cue conflict. anging biases, and discovering emergent benefits of changed biases. We show that the texture bias standard CNNs can be overcome and changed towards a shape bias if trained on a suitable data . Remarkably, networks with a higher shape bias are inherently more robust to many different age distortions (for some even reaching or surpassing human performance, despite never being <>ΑΓҾ༻ <>45VMJ l"SF$POWPMVUJPOBM/FVSBM/FUXPSLTPS5SBOTGPSNFSTNPSFMJLFIVNBOWJTJPO zBS9JW Fig. 4: Error consistency results on SIN dataset. distribution (i.e., p 2 D240 corresponding to the off-diagonal entries of the 16 ⇥ 16 confusion matrix) by taking the error counts to be the off-diagonal elements of the confusion matrix: ei j = CMi, j, 8 j 6= i In this context, the inter-class JS distance compares what classes were misclassified as what. An interesting finding is that, instead of a strong correlation shown by class-wise JS in Figure 3(a), Figure 3(b) sug- gests that there is no correlation of inter-class JS distance with Cohen’s k implying that this metric gives insight beyond Co- hen’s k in measuring error-consistency with humans. 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 Fraction of 'texture' decisions Fraction of 'shape' decisions Shape categories ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ResNet−50 AlexNet VGG−16 GoogLeNet ViT−B_16 ViT−L_32 Humans (avg.) Fig. 5: Shape bias for different networks for the SIN dataset (Geirhos et al., 2019). Vertical lines indicate averages. <>ΑΓҾ༻ $//ͱਓؒͷൺֱ 7J5 ˝˝ $// ˔˙˛˔ ਓؒ ♦︎ ͷൺֱ ςΫενϟ ܗঢ়

Slide 28

Slide 28 text

w ϑΝΠϯνϡʔχϯάʹΑΔධՁ 4VQɿ*NBHF/FU,Λ༻͍ͯڭࢣ͋Γֶशͨ͠7J5ΛϑΝΠϯνϡʔχϯά %*/0ɿ*NBHF/FU,Λ༻͍ͯࣗݾڭࢣ͋Γֶशͨ͠7J5ΛϑΝΠϯνϡʔχϯά w ࠷ऴ૚ͷ೚ҙͷ)FBEʹ͓͚Δ"UUFOUJPOXFJHIUΛՄࢹԽ Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron1,2 Hugo Touvron1,3 Ishan Misra1 Herv´ e Jegou1 Julien Mairal2 Piotr Bojanowski1 Armand Joulin1 1 Facebook AI Research 2 Inria⇤ 3 Sorbonne University V] 24 May 2021 7J5ͷࣗݾڭࢣ͋Γֶशɿ%*/0<$BSPO *$$7> keep 60% of the mass. On top, we show the resulting masks for a ViT-S/8 trained with supervision and DINO. We show the best head for both models. The table at the bottom compares the Jac- card similarity between the ground truth and these masks on the validation images of PASCAL VOC12 dataset. Table 6: Transfer learning by ﬁnetuning pretrained models on different datasets. We report top-1 accuracy. Self-supervised pretraining with DINO transfers better than supervised pretraining. Cifar10 Cifar100 INat18 INat19 Flwrs Cars INet ViT-S/16 Sup. [69] 99.0 89.5 70.7 76.6 98.2 92.1 79.9 DINO 99.0 90.5 72.0 78.2 98.5 93.0 81.5 ViT-B/16 Sup. [69] 99.0 90.8 73.2 77.7 98.4 92.1 81.8 DINO 99.1 91.7 72.6 78.6 98.8 93.0 82.8 In Table 7, we report different model variants as we add or remove components. First, we observe that in the absence of momentum, our framework does not work (row 2) and more advanced operations, SK for example, are required to avoid collapse (row 9). However, with momentum, using SK has little impact (row 3). In addtition, comparing rows 3 and 9 highlights the importance of the momentum encoder for performance. Second, in rows 4 and 5, we observe that 7 BYOL X 7 7 MSE 8 MoCov2 X 7 7 INCE 9 SwAV 7 X X CE SK: Sinkhorn-Knopp, MC: Multi-Cro CE: Cross-Entropy, MSE: Mean Square E Fi Pa ua th fe wi M 30 with different patch sizes, 16 ⇥ 16, 8 also compare to ViT-B with 16 ⇥ 16 a the models are trained for 300 epochs performance greatly improves as we de patch. It is interesting to see that perfo improved without adding additional p the performance gain from using sma the expense of throughput: when usi throughput falls to 44 im/s, vs 180 im/ ˠڭࢣ͋ΓࣄલֶशϞσϧ 4VQ Λ௒͑ΔੑೳΛൃش ˠϥϕϧ৘ใ͕ແͯ͘΋ਖ਼֬ͳ෺ମྖҬΛ֫ಘ

Slide 29

Slide 29 text

7J5ͷ೿ੜख๏ 7J5 <"%PTPWJUTLJZ *$-3> %*/0 <.$BSPO *$$7> .P$PW <9$IFO *$$7> ."& <,)F BS9JW> 4JN.*. <;9JF $713> #&J5 <)#BP *$-3> $P"U/FU <;%BJ /FVS*14> $W5 <)8V *$$7> 557J5 <-:VBO *$$7> -F7J5 <#(SBIBN *$$7> 'PDBM"UUFOUJPO <+:BOH /FVS*14> $48JO <9%POH $713> %"5 <;9JB BS9JW> %FGPSNBCMFͳ"UUFOUJPOΛ֫ಘ ॎԣɾہॴେҬతͳ"UUFOUJPOΛ֫ಘ $PBSTFUP'JOFͳ"UUFOUJPOΛ֫ಘ 4XJO <;-JV *$$7> 4XJOW <;-JV $713> 7JEFP4XJO <;-JV $713> %FJ5 <)5PVWSPO *$.-> .-1.JYFS <*5PMTUJLIJO /FVS*14> H.-1 <)-JV /FVS*14> /"47J5 <$(POH *$-3> "VUP'PSNFSW 4 <.$IFO /FVS*14> "VUP'PSNFS <.$IFO *$$7> 7J5"4 <94V BS9JW> $POW.JYFS <"5SPDLNBO BS9JW> $POW/F9U <;-JV $713> 3FT/FUTUSJLFTCBDL <38JHIUNBO /FVS*148> %FJ5ͷֶश৚݅ἧ͑ͨΒ3FT/FU΋ࢮΜͰͳ͍ $POW͸ڧ͍ )PXEP7J5XPSL %P7J5TFFMJLF$// <.3BHIV /FVS*14> .FUB'PSNFS <8:V $713> %ZOBNJD7J5 <:3BP /FVS*14> ෆཁͳύονಛ௃Λ ΨϯϕϧιϑτϚοΫεͰ੍ޚ $'7J5 <.$IFO BS9JW> "7J5 <):JO $713> "SF5SBOTGPSNFSTNPSFSPCVTUUIBO$//T <:#BJ /FVS*14> 6OEFSTUBOEJOH3PCVTUOFTTPG5SBOTGPSNFSTGPS*NBHF$MBTTJ fi DBUJPO <4#IPKBOBQBMMJ *$$7> "EBQUJWF$PNQVUBUJPO5JNF "$5 Ͱ੍ޚ 4QBSTF.-1 <$5BOH """*> %&53 1W5 <88BOH *$$7> 4FH'PSNFS <&9JF *$$7> 1W5W <88BOH $7.+> 5SBOT("/ <:+JBOH /FVS*14> 7J5("/ <,-FF *$-3> 4&53 <4;IFOH $713> .VMUJ."& <3#BDINBOO BS9JW> ϚϧνλεΫԽ $PO7J5 <4E`"TDPMJ *$.-> "UUFOUJPOʹTPGU$POWΛ௥Ճ TPGU$POW"UUFOUJPOͱ3FMQPTΛͲΕ͚ͩೖΕΔ͔Λ੍ޚ 5/5 <,)BO /FVS*14> 5SBOTGPSNFS&YQMBJOBCJMJUZ <)$IFGFS $713> .VMUJTDBMF7J5 <)'BO *$$7> 7JTJPO-POHGPSNFS <1;IBOH *$$7> 5JNF4GPSNFS <(#FSUBTJVT *$.-> 7J7J5 <""SOBC *$$7> 4UZMF4XJO <#;IBOH $713> J#05 <+;IPV *$-3> )PXUP6OEFSTUBOE."& <4$BP BS9JW> ."&ͷ੒ޭʹ͍ͭͯཧ࿦తͳূ໌Λߦ͏ $FJ5 <,:VBO *$$7> 444XJO <;9JF BS9JW> ࣗݾڭࢣTXJO %FFQ7J5 <%;IPV BS9JW> %15 <33BOGUM *$$7> .PWJMF7J5 <4.FIUB *$-3> .PCJMF'PSNFS <:$IFO $713> $BJ5 <)5PVWSPO *$$7> 7JTVBMJ[JOH1BJSFE*NBHF4JNJMBSJUZJO5SBOTGPSNFS/FUXPSLT <4#MBDL 8"$7> (SBQIPSNFS <$:JOH /FVS*14> ࢝·ΓͷޚࡾՈ $POW4" /FVSBM"SDIJUFDUVSF4FBSDI 4FMG4VQFSWJTFE7J5 ޮ཰తͳ4FMG"UUFOUJPO7J5ͷఏҊ $POWͰ΋શવྑ͍ "OBMZTJTPG7J5 4QFDJ fi DUBTL ѻ͍ͮΒ͍ɼվྑ ಛఆXJOEPX಺Ͱ4"ܭࢉɽ$//ͷ3FT/FUతͳѻ͍ 3FMQPT΍-/ͷҐஔΛม͑ͯੑೳ޲্ ಈը૾ʹ֦ு 4QBUJBM3FEVDUJPO"UUFOUJPO 43" Ͱޮ཰తʹ4"Λܭࢉ 4"ͷվྑ 4"ݟ௚ͯ͠ਂ૚Խʹ੒ޭ ෺ମݕग़ʹॳΊͯ5SBOTGPSNFSೖΕͨ ࣌୅͸5SBOTGPSNFS *NBHF/FUͰ΋ߴੑೳʹͨ͠ 1PPMͰ΋ྑ͍ άϥϑදݱ -PDBMUP(MPCBMͳಛ௃ଊ͑Δ QSVOJOHܥ .PWJMF/FUGVTJPO /FTUFE5SBOTGPSNFS <4E`"TDPMJ """*> %B7J5 <.%JOH BS9JW> νϟϯωϧͱۭؒํ޲Ͱ4" .BY7J5 <;5V BS9JW> ஥ؒʹೖΔ -77J5 <;+JBOH /FVS*14> ηϚϯςΟοΫͳ τʔΫϯϥϕϧ΋ೖΕΔ ஈ֊తʹUPLFOΛऔΓೖΕΔ ஥ؒʹೖΔ ("/ 7JEFP3FDPHOJUJPO 4FHNFOUFS <34USVEFM *$$7> 4FHNFOUBUJPO (SPVQ7J5 <+9V $713> %FQUIFTUJNBUJPO 0UIFS 5SBOT1PTF <4:BOH *$$7> )VNBOQPTFFTUJNBUJPO 1PJOUDMPVET %&53 <*.JTSB *$$7> 1PJOU5SBOTGPSNFS <);IBP *$$7> %PCKFDUEFUFDUJPO 4FHNFOUBUJPO .4"ͷ༗ޮΛௐࠪ େن໛σʔληοτͰ7J5Λֶश͢Δͱઙ͍૚Ͱہॴಛ௃Λଊ͍͑ͯΔ 7J5Λਂ૚Խͯ͠ߴੑೳʹ͢ΔͨΊʹ 4"ͷվྑͱΫϥετʔΫϯͷҐஔΛม͑ͨ 2,7ΛDPOWͰܭࢉ 'FFEGPSXBSEʹ$POW௥Ճ $POW͔ͯ͠Β4" 3FT/FUͱ7J5Λ*NBHF/FU஥ؒͰධՁɼ·ͨ"EWFSTBSJBM&YBNQMFT΍ۭؒత߈ܸ ը૾ճస ͰϞσϧͷؤ݈ੑΛௐࠪ ͭͷը૾ʹࣸΔಉ͡෺ମྖҬΛଊ͑ղऍՄೳͳࢹ֮ԽΛߦ͏ɽ·ͨը૾ݕࡧλεΫͰ3FT/FUͱ7J5Ͱଊ͑ͯΔ෺ମ͕ҧ͏ 7J5ͱ$//Ͱֶश৚݅ҧ͏͔Βෆެฏɽނʹެฏʹ্ͨ͠Ͱఢରత߈ܸʹؤ݈͔Ͳ͏͔Λௐࠪ "UUFOUJPOSPMMPVU͸ೝࣝ෺ମͱແؔ܎ͳύον͕ڧௐ͞ΕΔ͔Βޯ഑ϕʔεͰϚοϓΛՄࢹԽ ɾ%&53ͷҾ༻਺ ɾ7J5ͷҾ༻਺ ɾ%FJ5ͷҾ༻਺ ɾ4XJOͷҾ༻਺ ˞೥݄೔࣌఺ ɿ ɿ ɿ ɿ "SF$POWPMVUJPOBM/FVSBM/FUXPSLTPS5SBOTGPSNFST NPSFMJLFIVNBOWJTJPO <45VMJ $PH4DJ> 5SBOTGPSNFS͸෺ମͷܗঢ়Λɼ$//͸෺ମͷςΫενϟΛཔΓʹ෺ମೝࣝͯ͠Δ͜ͱ͕൑໌ $ZDMF.-1 <4$IFO *$-3> 4.-1 <5:V 8"$7> ۭؒYνϟϯωϧͷνϟϯωϧΛαΠΫϧ ۭؒํ޲ʹγϑτ "4.-1 <%-JBO *$-3> .-1Ͱۭؒ৘ใࠞͥΕ͹ྑ͍

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Slide 24

Slide 24 text

Slide 25

Slide 25 text

Slide 26

Slide 26 text

Slide 27

Slide 27 text

Slide 28

Slide 28 text

Slide 29

Slide 29 text

Slide 30

Slide 30 text

Slide 31

Slide 31 text

Slide 32

Slide 32 text