Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

局所特徴量:画像認識における特徴表現獲得の変遷

 局所特徴量:画像認識における特徴表現獲得の変遷

MIRU30周年&25回記念 特別企画「過去を知り、未来を想う」
局所特徴量:画像認識における特徴表現獲得の変遷
藤吉弘亘(中部大学・機械知覚&ロボティクス研究グループ)
2022年7月28日(MIRU2022)

Hironobu Fujiyoshi

July 27, 2022
Tweet

More Decks by Hironobu Fujiyoshi

Other Decks in Research

Transcript

  1. ը૾ೝٕࣝज़ͷมભ  าߦऀݕग़ )0( 47.   ޯ഑ํ޲ώετάϥϜ إݕग़ )BSSMJLF

    "EB#PPTU   CPYϑΟϧλʹΑΔ໌҉ࠩ ը૾Ϛονϯά 4*'5   εέʔϧෆม ಛ௃఺ݕग़ɾهड़ Ϋϥεͷը૾෼ྨ 4*'5 #0'   #BHදݱͷಋೖ ಛఆ෺ମೝࣝ ը૾෼ྨ ෺ମݕग़ ηϚϯςΟοΫ ηάϝϯςʔγϣϯ खॻ͖਺ࣈͷ෼ྨ $//   ৞ΈࠐΈχϡʔϥϧωοτϫʔΫ ϐΫηϧࠩ෼ 3BOEPN'PSFTU   ϐΫηϧࠩ෼ʹΑΔςΫενϟ 463'   ੵ෼ը૾ʹΑΔߴ଎Խ '"45   ܾఆ໦ʹΑΔίʔφʔݕग़ 03#   ڭࢣͳֶ͠शʹΑΔϖΞબ୒ 'JTIFS7FDUPS   ֬཰ີ౓ؔ਺ʹΑΔಛ௃දݱ 7-"%   ؔ࿈͢Δ78ͷಛ௃ +PJOU)0(   $P)0(   )0(ͷڞىදݱ #3*&'   ೋ஋ಛ௃      $"3%   ಛ௃ྔͷೋ஋Խ 5FYUPO   ϑΟϧλόϯΫ $)"-$   ہॴࣗݾ૬ؔ Ϋϥϥε෼ྨ*NBHF/FU "MFY/FU   ৞ΈࠐΈχϡʔϥϧωοτϫʔΫ ೥୅ 7((   ૚ (PPH-F/FU   ૚ 3FT/FU   ૚ʴεΩοϓߏ଄ ଟΫϥε෺ମݕग़ 'BTUFS3$//   3FHJPO1SPQPTBM :0-0   4JOHMFTIPU 44%   4JOHMFTIPU '$/   ৞ΈࠐΈʹΑΔηάϝϯςʔγϣϯ 141/FU   1ZSBNJE1PPMJOH .%FU   ϚϧνϨϕϧಛ௃ϐϥϛου Πϯελϯεηάϝϯςʔγϣϯ .BTL3$//   &OEUPFOEͰ࣮ݱ 7J5   7JTJPO5SBOTGPSNFS 4&/FU   &YDJUBUJPO %*/0   44- 7J5 4JN$-3   ରরֶश .P$P   ରরֶश #:0-   ϙδςΟϒϖΞͷΈ 4FH/FU   &ODPEFSEFDPEFS %FFQ-BCW   "USPVT৞ΈࠐΈ 4FH'PSNFS   7J5 %&53   5SBOTGPSNFS '1/   ಛ௃ϐϥϛου 6/FU   '$/Λར༻ & ffi DJFOU/FU   /"4 $// 7JTJPO5SBOTGPSNFS 4VQFS(MVF   (//ͷར༻ $FOUFS/FU   ΞϯΧʔϨε ڭࢣ͋Γֶश ࣗݾڭࢣ͋Γֶश
  2. ରԠ఺୳ࡧʹ͓͚Δෆมੑ 4 த෦େֶϩΰ த෦େֶϩΰ ΩʔϙΠϯτݕग़ ʴ ΞϑΟϯྖҬਪఆ ΩʔϙΠϯτݕग़ ʴ ౳ํੑεέʔϧਪఆ

    ΩʔϙΠϯτݕग़ ճసมԽ εέʔϧมԽ ࣹӨมԽ  ख๏ɿ)BSSJT '"45 ख๏ɿ4*'5 463' ख๏ɿ)FTTJBO" ff i OF .4&3
  3. w ಛ௃఺ ΩʔϙΠϯτ ͷݕग़ͱಛ௃ྔͷهड़ %P(ʹΑΔεέʔϧͱΩʔϙΠϯτݕग़ ޯ഑ํ޲ώετάϥϜʹΑΔಛ௃هड़ 4*'5 4DBMF*OWBSJBOU'FBUVSF5SBOTGPSN <-PXF *$$7>

    5 த෦େֶϩΰ த෦େֶϩΰ  εέʔϧͱΩʔϙΠϯτݕग़ εέʔϧෆมੑͷ֫ಘ ΩʔϙΠϯτͷϩʔΧϥΠζ ϊΠζʹର͢Δؤ݈ੑΛ֫ಘ ˠ ˠ ً౓มԽʹର͢Δؤ݈ੑΛ֫ಘ ˠ ΦϦΤϯςʔγϣϯͷࢉग़ ճసෆมੑͷ֫ಘ ಛ௃ྔͷهड़ ˠ ΩʔϙΠϯτͷ࠲ඪͱεέʔϧ ΦϦΤϯςʔγϣϯ ࣍ݩͷಛ௃ϕΫτϧ
  4. 4*'5ɿεέʔϧͱΩʔϙΠϯτݕग़ 6 த෦େֶϩΰ த෦େֶϩΰ  w %P( %J ff FSFODFPG(BVTTJBO

    εέʔϧεϖʔε͔ΒεέʔϧͱΩʔϙΠϯτΛݕग़ ฏ׈Խը૾ %P(ը૾ - - - - - - - - 4DBMF ΦΫλʔϒ 4DBMF ̎ΦΫλʔϒ € σ0 € 4σ0 € 2σ0 € 2σ0 ΩʔϙΠϯτຖʹεέʔϧΛࢉग़ˠεέʔϧʹର͢ΔෆมੑΛಘΔʢεέʔϧෆมͳಛ௃ྔʣ
  5. 4*'5ɿޯ഑ํ޲ώετάϥϜʹΑΔಛ௃هड़ 7 த෦େֶϩΰ த෦େֶϩΰ  w ΩʔϙΠϯτຖʹը૾ہॴಛ௃ྔΛهड़  ޯ഑ํ޲ώετάϥϜ͔ΒΦϦΤϯςʔγϣϯΛࢉग़ 

    εέʔϧʹରԠͨ͠ಛ௃هड़΢Οϯυ΢ΛΦϦΤϯςʔγϣϯํ޲ʹճస  ॎԣ̐෼ׂͨ͠ϒϩοΫ͝ͱʹํ޲ͷޯ഑ํ޲ώετάϥϜΛಛ௃ྔͱͯ͠هड़ ʢϒϩοΫYํ޲ˠ࣍ݩͷಛ௃ྔʣ ෼ׂ ෼ׂ ํ޲ͷޯ഑ώετάϥϜ ಛ௃هड़΢Οϯυ΢ ճసͱεέʔϧʹෆมͳಛ௃ྔͷهड़͕Մೳ ΦϦΤϯςʔγϣϯ ಛ௃هड़΢Οϯυ΢
  6. ໢ບਆܦઅࡉ๔ͱҰ࣍ࢹ֮໺ 8 த෦େֶϩΰ த෦େֶϩΰ  w ਓؒͷࢹ֮ػೳॲཧͱͷྨࣅੑ IUUQTCTEOFVSPJOGKQXJLJड༰໺ Ұ࣍ࢹ֮໺ʢ7໺ʣ Ұ࣍ࢹ֮໺ͷେ෦෼ͷࡉ๔͸εϦοτޫ͕ಛఆͷ

    ํҐΛ޲͘ͱ͖ʹͷΈڧ͘൓ԠʢํҐબ୒ੑʣ ໢ບਆܦઅࡉ๔ த৺पล፰߅ܕͷड༰໺ ໌Δ͍ޫΛड༰໺ͷத৺෦ DFOUFS ʹরࣹͨ͠ͱ ͖ʹڵฃԠ౴ ڵฃԠ౴ɿେ ڵฃԠ౴ɿখ %P(ॲཧʹΑΔεέʔϧਪఆ ޯ഑ํ޲ಛ௃
  7. 4*'5Ҏ߱ͷΞϓϩʔν 9 த෦େֶϩΰ த෦େֶϩΰ  w ΩʔϙΠϯτݕग़  ߴ଎Խɿ463'<&$$7> 

    ίʔφʔʹಛԽɿ'"45<&$$7> w ಛ௃هड़  ߴ଎Խɿ463'<&$$7>  ೋ஋ಛ௃ɿ #3*&'<&$$7> 03#<&$$7>  #3*4,<*$$7> $"3%<*$$7> w ରԠ఺୳ࡧ͔Βը૾෼ྨλεΫ΁  #BHPGWJTVBMXPSE<$713> 画像技術の最前線 局所勾配特徴抽出技術* ―SIFT 以降のアプローチ― Gradient-based Image Local Features 藤吉弘亘** 安倍 満*** Hironobu FUJIYOSHI and Mitsuru AMBAI Key words image local feature, SIFT, SURF, FAST, RIFF, BRIEF, BRISK, ORB, CARD 1.は じ め に 画像のスケール変化や回転に不変な特徴量を抽出する Scale Invariant Feature Transform(SIFT)1)は,特定物体 認識だけではなく画像合成や画像分類など多くのアプリケ ーションに利用されている.SIFT の処理過程は,キーポ イント検出と特徴量記述の二段階からなり,各処理は以下 の流れとなる. キーポイント検出 ] 1.スケールとキーポイント検出 2.キーポイントのローカライズ 特徴量記述 ] 3.オリエンテーションの算出 4.特徴量の記述 キーポイント検出処理では,Difference-of-Gaussian (DoG)処理によりキーポイントのスケールと位置を検出 する.特徴量記述では,スケール内の勾配情報からオリエ ンテーションを求め,キーポイント周辺領域(パッチ)を オリエンテーション方向に回転させて特徴量を記述するこ とで,回転に対して不変な特徴量を抽出する.SIFT で は,キーポイント検出処理における DoG 画像の生成や, 特徴量記述処理における勾配ヒストグラム算出の計算コス トが高いという問題がある.この問題を解決する高速化の 手法として,2006 年に SURF2)が提案された.SURF で は,各処理において積分画像を利用した Box フィルタを 用いることで,SIFT と比較して約 10 倍の高速化を実現 した.近年では,高性能な PC だけではなく携帯端末等の 小型デバイスでの利用を考慮し,キーポイント検出と特徴 量記述の各処理を高速化および省メモリ化した手法が提案 されている.図 1 に,キーポイント検出と特徴量記述に おける SIFT 以降の変遷を示す.キーポイント検出処理で は,コーナーに特化することで高速かつ省メモリを実現し た FAST3)が提案された.FAST は,後述の特徴量記述手 法と組み合わせて使用される.特徴量記述の処理において は,SIFT や SURF と同様に勾配特徴量に基づく RIFF4) が 2010 年に提案された.SIFT では 128 次元,SURF で は 64 次元,RIFF では 100 次元のベクトルが抽出される. 高次元のベクトル特徴量は,高い識別能力をもつ反面,メ モリ消費量が多く,2010 年以降ではベクトル特徴量の代 わりにバイナリコードで特徴量を記述する手法が提案され ている.パッチからバイナリコードを直接生成する手法と して BRIEF5),BRISK6),ORB7)が,間接的にバイナリコ ードを生成する手法として CARD8)が提案された.このよ うに,SIFT と SURF 以降では,キーポイント検出および 特徴量記述において,高速化と省メモリ化を同時に実現す る手法が展開されている. 本稿では,SIFT や SURF 以降のアプローチが,キーポ イント検出と特徴量記述の各処理おいて,どのように展開 されてきたかを各手法のアルゴリズムとともに解説する. 2.キーポイント検出 SIFT では,複数の DoG 画像からキーポイントを検出 するのと同時に,キーポイントを中心とした特徴量記述を 行う範囲を表すスケールも検出する.DoG 画像の作成は 計算コストが高い上,複数の DoG 画像を保持するための メモリを要するという問題点がある.キーポイント検出の 高速化として,SURF では積分画像を利用した Box フィ ルタを用い高速化を実現した.Edward らが提案した 精密工学会誌 Vol.77, No.12, 2011 1109 *原稿受付 平成 23 年 10 月 3 日 **中部大学工学部情報工学科(愛知県春日井市松 本町 1200) ***(株)デンソーアイティーラボラトリ(東京都渋 谷区二丁目 15 番 1 号渋谷クロスタワー 25 階) 藤吉弘亘 1997 年中部大学大学院博士後期課程修了.博士 (工学) .1997∼2000 年米カーネギーメロン大学 ロボット工学研究所 Postdoctoral Fellow.2000 年 中 部 大 学 講 師,2004 年 同 大 准 教 授 を 経 て 2010 年 よ り 同 大 教 授. 2005∼2006 年米カーネギーメロン大学ロボット工学研究所客員研究員. 2010 年計算機視覚,動画像処理,パターン認識・理解の研究に従事.2005 年度ロボカップ研究賞.2009 年度情報処理学会論文誌コンピュータビジョ ンとイメージメディア優秀論文賞.2009 年度山下記念研究賞.情報処理学 会,電子情報通信学会,電気学会,IEEE 各会員. 安倍 満 2007 年慶應義塾大学大学院博士後期課程修了.博士(工学) .2007 年株式 会社デンソーアイティーラボラトリシニアエンジニア.2011 年画像センシ ングシンポジウム(SSII)オーディエンス賞.2011 年画像の認識・理解シ ンポジウム(MIRU)インタラクティブセッション賞.パターン認識・理 解,コンピュータビジョンの研究に従事.電子情報通信学会,IEEE 各 会員. ౻٢ ҆ഒɿzہॴޯ഑ಛ௃நग़4*'5Ҏ߱ͷΞϓϩʔνz ਫ਼ີ޻ֶձࢽ೥݄ר߸QQ
  8. ೋ஋ಛ௃ͷޮՌ 10 த෦େֶϩΰ த෦େֶϩΰ  w ڑ཭ܭࢉ·ͰؚΊͨॲཧ଎౓Λൺֱ w ೋ஋ಛ௃ͷར఺ 

    େ෯ͳলϝϞϦԽ͕Մೳ  ϋϛϯάڑ཭ʹΑΔߴ଎ͳڑ཭ܭࢉɹˠ44&֦ு໋ྩͰߴ଎ʹԋࢉՄೳ 4*'5ʢϢʔΫϦουڑ཭ʣ 463'ʢϢʔΫϦουڑ཭ʣ ೋ஋ಛ௃ʢ'"45 #3*&' ϋϛϯάڑ཭ʣ ೋ஋ಛ௃ʢ'"45 03# ϋϛϯάڑ཭ʣ ॲཧ࣌ؒ<T> ΩʔϙΠϯτݕग़ ಛ௃ྔهड़ ڑ཭ܭࢉ 44&ɿ*OUFMࣾͷϚΠΫϩϓϩηοαʢ$16.16ʣʹ಺ଂ͞Ε֦ͨு໋ྩηοτ 03# #3*&' ೋ஋ಛ௃
  9. ը૾ೝٕࣝज़ͷมભ  าߦऀݕग़ )0( 47.   ޯ഑ํ޲ώετάϥϜ إݕग़ )BSSMJLF

    "EB#PPTU   CPYϑΟϧλʹΑΔ໌҉ࠩ ը૾Ϛονϯά 4*'5   εέʔϧෆม ಛ௃఺ݕग़ɾهड़ Ϋϥεͷը૾෼ྨ 4*'5 #0'   #BHදݱͷಋೖ ಛఆ෺ମೝࣝ ը૾෼ྨ ෺ମݕग़ ηϚϯςΟοΫ ηάϝϯςʔγϣϯ खॻ͖਺ࣈͷ෼ྨ $//   ৞ΈࠐΈχϡʔϥϧωοτϫʔΫ ϐΫηϧࠩ෼ 3BOEPN'PSFTU   ϐΫηϧࠩ෼ʹΑΔςΫενϟ 463'   ੵ෼ը૾ʹΑΔߴ଎Խ '"45   ܾఆ໦ʹΑΔίʔφʔݕग़ 03#   ڭࢣͳֶ͠शʹΑΔϖΞબ୒ 'JTIFS7FDUPS   ֬཰ີ౓ؔ਺ʹΑΔಛ௃දݱ 7-"%   ؔ࿈͢Δ78ͷಛ௃ +PJOU)0(   $P)0(   )0(ͷڞىදݱ #3*&'   ೋ஋ಛ௃      $"3%   ಛ௃ྔͷೋ஋Խ 5FYUPO   ϑΟϧλόϯΫ $)"-$   ہॴࣗݾ૬ؔ Ϋϥϥε෼ྨ*NBHF/FU "MFY/FU   ৞ΈࠐΈχϡʔϥϧωοτϫʔΫ ೥୅ 7((   ૚ (PPH-F/FU   ૚ 3FT/FU   ૚ʴεΩοϓߏ଄ ଟΫϥε෺ମݕग़ 'BTUFS3$//   3FHJPO1SPQPTBM :0-0   4JOHMFTIPU 44%   4JOHMFTIPU '$/   ৞ΈࠐΈʹΑΔηάϝϯςʔγϣϯ 141/FU   1ZSBNJE1PPMJOH .%FU   ϚϧνϨϕϧಛ௃ϐϥϛου Πϯελϯεηάϝϯςʔγϣϯ .BTL3$//   &OEUPFOEͰ࣮ݱ 7J5   7JTJPO5SBOTGPSNFS 4&/FU   &YDJUBUJPO %*/0   44- 7J5 4JN$-3   ରরֶश .P$P   ରরֶश #:0-   ϙδςΟϒϖΞͷΈ 4FH/FU   &ODPEFSEFDPEFS %FFQ-BCW   "USPVT৞ΈࠐΈ 4FH'PSNFS   7J5 %&53   5SBOTGPSNFS '1/   ಛ௃ϐϥϛου 6/FU   '$/Λར༻ & ffi DJFOU/FU   /"4 $// 7JTJPO5SBOTGPSNFS 4VQFS(MVF   (//ͷར༻ $FOUFS/FU   ΞϯΧʔϨε ڭࢣ͋Γֶश ࣗݾڭࢣ͋Γֶश ୈੈ୅ɿϋϯυΫϥϑτಛ௃
  10. w ෺ମݕग़λεΫɿ͋ΔΧςΰϦ෺ମ͕ը૾தͷͲ͜ʹ͋Δ͔ΛٻΊΔ໰୊  إݕग़<7JPMB $713>  าߦऀݕग़<%BMBM $713> ୈ̍ੈ୅ɿ෺ମݕग़λεΫʹ͓͚ΔϋϯυΫϥϑτಛ௃ 

    ػցֶश ϋϯυΫϥϑτಛ௃ )BBSMJLFಛ௃ྔ إݕग़ྫ )0(ಛ௃ྔ าߦऀݕग़ྫ "EB#PPTU 47. ػցֶश ϋϯυΫϥϑτಛ௃
  11. w ը૾෼ྨλεΫɿը૾தͷ෺ମ͕Ͳͷ෺ମΧςΰϦͰ͋Δ͔Λ෼ྨ͢Δ໰୊  #BHPGGFBUVSFT #0' CBHPGWJTVBMXPSET #P78 <$TVSLB $713> ୈ̍ੈ୅ɿը૾෼ྨλεΫʹ͓͚ΔϋϯυΫϥϑτಛ௃

     l'"$&z ˠ ˠ ˠ ˠ ˠ ˠ l#*,&z 4*'5ಛ௃ྔ 4*'5ಛ௃ྔ #BHPGWJTVBMXPSET #BHPGWJTVBMXPSET ػցֶश ϋϯυΫϥϑτಛ௃ 47. 47.
  12. w ػցֶशʹΑΓϩʔϨϕϧಛ௃Λ૊Έ߹ΘͤͯϛυϧϨϕϧಛ௃Λ֫ಘ  +PJOU)BBSMJLF<.JUB 1".*> إը૾ʹ͓͚Δߏ଄తͳྨࣅੑΛଊ͑Δ ͨΊʹෳ਺ͷಛ௃ྔͷڞىੑΛදݱ  +PJOU)0(<.JUTVJ *&*$&>

     $P)0(<8BUBOBCF *14+> าߦऀͷߏ଄తͳྨࣅੑΛଊ͑ΔͨΊʹෳ਺ͷಛ௃ྔͷڞىੑΛදݱ ୈੈ୅ɿϋϯυΫϥϑτಛ௃              +PJOU)BBSMJLFGFBUVSF ϙδςΟϒΫϥε ωΨςΟϒΫϥε j =ʢ̍̍̍ʣ= ̓ ͖͍͠஋ॲཧ )0(ಛ௃ྔͷڞىදݱ த ޻ ߨ ࢁ ػ 4 Ѫ Te F ya h த෦େֶ ޻ֶ෦ϩϘο τཧ޻ֶՊ ڭत ౻٢߂࿱ ػց஌֮ˍϩϘςΟ Ϋεάϧʔϓ 487-8501 Ѫ஌ݝय़೔Ҫࢢদຊொ1200 Tel 0568-51-9096 Fax 0568-51-9409 [email protected] http://vision.cs.chubu.ac.jp ത࢜ ʢ޻ֶʣ M த෦େֶ ޻ֶ෦ϩϘο τཧ޻ֶՊ ڭत ౻٢߂࿱ ػց஌֮ˍϩϘςΟ Ϋεάϧʔϓ 487-8501 Ѫ஌ݝय़೔Ҫࢢদຊொ1200 Tel 0568-51-9096 Fax 0568-51-9409 [email protected] http://vision.cs.chubu.ac.jp ത࢜ ʢ޻ֶʣ MACHINE PERCEPTION AND ROBOTICS GROUP Chubu University Department of Robotics Science and Technology College of Engineering Professor Dr.Eng. Hironobu Fujiyoshi Machine Perception and Robotics Group 1200 Matsumoto-cho, Kasugai, Aichi 487-8501 Japan Tel +81-568-51-9096 Fax +81-568-51-9409 [email protected] http://vision.cs.chubu.ac.jp w )0(ಛ௃ྔͷޯ഑ͷؔ܎ੑΛଊ͑Δ r $P)0(<8BUBOBCF> w ہॴྖҬͷޯ഑ϖΞΛྦྷੵͨ͠ಉ࣌ਖ਼ىߦྻ r +PJOU)0(<ࡾҪ> w #PPTJOHʹΑΓࣝผʹ༗ޮͳہॴྖҬͷؔ܎ੑΛ֫ಘ $P)0( )0(ಛ௃ྔͷڞىදݱ த෦େֶ ޻ֶ෦৘ใ޻ֶՊ ߨࢣ ࢁԼོٛ ػց஌֮ˍϩϘςΟ Ϋ 487-8501 Ѫ஌ݝय़೔Ҫࢢদຊ Tel 0568-51-9670 Fax 0568-51-1540 [email protected] http://vision.cs.chubu MACHINE PERCEPTIO Chubu University Department of Compu த෦େֶ ޻ֶ෦ϩϘο τཧ޻ֶՊ ڭत ౻٢߂࿱ ػց஌֮ˍϩϘςΟ Ϋεάϧʔϓ 487-8501 Ѫ஌ݝय़೔Ҫࢢদຊொ1200 Tel 0568-51-9096 Fax 0568-51-9409 [email protected] http://vision.cs.chubu.ac.jp ത࢜ ʢ޻ֶʣ MACHINE PERCEPTION AND ROBOTICS GROUP Chubu University Department of Robotics Science and Technology ࢁԼོٛ ػց஌֮ˍϩϘςΟ Ϋεάϧʔ 487-8501 Ѫ஌ݝय़೔Ҫࢢদຊொ1200 Tel 0568-51-9670 Fax 0568-51-1540 [email protected] http://vision.cs.chubu.ac.jp MACHINE PERCEPTION AND R Chubu University Department of Computer Scie College of Engineering Lecturer Dr.Eng. Takayoshi Yam Machine Perception and Robo 1200 Matsumoto-cho, Kasuga 487-8501 Japan Tel +81-568-51-9670 Fax +81-568-51-1540 [email protected] http://vision.cs.chubu.ac.jp MACHINE PERCEPTION AND R ౻٢߂࿱ ػց஌֮ˍϩϘςΟ Ϋεάϧʔϓ 487-8501 Ѫ஌ݝय़೔Ҫࢢদຊொ1200 Tel 0568-51-9096 Fax 0568-51-9409 [email protected] http://vision.cs.chubu.ac.jp ത࢜ ʢ޻ֶʣ MACHINE PERCEPTION AND ROBOTICS GROUP Chubu University Department of Robotics Science and Technology College of Engineering Professor Dr.Eng. Hironobu Fujiyoshi Machine Perception and Robotics Group 1200 Matsumoto-cho, Kasugai, Aichi 487-8501 Japan Tel +81-568-51-9096 Fax +81-568-51-9409 [email protected] http://vision.cs.chubu.ac.jp MACHINE PERCEPTION AND ROBOTICS GROUP w )0(ಛ௃ྔͷޯ഑ͷؔ܎ੑΛଊ͑Δ r $P)0(<8BUBOBCF> w ہॴྖҬͷޯ഑ϖΞΛྦྷੵͨ͠ಉ࣌ਖ਼ىߦྻ r +PJOU)0(<ࡾҪ> w #PPTJOHʹΑΓࣝผʹ༗ޮͳہॴྖҬͷؔ܎ੑΛ֫ಘ $P)0( +PJOU)0(
  13. ը૾ೝٕࣝज़ͷมભ  าߦऀݕग़ )0( 47.   ޯ഑ํ޲ώετάϥϜ إݕग़ )BSSMJLF

    "EB#PPTU   CPYϑΟϧλʹΑΔ໌҉ࠩ ը૾Ϛονϯά 4*'5   εέʔϧෆม ಛ௃఺ݕग़ɾهड़ Ϋϥεͷը૾෼ྨ 4*'5 #0'   #BHදݱͷಋೖ ಛఆ෺ମೝࣝ ը૾෼ྨ ෺ମݕग़ ηϚϯςΟοΫ ηάϝϯςʔγϣϯ खॻ͖਺ࣈͷ෼ྨ $//   ৞ΈࠐΈχϡʔϥϧωοτϫʔΫ ϐΫηϧࠩ෼ 3BOEPN'PSFTU   ϐΫηϧࠩ෼ʹΑΔςΫενϟ 463'   ੵ෼ը૾ʹΑΔߴ଎Խ '"45   ܾఆ໦ʹΑΔίʔφʔݕग़ 03#   ڭࢣͳֶ͠शʹΑΔϖΞબ୒ 'JTIFS7FDUPS   ֬཰ີ౓ؔ਺ʹΑΔಛ௃දݱ 7-"%   ؔ࿈͢Δ78ͷಛ௃ +PJOU)0(   $P)0(   )0(ͷڞىදݱ #3*&'   ೋ஋ಛ௃      $"3%   ಛ௃ྔͷೋ஋Խ 5FYUPO   ϑΟϧλόϯΫ $)"-$   ہॴࣗݾ૬ؔ Ϋϥϥε෼ྨ*NBHF/FU "MFY/FU   ৞ΈࠐΈχϡʔϥϧωοτϫʔΫ ೥୅ 7((   ૚ (PPH-F/FU   ૚ 3FT/FU   ૚ʴεΩοϓߏ଄ ଟΫϥε෺ମݕग़ 'BTUFS3$//   3FHJPO1SPQPTBM :0-0   4JOHMFTIPU 44%   4JOHMFTIPU '$/   ৞ΈࠐΈʹΑΔηάϝϯςʔγϣϯ 141/FU   1ZSBNJE1PPMJOH .%FU   ϚϧνϨϕϧಛ௃ϐϥϛου Πϯελϯεηάϝϯςʔγϣϯ .BTL3$//   &OEUPFOEͰ࣮ݱ 7J5   7JTJPO5SBOTGPSNFS 4&/FU   &YDJUBUJPO %*/0   44- 7J5 4JN$-3   ରরֶश .P$P   ରরֶश #:0-   ϙδςΟϒϖΞͷΈ 4FH/FU   &ODPEFSEFDPEFS %FFQ-BCW   "USPVT৞ΈࠐΈ 4FH'PSNFS   7J5 %&53   5SBOTGPSNFS '1/   ಛ௃ϐϥϛου 6/FU   '$/Λར༻ & ffi DJFOU/FU   /"4 $// 7JTJPO5SBOTGPSNFS 4VQFS(MVF   (//ͷར༻ $FOUFS/FU   ΞϯΧʔϨε ڭࢣ͋Γֶश ࣗݾڭࢣ͋Γֶश ୈੈ୅ɿ$//ʹΑΔಛ௃දݱ֫ಘ
  14. $//ͷಛ௃நग़աఔ 17 த෦େֶϩΰ த෦େֶϩΰ $POWMBZFS 1PPMJOHMBZFS *OQVUMBZFS $POWMBZFS 1PPMJOHMBZFS '$MBZFS

    0VUQVUMBZFS '$MBZFS *OQVUJNBHF YY    ⋯ ⋯       'MBUUFO LFSOFMT TJ[FYY TUSJEF QBEEJOH LFSOFMT TJ[FYY TUSJEF QBEEJOH     ɹˠ৞ΈࠐΈͱϓʔϦϯάΛଟஈʹ܁Γฦ͢͜ͱͰ޿͍ൣғͷॏཁͳಛ௃Λू໿͠ ɹɹશ݁߹૚ͰҐஔʹґଘ͠ͳ͍ಛ௃Λ֫ಘʢϩʔΧϧˠϛυϧˠάϩʔόϧʣ ৞ΈࠐΈ ϓʔϦϯά ৞ΈࠐΈ ϓʔϦϯά શ݁߹ શ݁߹
  15. $//Χʔωϧ ૚໨ ͷہॴಛ௃ྔͱͯ͠ͷޮՌ த෦େֶϩΰ த෦େֶϩΰ )0(ʢํ޲ͷޯ഑ಛ௃ʣ "MFY/FUʢޯ഑Χʔωϧຕʣ "MFY/FUʢશΧʔωϧຕʣ › ›

    › › › › › › ›  ࣍ݩ  ࣍ݩ  ࣍ݩ ಛ௃ྔͷࢉग़ํ๏ )0(ɿ֤ըૉͰޯ഑ͷܭࢉ "MFY/FUɿ֤ըૉ୯ҐͰΧʔωϧͷ৞ΈࠐΈ ηϧຖʹώετάϥϜΛ࡞੒ ϒϩοΫྖҬʹΑΔਖ਼نԽ 
  16. $//Χʔωϧ ૚໨ ͷہॴಛ௃ྔͱͯ͠ͷޮՌ த෦େֶϩΰ த෦େֶϩΰ w าߦऀݕग़λεΫʹͯධՁ */3*"1FSTPO%BUBTFU  

    )0( 47.˔  )0(ʹࣅͨݸͷΧʔωϧ 47.˔  ݸશͯͷΧʔωϧ 47.˔  $//ಛ௃ DPOW  47.˔ ˠ"MFY/FUͷֶशʹΑΓ֫ಘͨ͠Χʔωϧ͸ϋϯυΫϥϑτಛ௃ )0( ΑΓߴੑೳ "MFY/FU BMMLFSOFMTʣ "MFY/FU DPOWʣ )0( "MFY/FU TFMFDUFELFSOFMTʣ 
  17. w $//ͷߏ଄ΛλεΫʹ߹Θͤͯઃܭ ը૾ೝࣝλεΫʹ͓͚Δ$//ͷॊೈੑ ʜ z1FSTPOz W H W′  H′

     H W W H ըૉ͝ͱʹΫϥε֬཰Λग़ྗ W H 1FSTPO 1FSTPO 1FSTPO 1FSTPO C ʜ ʜ ɿ৞ΈࠐΈ૚ ɿϓʔϦϯά૚ ɿΞοϓαϯϓϦϯά૚ C άϦου͝ͱʹ Ϋϥε֬཰ͱݕग़ྖҬΛग़ྗ Ϋϥε֬཰Λग़ྗ ೖྗ ग़ྗ C + B $// ग़ྗ݁ՌͷՄࢹԽ $// $// ෺ମݕग़ ը૾෼ྨ ηϚϯςΟοΫ ηάϝϯςʔγϣϯ 
  18. ը૾ೝٕࣝज़ͷมભ  าߦऀݕग़ )0( 47.   ޯ഑ํ޲ώετάϥϜ إݕग़ )BSSMJLF

    "EB#PPTU   CPYϑΟϧλʹΑΔ໌҉ࠩ ը૾Ϛονϯά 4*'5   εέʔϧෆม ಛ௃఺ݕग़ɾهड़ Ϋϥεͷը૾෼ྨ 4*'5 #0'   #BHදݱͷಋೖ ಛఆ෺ମೝࣝ ը૾෼ྨ ෺ମݕग़ ηϚϯςΟοΫ ηάϝϯςʔγϣϯ खॻ͖਺ࣈͷ෼ྨ $//   ৞ΈࠐΈχϡʔϥϧωοτϫʔΫ ϐΫηϧࠩ෼ 3BOEPN'PSFTU   ϐΫηϧࠩ෼ʹΑΔςΫενϟ 463'   ੵ෼ը૾ʹΑΔߴ଎Խ '"45   ܾఆ໦ʹΑΔίʔφʔݕग़ 03#   ڭࢣͳֶ͠शʹΑΔϖΞબ୒ 'JTIFS7FDUPS   ֬཰ີ౓ؔ਺ʹΑΔಛ௃දݱ 7-"%   ؔ࿈͢Δ78ͷಛ௃ +PJOU)0(   $P)0(   )0(ͷڞىදݱ #3*&'   ೋ஋ಛ௃      $"3%   ಛ௃ྔͷೋ஋Խ 5FYUPO   ϑΟϧλόϯΫ $)"-$   ہॴࣗݾ૬ؔ Ϋϥϥε෼ྨ*NBHF/FU "MFY/FU   ৞ΈࠐΈχϡʔϥϧωοτϫʔΫ ೥୅ 7((   ૚ (PPH-F/FU   ૚ 3FT/FU   ૚ʴεΩοϓߏ଄ ଟΫϥε෺ମݕग़ 'BTUFS3$//   3FHJPO1SPQPTBM :0-0   4JOHMFTIPU 44%   4JOHMFTIPU '$/   ৞ΈࠐΈʹΑΔηάϝϯςʔγϣϯ 141/FU   1ZSBNJE1PPMJOH .%FU   ϚϧνϨϕϧಛ௃ϐϥϛου Πϯελϯεηάϝϯςʔγϣϯ .BTL3$//   &OEUPFOEͰ࣮ݱ 7J5   7JTJPO5SBOTGPSNFS 4&/FU   &YDJUBUJPO %*/0   44- 7J5 4JN$-3   ରরֶश .P$P   ରরֶश #:0-   ϙδςΟϒϖΞͷΈ 4FH/FU   &ODPEFSEFDPEFS %FFQ-BCW   "USPVT৞ΈࠐΈ 4FH'PSNFS   7J5 %&53   5SBOTGPSNFS '1/   ಛ௃ϐϥϛου 6/FU   '$/Λར༻ & ffi DJFOU/FU   /"4 $// 7JTJPO5SBOTGPSNFS 4VQFS(MVF   (//ͷར༻ $FOUFS/FU   ΞϯΧʔϨε ڭࢣ͋Γֶश ࣗݾڭࢣ͋Γֶश ୈੈ୅ɿ7J5ʹΑΔಛ௃දݱ֫ಘ
  19. w 5SBOTGPSNFSΛ7JTJPO෼໺ʹԠ༻ͨ͠ը૾෼ྨख๏  ը૾Λݻఆύονʹ෼ղ  4FMGBUUFOUJPOʹΑΔύονؒͷؔ܎ੑΛଊ͑Δ  *NBHF/FUͳͲͷΫϥε෼ྨλεΫͰ4P5" 7JTJPO5SBOTGPSNFS<%PTPWJUTLJZ *$-3>

     Figure 1: The Transformer - model architecture. 3.1 Encoder and Decoder Stacks Scaled Dot-Product Attention Multi-Head Attention Figure 2: (left) Scaled Dot-Product Attention. (right) Multi-Head Attention consists of several attention layers running in parallel. 3.2.1 Scaled Dot-Product Attention We call our particular attention "Scaled Dot-Product Attention" (Figure 2). The input consists of queries and keys of dimension dk , and values of dimension dv . We compute the dot products of the query with all keys, divide each by p dk , and apply a softmax function to obtain the weights on the values. In practice, we compute the attention function on a set of queries simultaneously, packed together into a matrix Q. The keys and values are also packed together into matrices K and V . We compute the matrix of outputs as: Attention(Q, K, V ) = softmax( QKT p dk )V (1) The two most commonly used attention functions are additive attention [2], and dot-product (multi- plicative) attention. Dot-product attention is identical to our algorithm, except for the scaling factor of 1 p dk . Additive attention computes the compatibility function using a feed-forward network with a single hidden layer. While the two are similar in theoretical complexity, dot-product attention is much faster and more space-efficient in practice, since it can be implemented using highly optimized matrix multiplication code. Scaled Dot-Product Attention Multi-Head Attention Figure 2: (left) Scaled Dot-Product Attention. (right) Multi-Head Attention consists of several attention layers running in parallel. 3.2.1 Scaled Dot-Product Attention We call our particular attention "Scaled Dot-Product Attention" (Figure 2). The input consists of queries and keys of dimension dk , and values of dimension dv . We compute the dot products of the query with all keys, divide each by p dk , and apply a softmax function to obtain the weights on the values. In practice, we compute the attention function on a set of queries simultaneously, packed together 5SBOTGPSNFS 7J5
  20. w 7J5͕ͲͷΑ͏ͳಛ௃Λଊ͍͑ͯΔ͔ΛධՁ<5VKJ BS9JW>  ("/ʹΑΔελΠϧม׵Ͱੜ੒ͨ͠ը૾Λೖྗ  ධՁର৅ɿ7J5 $// ਓؒ 

    ධՁࢦඪ ܗঢ়ͷׂ߹ਖ਼͍͠ܗঢ়Ϋϥεͱࣝผ ਖ਼͍͠ܗঢ়Ϋϥεͱࣝผ ਖ਼͍͠ςΫενϟΫϥεͱࣝผ  7J5ʹ͓͚Δಛ௃දݱ֫ಘ ("/ʹΑΔ ελΠϧม׵ ೣ ৅ ೣˠܗঢ়Λଊ͍͑ͯΔ ৅ˠςΫενϟΛଊ͍͑ͯΔ $// PS 7J5 ෼ྨ݁Ռ 
  21. w 7J5͕ͲͷΑ͏ͳಛ௃Λଊ͍͑ͯΔ͔ΛධՁ<5VKJ BS9JW>  $//͸ςΫενϟΛॏࢹ  7J5͸෺ମͷܗঢ়Λॏࢹ 7J5ʹ͓͚Δಛ௃දݱ֫ಘ  <>3(FJSIPT

    l*."(&/&553"*/&%$//4"3&#*"4&%508"3%45&9563&*/$3&"4*/(4)"1&#*"4*.1307&4"$$63"$:"/%30#645/&44 z*$-3  blished as a conference paper at ICLR 2019 AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet AlexNet 100 GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet GoogLeNet 100 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 VGG−16 100 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 ResNet−50 100 Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans Humans 99 97 99 100100 98 44 49 48 54 75 40 28 24 18 87 100100100100 90 original greyscale silhouette edges texture Figure 2: Accuracies and example stimuli for five different experiments without cue conflict. anging biases, and discovering emergent benefits of changed biases. We show that the texture bias standard CNNs can be overcome and changed towards a shape bias if trained on a suitable data . Remarkably, networks with a higher shape bias are inherently more robust to many different age distortions (for some even reaching or surpassing human performance, despite never being <>ΑΓҾ༻ <>45VMJ l"SF$POWPMVUJPOBM/FVSBM/FUXPSLTPS5SBOTGPSNFSTNPSFMJLFIVNBOWJTJPO zBS9JW  Fig. 4: Error consistency results on SIN dataset. distribution (i.e., p 2 D240 corresponding to the off-diagonal entries of the 16 ⇥ 16 confusion matrix) by taking the error counts to be the off-diagonal elements of the confusion ma- trix: ei j = CMi, j, 8 j 6= i In this context, the inter-class JS distance compares what classes were misclassified as what. An interesting finding is that, instead of a strong correla- tion shown by class-wise JS in Figure 3(a), Figure 3(b) sug- gests that there is no correlation of inter-class JS distance with Cohen’s k implying that this metric gives insight beyond Co- hen’s k in measuring error-consistency with humans. 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 Fraction of 'texture' decisions Fraction of 'shape' decisions Shape categories • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • ResNet−50 AlexNet VGG−16 GoogLeNet ViT−B_16 ViT−L_32 Humans (avg.) Fig. 5: Shape bias for different networks for the SIN dataset (Geirhos et al., 2019). Vertical lines indicate averages. <>ΑΓҾ༻ $//ͱਓؒͷൺֱ 7J5 ˝˝ $// ˔˙˛˔ ਓؒ ♦︎ ͷൺֱ ςΫενϟ ܗঢ়
  22. ࢦ਺Ҡಈฏۉ #BDLQSPQ w ੜెωοτϫʔΫͱڭࢣωοτϫʔΫͷ̎ͭͷωοτϫʔΫΛར༻ͨࣗ͠ݾڭࢣ͋Γֶश  ੜెͷग़ྗ෼෍͕ڭࢣͷग़ྗ෼෍ʹۙͮ͘Α͏ʹֶश 7J5ͷࣗݾڭࢣ͋Γֶशɿ%*/0<$BSPO *$$7> 4PGUNBY 4PGUNBY

    $FOUFS TUPQHSBE ಛ௃ྔ Τϯίʔμ ϓϩδΣΫλ TIBSQFOJOH ֬཰෼෍ MPDBM HMPCBM ੜెωοτϫʔΫ ڭࢣωοτϫʔΫ σʔλ૿෯ ଛࣦܭࢉ 7J5 7J5 .-1 .-1 ہॴྖҬΛΫϩοϓ ʢ೉͍͠໰୊ʣ ޿͍ൣғΛΫϩοϓ ʢ༏͍͠໰୊ʣ 
  23. w ϑΝΠϯνϡʔχϯάʹΑΔධՁ  4VQɿ*NBHF/FU,Λ༻͍ͯڭࢣ͋Γֶशͨ͠7J5ΛϑΝΠϯνϡʔχϯά  %*/0ɿ*NBHF/FU,Λ༻͍ͯࣗݾڭࢣ͋Γֶशͨ͠7J5ΛϑΝΠϯνϡʔχϯά w ࠷ऴ૚ͷ೚ҙͷ)FBEʹ͓͚Δ"UUFOUJPOXFJHIUΛՄࢹԽ Emerging Properties

    in Self-Supervised Vision Transformers Mathilde Caron1,2 Hugo Touvron1,3 Ishan Misra1 Herv´ e Jegou1 Julien Mairal2 Piotr Bojanowski1 Armand Joulin1 1 Facebook AI Research 2 Inria⇤ 3 Sorbonne University V] 24 May 2021  7J5ͷࣗݾڭࢣ͋Γֶशɿ%*/0<$BSPO *$$7> keep 60% of the mass. On top, we show the resulting masks for a ViT-S/8 trained with supervision and DINO. We show the best head for both models. The table at the bottom compares the Jac- card similarity between the ground truth and these masks on the validation images of PASCAL VOC12 dataset. Table 6: Transfer learning by finetuning pretrained models on different datasets. We report top-1 accuracy. Self-supervised pretraining with DINO transfers better than supervised pretraining. Cifar10 Cifar100 INat18 INat19 Flwrs Cars INet ViT-S/16 Sup. [69] 99.0 89.5 70.7 76.6 98.2 92.1 79.9 DINO 99.0 90.5 72.0 78.2 98.5 93.0 81.5 ViT-B/16 Sup. [69] 99.0 90.8 73.2 77.7 98.4 92.1 81.8 DINO 99.1 91.7 72.6 78.6 98.8 93.0 82.8 In Table 7, we report different model variants as we add or remove components. First, we observe that in the absence of momentum, our framework does not work (row 2) and more advanced operations, SK for example, are required to avoid collapse (row 9). However, with momentum, using SK has little impact (row 3). In addtition, comparing rows 3 and 9 highlights the importance of the momentum encoder for performance. Second, in rows 4 and 5, we observe that 7 BYOL X 7 7 MSE 8 MoCov2 X 7 7 INCE 9 SwAV 7 X X CE SK: Sinkhorn-Knopp, MC: Multi-Cro CE: Cross-Entropy, MSE: Mean Square E Fi Pa ua th fe wi M 30 with different patch sizes, 16 ⇥ 16, 8 also compare to ViT-B with 16 ⇥ 16 a the models are trained for 300 epochs performance greatly improves as we de patch. It is interesting to see that perfo improved without adding additional p the performance gain from using sma the expense of throughput: when usi throughput falls to 44 im/s, vs 180 im/ ˠڭࢣ͋ΓࣄલֶशϞσϧ 4VQ Λ௒͑ΔੑೳΛൃش ˠϥϕϧ৘ใ͕ແͯ͘΋ਖ਼֬ͳ෺ମྖҬΛ֫ಘ
  24. 7J5ͷ೿ੜख๏  7J5 <"%PTPWJUTLJZ *$-3> %*/0 <.$BSPO *$$7> .P$PW <9$IFO

    *$$7> ."& <,)F BS9JW> 4JN.*. <;9JF $713> #&J5 <)#BP *$-3> $P"U/FU <;%BJ /FVS*14> $W5 <)8V *$$7> 557J5 <-:VBO *$$7> -F7J5 <#(SBIBN *$$7> 'PDBM"UUFOUJPO <+:BOH /FVS*14> $48JO <9%POH $713> %"5 <;9JB BS9JW> %FGPSNBCMFͳ"UUFOUJPOΛ֫ಘ ॎԣɾہॴେҬతͳ"UUFOUJPOΛ֫ಘ $PBSTFUP'JOFͳ"UUFOUJPOΛ֫ಘ 4XJO <;-JV *$$7> 4XJOW <;-JV $713> 7JEFP4XJO <;-JV $713> %FJ5 <)5PVWSPO *$.-> .-1.JYFS <*5PMTUJLIJO /FVS*14> H.-1 <)-JV /FVS*14> /"47J5 <$(POH *$-3> "VUP'PSNFSW 4  <.$IFO /FVS*14> "VUP'PSNFS <.$IFO *$$7> 7J5"4 <94V BS9JW> $POW.JYFS <"5SPDLNBO BS9JW> $POW/F9U <;-JV $713> 3FT/FUTUSJLFTCBDL <38JHIUNBO /FVS*148> %FJ5ͷֶश৚݅ἧ͑ͨΒ3FT/FU΋ࢮΜͰͳ͍ $POW͸ڧ͍ )PXEP7J5XPSL </1BSL *$-3> %P7J5TFFMJLF$// <.3BHIV /FVS*14> .FUB'PSNFS <8:V $713> %ZOBNJD7J5 <:3BP /FVS*14> ෆཁͳύονಛ௃Λ ΨϯϕϧιϑτϚοΫεͰ੍ޚ $'7J5 <.$IFO BS9JW> "7J5 <):JO $713> "SF5SBOTGPSNFSTNPSFSPCVTUUIBO$//T  <:#BJ /FVS*14> 6OEFSTUBOEJOH3PCVTUOFTTPG5SBOTGPSNFSTGPS*NBHF$MBTTJ fi DBUJPO <4#IPKBOBQBMMJ *$$7> "EBQUJWF$PNQVUBUJPO5JNF "$5 Ͱ੍ޚ 4QBSTF.-1 <$5BOH """*> %&53 </$BSJPO &$$7> 1W5 <88BOH *$$7> 4FH'PSNFS <&9JF *$$7> 1W5W <88BOH $7.+> 5SBOT("/ <:+JBOH /FVS*14> 7J5("/ <,-FF *$-3> 4&53 <4;IFOH $713> .VMUJ."& <3#BDINBOO BS9JW> ϚϧνλεΫԽ $PO7J5 <4E`"TDPMJ *$.-> "UUFOUJPOʹTPGU$POWΛ௥Ճ TPGU$POW"UUFOUJPOͱ3FMQPTΛͲΕ͚ͩೖΕΔ͔Λ੍ޚ 5/5 <,)BO /FVS*14> 5SBOTGPSNFS&YQMBJOBCJMJUZ <)$IFGFS $713> .VMUJTDBMF7J5 <)'BO *$$7> 7JTJPO-POHGPSNFS <1;IBOH *$$7> 5JNF4GPSNFS <(#FSUBTJVT *$.-> 7J7J5 <""SOBC *$$7> 4UZMF4XJO <#;IBOH $713> J#05 <+;IPV *$-3> )PXUP6OEFSTUBOE."& <4$BP BS9JW> ."&ͷ੒ޭʹ͍ͭͯཧ࿦తͳূ໌Λߦ͏ $FJ5 <,:VBO *$$7> 444XJO <;9JF BS9JW> ࣗݾڭࢣ TXJO %FFQ7J5 <%;IPV BS9JW> %15 <33BOGUM *$$7> .PWJMF7J5 <4.FIUB *$-3> .PCJMF'PSNFS <:$IFO $713> $BJ5 <)5PVWSPO *$$7> 7JTVBMJ[JOH1BJSFE*NBHF4JNJMBSJUZJO5SBOTGPSNFS/FUXPSLT <4#MBDL 8"$7> (SBQIPSNFS <$:JOH /FVS*14> ࢝·ΓͷޚࡾՈ $POW 4" /FVSBM"SDIJUFDUVSF4FBSDI 4FMG4VQFSWJTFE 7J5 ޮ཰తͳ4FMG"UUFOUJPO7J5ͷఏҊ $POWͰ΋શવྑ͍ "OBMZTJTPG7J5 4QFDJ fi DUBTL ѻ͍ͮΒ͍ɼվྑ ಛఆXJOEPX಺Ͱ4"ܭࢉɽ$//ͷ3FT/FUతͳѻ͍ 3FMQPT΍-/ͷҐஔΛม͑ͯੑೳ޲্ ಈը૾ʹ֦ு 4QBUJBM3FEVDUJPO"UUFOUJPO 43" Ͱޮ཰తʹ4"Λܭࢉ 4"ͷվྑ 4"ݟ௚ͯ͠ਂ૚Խʹ੒ޭ ෺ମݕग़ʹॳΊͯ5SBOTGPSNFSೖΕͨ ࣌୅͸5SBOTGPSNFS *NBHF/FUͰ΋ߴੑೳʹͨ͠ 1PPMͰ΋ྑ͍ άϥϑදݱ -PDBMUP(MPCBMͳಛ௃ଊ͑Δ QSVOJOHܥ .PWJMF/FUGVTJPO /FTUFE5SBOTGPSNFS <4E`"TDPMJ """*> %B7J5 <.%JOH BS9JW> νϟϯωϧͱۭؒํ޲Ͱ4" .BY7J5 <;5V BS9JW> ஥ؒʹೖΔ -77J5 <;+JBOH /FVS*14> ηϚϯςΟοΫͳ τʔΫϯϥϕϧ΋ೖΕΔ ஈ֊తʹUPLFOΛऔΓೖΕΔ ஥ؒʹೖΔ ("/ 7JEFP3FDPHOJUJPO 4FHNFOUFS <34USVEFM *$$7> 4FHNFOUBUJPO (SPVQ7J5 <+9V $713> %FQUIFTUJNBUJPO 0UIFS 5SBOT1PTF <4:BOH *$$7> )VNBOQPTFFTUJNBUJPO 1PJOUDMPVET %&53 <*.JTSB *$$7> 1PJOU5SBOTGPSNFS <);IBP *$$7> %PCKFDUEFUFDUJPO 4FHNFOUBUJPO .4"ͷ༗ޮΛௐࠪ େن໛σʔληοτͰ7J5Λֶश͢Δͱઙ͍૚Ͱہॴಛ௃Λଊ͍͑ͯΔ 7J5Λਂ૚Խͯ͠ߴੑೳʹ͢ΔͨΊʹ 4"ͷվྑͱΫϥετʔΫϯͷҐஔΛม͑ͨ 2,7ΛDPOWͰܭࢉ 'FFEGPSXBSEʹ$POW௥Ճ $POW͔ͯ͠Β4" 3FT/FUͱ7J5Λ*NBHF/FU஥ؒͰධՁɼ·ͨ"EWFSTBSJBM&YBNQMFT΍ۭؒత߈ܸ ը૾ճస ͰϞσϧͷؤ݈ੑΛௐࠪ ͭͷը૾ʹࣸΔಉ͡෺ମྖҬΛଊ͑ղऍՄೳͳࢹ֮ԽΛߦ͏ɽ·ͨը૾ݕࡧλεΫͰ3FT/FUͱ7J5Ͱଊ͑ͯΔ෺ମ͕ҧ͏ 7J5ͱ$//Ͱֶश৚݅ҧ͏͔Βෆެฏɽނʹެฏʹ্ͨ͠Ͱఢରత߈ܸʹؤ݈͔Ͳ͏͔Λௐࠪ "UUFOUJPOSPMMPVU͸ೝࣝ෺ମͱແؔ܎ͳύον͕ڧௐ͞ΕΔ͔Βޯ഑ϕʔεͰϚοϓΛՄࢹԽ ɾ%&53ͷҾ༻਺ ɾ7J5ͷҾ༻਺ ɾ%FJ5ͷҾ༻਺ ɾ4XJOͷҾ༻਺ ˞೥݄೔࣌఺ ɿ  ɿ  ɿ ɿ  "SF$POWPMVUJPOBM/FVSBM/FUXPSLTPS5SBOTGPSNFST NPSFMJLFIVNBOWJTJPO  <45VMJ $PH4DJ> 5SBOTGPSNFS͸෺ମͷܗঢ়Λɼ$//͸෺ମͷςΫενϟΛཔΓʹ෺ମೝࣝͯ͠Δ͜ͱ͕൑໌ $ZDMF.-1 <4$IFO *$-3> 4.-1 <5:V 8"$7> ۭؒYνϟϯωϧͷνϟϯωϧΛαΠΫϧ ۭؒํ޲ʹγϑτ "4.-1 <%-JBO *$-3> .-1Ͱۭؒ৘ใࠞͥΕ͹ྑ͍
  25. 7J5ͷ೿ੜख๏ʹ͓͚Δಛ௃දݱ֫ಘ<ຳӜ .*36>  w 7J5ͱ೿ੜख๏Ϟσϧͷൺֱ  3FT/FUɿ˙  $POW/FYU-ɿ˙ 

    .-1.JYFS-ɿ˙  1PPM.ɿ˙  4XJO-ɿ˙  7J5-ɿ˙ 'SBDUJPOPGbTIBQF`EFDJTJPOT 'SBDUJPOPGbUFYUVSF`EFDJTJPOT ςΫενϟ ܗঢ় ਖ਼ղϥϕϧɿೣ ςΫενϟɿ৅ ਖ਼ղϥϕϧɿं ςΫενϟɿϘτϧ ೿ੜख๏ΑΓ7J5ͷํ͕ ܗঢ়Λଊ͍͑ͯΔ͜ͱ͕൑໌
  26. w ୈ̍ੈ୅ɿϋϯυΫϥϑτಛ௃  ը૾ೝࣝλεΫ͝ͱʹద੾ͳϋϯυΫϥϑτಛ௃Λݚڀऀ͕ઃܭ w ୈ̎ੈ୅ɿ$//ʹΑΔಛ௃දݱ֫ಘ  ֶशʹΑΓΧʔωϧΛࣗಈઃܭ  ৞ΈࠐΈͱϓʔϦϯάΛଟஈʹ܁Γฦ͢͜ͱͰ޿͍ൣғͷॏཁͳಛ௃Λू໿͠ɼ

    શ݁߹૚ͰҐஔʹґଘ͠ͳ͍ಛ௃Λ֫ಘ w ୈ̏ੈ୅ɿ7J5ʹΑΔಛ௃දݱ֫ಘ  $//Ͱ͸֫ಘͰ͖ͳ͔ͬͨܗঢ়ಛ௃Λ֫ಘՄೳˠϊΠζʹରͯ͠ؤ݈  ϥϕϧ৘ใ͕ແͯ͘΋ਖ਼֬ͳ෺ମྖҬΛ֫ಘʢࣗݾڭࢣ͋Γֶशʣ ·ͱΊɿہॴಛ௃ྔɿը૾ೝࣝʹ͓͚Δಛ௃දݱ֫ಘͷมભ  Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron1,2 Hugo Touvron1,3 Ishan Misra1 Herv´ e Jegou1 Julien Mairal2 Piotr Bojanowski1 Armand Joulin1 1 Facebook AI Research 2 Inria⇤ 3 Sorbonne University Figure 1: Self-attention from a Vision Transformer with 8 ⇥ 8 patches trained with no supervision. We look at the self-attention of the [CLS] token on the heads of the last layer. This token is not attached to any label nor supervision. These maps show that the model automatically learns class-specific features leading to unsupervised object segmentations. Abstract 1. Introduction Transformers [70] have recently emerged as an alternative 94v2 [cs.CV] 24 May 2021 ୈੈ୅ɿϋϯυΫϥϑτಛ௃ ୈੈ୅ɿ$//ʹΑΔಛ௃දݱ֫ಘ ୈੈ୅ɿ7J5ʹΑΔಛ௃දݱ֫ಘ
  27. ػց஌֮ϩϘςΟΫεݚڀάϧʔϓ த෦େֶϩΰ த෦େֶϩΰ ڭत ౻٢߂࿱ Hironobu Fujiyoshi E-mail: [email protected] 1997೥

    த෦େֶେֶӃത࢜ޙظ՝ఔमྃ, 1997೥ ถΧʔωΪʔϝϩϯେֶϩϘοτ޻ֶݚڀॴPostdoctoral Fellow, 2000೥ த෦େֶ޻ֶ෦৘ใ޻ֶՊߨࢣ, 2004೥ த෦େֶ।ڭत, 2005೥ ถΧʔωΪʔϝϩϯେֶϩϘοτ޻ֶݚڀॴ٬һݚڀһ(ʙ2006೥), 2010೥ த෦େֶڭत, 2014೥໊ݹ԰େֶ٬һڭत.
 ܭࢉػࢹ֮ɼಈը૾ॲཧɼύλʔϯೝࣝɾཧղͷݚڀʹैࣄɽ
 ϩϘΧοϓݚڀ৆(2005೥)ɼ৘ใॲཧֶձ࿦จࢽCVIM༏ल࿦จ৆(2009೥)ɼ৘ใॲཧֶձࢁԼه೦ݚڀ৆(2009೥)ɼը૾ηϯγϯάγϯϙδ΢Ϝ༏लֶज़৆(2010, 2013, 2014೥) ɼ ిࢠ৘ใ௨৴ֶձ ৘ใɾγεςϜιαΠΤςΟ࿦จ৆(2013೥)ଞ ڭत ࢁԼོٛ Takayoshi Yamashita E-mail:[email protected] 2002೥ ಸྑઌ୺Պֶٕज़େֶӃେֶത࢜લظ՝ఔमྃ, 2002೥ ΦϜϩϯגࣜձࣾೖࣾ, 2009೥ த෦େֶେֶӃത࢜ޙظ՝ఔमྃ(ࣾձਓυΫλʔ), 2014೥ த෦େֶߨࢣɼ 2017೥ த෦େֶ।ڭतɼ2021೥ த෦େֶڭतɽ
 ਓͷཧղʹ޲͚ͨಈը૾ॲཧɼύλʔϯೝࣝɾػցֶशͷݚڀʹैࣄɽ
 ը૾ηϯγϯάγϯϙδ΢Ϝߴ໦৆(2009೥)ɼిࢠ৘ใ௨৴ֶձ ৘ใɾγεςϜιαΠΤςΟ࿦จ৆(2013೥)ɼిࢠ৘ใ௨৴ֶձPRMUݚڀձݚڀ঑ྭ৆(2013೥)ड৆ɽ ߨࢣ ฏ઒ཌྷ Tsubasa Hirakawa E-mail:[email protected] 2013೥ ޿ౡେֶେֶӃത࢜՝ఔલظऴྃɼ2014೥ ޿ౡେֶେֶӃത࢜՝ఔޙظೖֶɼ2017೥ த෦େֶݚڀһ (ʙ2019೥)ɼ2017೥ ޿ౡେֶେֶӃത࢜ޙظ՝ఔमྃɽ2019 ೥ த෦େֶಛ೚ॿڭɼ2021೥ த෦େֶߨࢣɽ2014೥ ಠཱߦ੓๏ਓ೔ຊֶज़ৼڵձಛผݚڀһDC1ɽ2014೥ ESIEE Paris٬һݚڀһ (ʙ2015೥)ɽ ίϯϐϡʔλϏδϣϯɼύλʔϯೝࣝɼҩ༻ը૾ॲཧͷݚڀʹैࣄ