$30 off During Our Annual Pro Sale. View Details »

局所特徴量:画像認識における特徴表現獲得の変遷

 局所特徴量:画像認識における特徴表現獲得の変遷

MIRU30周年&25回記念 特別企画「過去を知り、未来を想う」
局所特徴量:画像認識における特徴表現獲得の変遷
藤吉弘亘(中部大学・機械知覚&ロボティクス研究グループ)
2022年7月28日(MIRU2022)

Hironobu Fujiyoshi

July 27, 2022
Tweet

More Decks by Hironobu Fujiyoshi

Other Decks in Research

Transcript

  1. .*36प೥ˍճه೦ಛผاըʮաڈΛ஌ΓɺະདྷΛ૝͏ʯ
    ہॴಛ௃ྔɿը૾ೝࣝʹ͓͚Δಛ௃දݱ֫ಘͷมભ
    ౻٢߂࿱ʢத෦େֶɾػց஌֮ϩϘςΟΫεݚڀάϧʔϓʣ
    IUUQNQSHKQ

    View Slide

  2. ը૾ೝٕࣝज़ͷมભ

    าߦऀݕग़
    )0(47.

    ޯ഑ํ޲ώετάϥϜ
    إݕग़
    )BSSMJLF"EB#PPTU

    CPYϑΟϧλʹΑΔ໌҉ࠩ
    ը૾Ϛονϯά
    4*'5

    εέʔϧෆม
    ಛ௃఺ݕग़ɾهड़
    Ϋϥεͷը૾෼ྨ
    4*'5#0'

    #BHදݱͷಋೖ
    ಛఆ෺ମೝࣝ
    ը૾෼ྨ
    ෺ମݕग़
    ηϚϯςΟοΫ
    ηάϝϯςʔγϣϯ
    खॻ͖਺ࣈͷ෼ྨ
    $//

    ৞ΈࠐΈχϡʔϥϧωοτϫʔΫ
    ϐΫηϧࠩ෼3BOEPN'PSFTU

    ϐΫηϧࠩ෼ʹΑΔςΫενϟ
    463'

    ੵ෼ը૾ʹΑΔߴ଎Խ
    '"45

    ܾఆ໦ʹΑΔίʔφʔݕग़
    03#

    ڭࢣͳֶ͠शʹΑΔϖΞબ୒
    'JTIFS7FDUPS

    ֬཰ີ౓ؔ਺ʹΑΔಛ௃දݱ
    7-"%

    ؔ࿈͢Δ78ͷಛ௃
    +PJOU)0(

    $P)0(

    )0(ͷڞىදݱ
    #3*&'

    ೋ஋ಛ௃

    $"3%

    ಛ௃ྔͷೋ஋Խ
    5FYUPO

    ϑΟϧλόϯΫ
    $)"-$

    ہॴࣗݾ૬ؔ
    Ϋϥϥε෼ྨ*NBHF/FU
    "MFY/FU

    ৞ΈࠐΈχϡʔϥϧωοτϫʔΫ
    ೥୅
    7((


    (PPH-F/FU


    3FT/FU

    ૚ʴεΩοϓߏ଄
    ଟΫϥε෺ମݕग़
    'BTUFS3$//

    3FHJPO1SPQPTBM
    :0-0

    4JOHMFTIPU
    44%

    4JOHMFTIPU
    '$/

    ৞ΈࠐΈʹΑΔηάϝϯςʔγϣϯ
    141/FU

    1ZSBNJE1PPMJOH
    .%FU

    ϚϧνϨϕϧಛ௃ϐϥϛου
    Πϯελϯεηάϝϯςʔγϣϯ
    .BTL3$//

    &OEUPFOEͰ࣮ݱ
    7J5

    7JTJPO5SBOTGPSNFS
    4&/FU

    &YDJUBUJPO
    %*/0

    44-7J5
    4JN$-3

    ରরֶश
    .P$P

    ରরֶश
    #:0-

    ϙδςΟϒϖΞͷΈ
    4FH/FU

    &ODPEFSEFDPEFS %FFQ-BCW

    "USPVT৞ΈࠐΈ
    4FH'PSNFS

    7J5
    %&53

    5SBOTGPSNFS
    '1/

    ಛ௃ϐϥϛου
    6/FU

    '$/Λར༻
    &
    ffi
    DJFOU/FU

    /"4
    $//
    7JTJPO5SBOTGPSNFS
    4VQFS(MVF

    (//ͷར༻
    $FOUFS/FU

    ΞϯΧʔϨε
    ڭࢣ͋Γֶश
    ࣗݾڭࢣ͋Γֶश

    View Slide

  3. w ಛఆը૾ʢςϯϓϨʔτʣͱೖྗը૾ؒʹ͓͚ΔରԠ఺୳ࡧʹΑΓಛఆ෺ମೝࣝΛ࣮ݱ
    ಛఆ෺ମೝࣝ
    3
    த෦େֶϩΰ
    த෦େֶϩΰ

    ςϯϓϨʔτ"
    ςϯϓϨʔτ#
    ೝࣝ݁Ռ" ೝࣝ݁Ռ#
    ςϯϓϨʔτ
    ೖྗը૾
    " # $

    View Slide

  4. ରԠ఺୳ࡧʹ͓͚Δෆมੑ
    4
    த෦େֶϩΰ
    த෦େֶϩΰ
    ΩʔϙΠϯτݕग़
    ʴ
    ΞϑΟϯྖҬਪఆ
    ΩʔϙΠϯτݕग़
    ʴ
    ౳ํੑεέʔϧਪఆ
    ΩʔϙΠϯτݕग़
    ճసมԽ εέʔϧมԽ ࣹӨมԽ

    ख๏ɿ)BSSJT '"45 ख๏ɿ4*'5 463' ख๏ɿ)FTTJBO"
    ff
    i
    OF .4&3

    View Slide

  5. w ಛ௃఺ ΩʔϙΠϯτ
    ͷݕग़ͱಛ௃ྔͷهड़
    %P(ʹΑΔεέʔϧͱΩʔϙΠϯτݕग़
    ޯ഑ํ޲ώετάϥϜʹΑΔಛ௃هड़
    4*'5 4DBMF*OWBSJBOU'FBUVSF5SBOTGPSN
    <-PXF *$$7>
    5
    த෦େֶϩΰ
    த෦େֶϩΰ

    εέʔϧͱΩʔϙΠϯτݕग़ εέʔϧෆมੑͷ֫ಘ
    ΩʔϙΠϯτͷϩʔΧϥΠζ ϊΠζʹର͢Δؤ݈ੑΛ֫ಘ
    ˠ
    ˠ
    ً౓มԽʹର͢Δؤ݈ੑΛ֫ಘ
    ˠ
    ΦϦΤϯςʔγϣϯͷࢉग़ ճసෆมੑͷ֫ಘ
    ಛ௃ྔͷهड़
    ˠ
    ΩʔϙΠϯτͷ࠲ඪͱεέʔϧ
    ΦϦΤϯςʔγϣϯ
    ࣍ݩͷಛ௃ϕΫτϧ

    View Slide

  6. 4*'5ɿεέʔϧͱΩʔϙΠϯτݕग़
    6
    த෦େֶϩΰ
    த෦େֶϩΰ

    w %P( %J
    ff
    FSFODFPG(BVTTJBO
    εέʔϧεϖʔε͔ΒεέʔϧͱΩʔϙΠϯτΛݕग़
    ฏ׈Խը૾
    %P(ը૾
    -
    -
    -
    -
    -
    -
    -
    -
    4DBMF
    ΦΫλʔϒ

    4DBMF
    ̎ΦΫλʔϒ


    σ0

    4σ0

    2σ0

    2σ0
    ΩʔϙΠϯτຖʹεέʔϧΛࢉग़ˠεέʔϧʹର͢ΔෆมੑΛಘΔʢεέʔϧෆมͳಛ௃ྔʣ

    View Slide

  7. 4*'5ɿޯ഑ํ޲ώετάϥϜʹΑΔಛ௃هड़
    7
    த෦େֶϩΰ
    த෦େֶϩΰ

    w ΩʔϙΠϯτຖʹը૾ہॴಛ௃ྔΛهड़
    ޯ഑ํ޲ώετάϥϜ͔ΒΦϦΤϯςʔγϣϯΛࢉग़
    εέʔϧʹରԠͨ͠ಛ௃هड़΢Οϯυ΢ΛΦϦΤϯςʔγϣϯํ޲ʹճస
    ॎԣ̐෼ׂͨ͠ϒϩοΫ͝ͱʹํ޲ͷޯ഑ํ޲ώετάϥϜΛಛ௃ྔͱͯ͠هड़
    ʢϒϩοΫYํ޲ˠ࣍ݩͷಛ௃ྔʣ
    ෼ׂ
    ෼ׂ
    ํ޲ͷޯ഑ώετάϥϜ
    ಛ௃هड़΢Οϯυ΢
    ճసͱεέʔϧʹෆมͳಛ௃ྔͷهड़͕Մೳ
    ΦϦΤϯςʔγϣϯ
    ಛ௃هड़΢Οϯυ΢

    View Slide

  8. ໢ບਆܦઅࡉ๔ͱҰ࣍ࢹ֮໺
    8
    த෦େֶϩΰ
    த෦େֶϩΰ

    w ਓؒͷࢹ֮ػೳॲཧͱͷྨࣅੑ
    IUUQTCTEOFVSPJOGKQXJLJड༰໺
    Ұ࣍ࢹ֮໺ʢ7໺ʣ
    Ұ࣍ࢹ֮໺ͷେ෦෼ͷࡉ๔͸εϦοτޫ͕ಛఆͷ
    ํҐΛ޲͘ͱ͖ʹͷΈڧ͘൓ԠʢํҐબ୒ੑʣ
    ໢ບਆܦઅࡉ๔
    த৺पล፰߅ܕͷड༰໺
    ໌Δ͍ޫΛड༰໺ͷத৺෦ DFOUFS
    ʹরࣹͨ͠ͱ
    ͖ʹڵฃԠ౴
    ڵฃԠ౴ɿେ
    ڵฃԠ౴ɿখ
    %P(ॲཧʹΑΔεέʔϧਪఆ ޯ഑ํ޲ಛ௃

    View Slide

  9. 4*'5Ҏ߱ͷΞϓϩʔν
    9
    த෦େֶϩΰ
    த෦େֶϩΰ

    w ΩʔϙΠϯτݕग़
    ߴ଎Խɿ463'<&$$7>
    ίʔφʔʹಛԽɿ'"45<&$$7>
    w ಛ௃هड़
    ߴ଎Խɿ463'<&$$7>
    ೋ஋ಛ௃ɿ
    #3*&'<&$$7> 03#<&$$7>
    #3*4,<*$$7> $"3%<*$$7>
    w ରԠ఺୳ࡧ͔Βը૾෼ྨλεΫ΁
    #BHPGWJTVBMXPSE<$713>
    画像技術の最前線
    局所勾配特徴抽出技術*
    ―SIFT 以降のアプローチ―
    Gradient-based Image Local Features
    藤吉弘亘** 安倍 満***
    Hironobu FUJIYOSHI and Mitsuru AMBAI
    Key words image local feature, SIFT, SURF, FAST, RIFF, BRIEF, BRISK, ORB, CARD
    1.は じ め に
    画像のスケール変化や回転に不変な特徴量を抽出する
    Scale Invariant Feature Transform(SIFT)1)は,特定物体
    認識だけではなく画像合成や画像分類など多くのアプリケ
    ーションに利用されている.SIFT の処理過程は,キーポ
    イント検出と特徴量記述の二段階からなり,各処理は以下
    の流れとなる.
    キーポイント検出
    ] 1.スケールとキーポイント検出
    2.キーポイントのローカライズ
    特徴量記述
    ] 3.オリエンテーションの算出
    4.特徴量の記述
    キーポイント検出処理では,Difference-of-Gaussian
    (DoG)処理によりキーポイントのスケールと位置を検出
    する.特徴量記述では,スケール内の勾配情報からオリエ
    ンテーションを求め,キーポイント周辺領域(パッチ)を
    オリエンテーション方向に回転させて特徴量を記述するこ
    とで,回転に対して不変な特徴量を抽出する.SIFT で
    は,キーポイント検出処理における DoG 画像の生成や,
    特徴量記述処理における勾配ヒストグラム算出の計算コス
    トが高いという問題がある.この問題を解決する高速化の
    手法として,2006 年に SURF2)が提案された.SURF で
    は,各処理において積分画像を利用した Box フィルタを
    用いることで,SIFT と比較して約 10 倍の高速化を実現
    した.近年では,高性能な PC だけではなく携帯端末等の
    小型デバイスでの利用を考慮し,キーポイント検出と特徴
    量記述の各処理を高速化および省メモリ化した手法が提案
    されている.図 1 に,キーポイント検出と特徴量記述に
    おける SIFT 以降の変遷を示す.キーポイント検出処理で
    は,コーナーに特化することで高速かつ省メモリを実現し
    た FAST3)が提案された.FAST は,後述の特徴量記述手
    法と組み合わせて使用される.特徴量記述の処理において
    は,SIFT や SURF と同様に勾配特徴量に基づく RIFF4)
    が 2010 年に提案された.SIFT では 128 次元,SURF で
    は 64 次元,RIFF では 100 次元のベクトルが抽出される.
    高次元のベクトル特徴量は,高い識別能力をもつ反面,メ
    モリ消費量が多く,2010 年以降ではベクトル特徴量の代
    わりにバイナリコードで特徴量を記述する手法が提案され
    ている.パッチからバイナリコードを直接生成する手法と
    して BRIEF5),BRISK6),ORB7)が,間接的にバイナリコ
    ードを生成する手法として CARD8)が提案された.このよ
    うに,SIFT と SURF 以降では,キーポイント検出および
    特徴量記述において,高速化と省メモリ化を同時に実現す
    る手法が展開されている.
    本稿では,SIFT や SURF 以降のアプローチが,キーポ
    イント検出と特徴量記述の各処理おいて,どのように展開
    されてきたかを各手法のアルゴリズムとともに解説する.
    2.キーポイント検出
    SIFT では,複数の DoG 画像からキーポイントを検出
    するのと同時に,キーポイントを中心とした特徴量記述を
    行う範囲を表すスケールも検出する.DoG 画像の作成は
    計算コストが高い上,複数の DoG 画像を保持するための
    メモリを要するという問題点がある.キーポイント検出の
    高速化として,SURF では積分画像を利用した Box フィ
    ルタを用い高速化を実現した.Edward らが提案した
    精密工学会誌 Vol.77, No.12, 2011 1109
    *原稿受付 平成 23 年 10 月 3 日
    **中部大学工学部情報工学科(愛知県春日井市松
    本町 1200)
    ***(株)デンソーアイティーラボラトリ(東京都渋
    谷区二丁目 15 番 1 号渋谷クロスタワー 25 階)
    藤吉弘亘
    1997 年中部大学大学院博士後期課程修了.博士
    (工学)
    .1997∼2000 年米カーネギーメロン大学
    ロボット工学研究所 Postdoctoral Fellow.2000
    年 中 部 大 学 講 師,2004 年 同 大 准 教 授 を 経 て 2010 年 よ り 同 大 教 授.
    2005∼2006 年米カーネギーメロン大学ロボット工学研究所客員研究員.
    2010 年計算機視覚,動画像処理,パターン認識・理解の研究に従事.2005
    年度ロボカップ研究賞.2009 年度情報処理学会論文誌コンピュータビジョ
    ンとイメージメディア優秀論文賞.2009 年度山下記念研究賞.情報処理学
    会,電子情報通信学会,電気学会,IEEE 各会員.
    安倍 満
    2007 年慶應義塾大学大学院博士後期課程修了.博士(工学)
    .2007 年株式
    会社デンソーアイティーラボラトリシニアエンジニア.2011 年画像センシ
    ングシンポジウム(SSII)オーディエンス賞.2011 年画像の認識・理解シ
    ンポジウム(MIRU)インタラクティブセッション賞.パターン認識・理
    解,コンピュータビジョンの研究に従事.電子情報通信学会,IEEE 各
    会員.
    ౻٢ ҆ഒɿzہॴޯ഑ಛ௃நग़4*'5Ҏ߱ͷΞϓϩʔνz
    ਫ਼ີ޻ֶձࢽ೥݄ר߸QQ

    View Slide

  10. ೋ஋ಛ௃ͷޮՌ
    10
    த෦େֶϩΰ
    த෦େֶϩΰ

    w ڑ཭ܭࢉ·ͰؚΊͨॲཧ଎౓Λൺֱ
    w ೋ஋ಛ௃ͷར఺
    େ෯ͳলϝϞϦԽ͕Մೳ
    ϋϛϯάڑ཭ʹΑΔߴ଎ͳڑ཭ܭࢉɹˠ44&֦ு໋ྩͰߴ଎ʹԋࢉՄೳ
    4*'5ʢϢʔΫϦουڑ཭ʣ
    463'ʢϢʔΫϦουڑ཭ʣ
    ೋ஋ಛ௃ʢ'"45#3*&'ϋϛϯάڑ཭ʣ
    ೋ஋ಛ௃ʢ'"4503#ϋϛϯάڑ཭ʣ
    ॲཧ࣌ؒ
    ΩʔϙΠϯτݕग़ ಛ௃ྔهड़ ڑ཭ܭࢉ
    44&ɿ*OUFMࣾͷϚΠΫϩϓϩηοαʢ$16.16ʣʹ಺ଂ͞Ε֦ͨு໋ྩηοτ
    03#
    #3*&'
    ೋ஋ಛ௃

    View Slide

  11. ը૾ೝٕࣝज़ͷมભ

    าߦऀݕग़
    )0(47.

    ޯ഑ํ޲ώετάϥϜ
    إݕग़
    )BSSMJLF"EB#PPTU

    CPYϑΟϧλʹΑΔ໌҉ࠩ
    ը૾Ϛονϯά
    4*'5

    εέʔϧෆม
    ಛ௃఺ݕग़ɾهड़
    Ϋϥεͷը૾෼ྨ
    4*'5#0'

    #BHදݱͷಋೖ
    ಛఆ෺ମೝࣝ
    ը૾෼ྨ
    ෺ମݕग़
    ηϚϯςΟοΫ
    ηάϝϯςʔγϣϯ
    खॻ͖਺ࣈͷ෼ྨ
    $//

    ৞ΈࠐΈχϡʔϥϧωοτϫʔΫ
    ϐΫηϧࠩ෼3BOEPN'PSFTU

    ϐΫηϧࠩ෼ʹΑΔςΫενϟ
    463'

    ੵ෼ը૾ʹΑΔߴ଎Խ
    '"45

    ܾఆ໦ʹΑΔίʔφʔݕग़
    03#

    ڭࢣͳֶ͠शʹΑΔϖΞબ୒
    'JTIFS7FDUPS

    ֬཰ີ౓ؔ਺ʹΑΔಛ௃දݱ
    7-"%

    ؔ࿈͢Δ78ͷಛ௃
    +PJOU)0(

    $P)0(

    )0(ͷڞىදݱ
    #3*&'

    ೋ஋ಛ௃

    $"3%

    ಛ௃ྔͷೋ஋Խ
    5FYUPO

    ϑΟϧλόϯΫ
    $)"-$

    ہॴࣗݾ૬ؔ
    Ϋϥϥε෼ྨ*NBHF/FU
    "MFY/FU

    ৞ΈࠐΈχϡʔϥϧωοτϫʔΫ
    ೥୅
    7((


    (PPH-F/FU


    3FT/FU

    ૚ʴεΩοϓߏ଄
    ଟΫϥε෺ମݕग़
    'BTUFS3$//

    3FHJPO1SPQPTBM
    :0-0

    4JOHMFTIPU
    44%

    4JOHMFTIPU
    '$/

    ৞ΈࠐΈʹΑΔηάϝϯςʔγϣϯ
    141/FU

    1ZSBNJE1PPMJOH
    .%FU

    ϚϧνϨϕϧಛ௃ϐϥϛου
    Πϯελϯεηάϝϯςʔγϣϯ
    .BTL3$//

    &OEUPFOEͰ࣮ݱ
    7J5

    7JTJPO5SBOTGPSNFS
    4&/FU

    &YDJUBUJPO
    %*/0

    44-7J5
    4JN$-3

    ରরֶश
    .P$P

    ରরֶश
    #:0-

    ϙδςΟϒϖΞͷΈ
    4FH/FU

    &ODPEFSEFDPEFS %FFQ-BCW

    "USPVT৞ΈࠐΈ
    4FH'PSNFS

    7J5
    %&53

    5SBOTGPSNFS
    '1/

    ಛ௃ϐϥϛου
    6/FU

    '$/Λར༻
    &
    ffi
    DJFOU/FU

    /"4
    $//
    7JTJPO5SBOTGPSNFS
    4VQFS(MVF

    (//ͷར༻
    $FOUFS/FU

    ΞϯΧʔϨε
    ڭࢣ͋Γֶश
    ࣗݾڭࢣ͋Γֶश
    ୈੈ୅ɿϋϯυΫϥϑτಛ௃

    View Slide

  12. w ը૾ೝࣝλεΫ͝ͱʹద੾ͳϋϯυΫϥϑτಛ௃Λݚڀऀ͕ઃܭ
    w ద੾ͳϋϯυΫϥϑτಛ௃ͱ͸
    ΧςΰϦ಺ͷมಈʹରͯ͠ڞ௨ͳಛ௃ˠը૾ہॴಛ௃ྔ
    ୈ̍ੈ୅ɿϋϯυΫϥϑτಛ௃

    γϧΤοτʹ஫໨
    ʢޯ഑ܭࢉʣ
    าߦऀͷมಈཁҼɿ࢟੎ɺମܕɺ෰૷౳
    ը૾ہॴಛ௃
    ʢ)0(ಛ௃ྔʣ

    View Slide

  13. w ෺ମݕग़λεΫɿ͋ΔΧςΰϦ෺ମ͕ը૾தͷͲ͜ʹ͋Δ͔ΛٻΊΔ໰୊
    إݕग़<7JPMB $713>
    าߦऀݕग़<%BMBM $713>
    ୈ̍ੈ୅ɿ෺ମݕग़λεΫʹ͓͚ΔϋϯυΫϥϑτಛ௃

    ػցֶश
    ϋϯυΫϥϑτಛ௃
    )BBSMJLFಛ௃ྔ
    إݕग़ྫ
    )0(ಛ௃ྔ
    าߦऀݕग़ྫ
    "EB#PPTU
    47.
    ػցֶश
    ϋϯυΫϥϑτಛ௃

    View Slide

  14. w ը૾෼ྨλεΫɿը૾தͷ෺ମ͕Ͳͷ෺ମΧςΰϦͰ͋Δ͔Λ෼ྨ͢Δ໰୊
    #BHPGGFBUVSFT #0'
    CBHPGWJTVBMXPSET #P78
    <$TVSLB $713>
    ୈ̍ੈ୅ɿը૾෼ྨλεΫʹ͓͚ΔϋϯυΫϥϑτಛ௃

    l'"$&z
    ˠ
    ˠ ˠ
    ˠ ˠ ˠ l#*,&z

    4*'5ಛ௃ྔ
    4*'5ಛ௃ྔ
    #BHPGWJTVBMXPSET
    #BHPGWJTVBMXPSET
    ػցֶश
    ϋϯυΫϥϑτಛ௃
    47.
    47.

    View Slide

  15. w ػցֶशʹΑΓϩʔϨϕϧಛ௃Λ૊Έ߹ΘͤͯϛυϧϨϕϧಛ௃Λ֫ಘ
    +PJOU)BBSMJLF<.JUB 1".*>
    إը૾ʹ͓͚Δߏ଄తͳྨࣅੑΛଊ͑Δ
    ͨΊʹෳ਺ͷಛ௃ྔͷڞىੑΛදݱ
    +PJOU)0(<.JUTVJ *&*$&>
    $P)0(<8BUBOBCF *14+>
    าߦऀͷߏ଄తͳྨࣅੑΛଊ͑ΔͨΊʹෳ਺ͷಛ௃ྔͷڞىੑΛදݱ
    ୈੈ୅ɿϋϯυΫϥϑτಛ௃














    +PJOU)BBSMJLFGFBUVSF
    ϙδςΟϒΫϥε
    ωΨςΟϒΫϥε
    j =ʢ̍̍̍ʣ= ̓
    ͖͍͠஋ॲཧ
    )0(ಛ௃ྔͷڞىදݱ

    ޻
    ߨ

    ػ
    4
    Ѫ
    Te
    F
    ya
    h
    த෦େֶ
    ޻ֶ෦ϩϘο
    τཧ޻ֶՊ
    ڭत
    ౻٢߂࿱
    ػց஌֮ˍϩϘςΟ
    Ϋεάϧʔϓ
    487-8501
    Ѫ஌ݝय़೔Ҫࢢদຊொ1200
    Tel 0568-51-9096
    Fax 0568-51-9409
    [email protected]
    http://vision.cs.chubu.ac.jp
    ത࢜
    ʢ޻ֶʣ
    M
    த෦େֶ
    ޻ֶ෦ϩϘο
    τཧ޻ֶՊ
    ڭत
    ౻٢߂࿱
    ػց஌֮ˍϩϘςΟ
    Ϋεάϧʔϓ
    487-8501
    Ѫ஌ݝय़೔Ҫࢢদຊொ1200
    Tel 0568-51-9096
    Fax 0568-51-9409
    [email protected]
    http://vision.cs.chubu.ac.jp
    ത࢜
    ʢ޻ֶʣ
    MACHINE PERCEPTION AND ROBOTICS GROUP
    Chubu University
    Department of Robotics Science and Technology
    College of Engineering
    Professor
    Dr.Eng.
    Hironobu Fujiyoshi
    Machine Perception and Robotics Group
    1200 Matsumoto-cho, Kasugai, Aichi
    487-8501 Japan
    Tel +81-568-51-9096
    Fax +81-568-51-9409
    [email protected]
    http://vision.cs.chubu.ac.jp
    w )0(ಛ௃ྔͷޯ഑ͷؔ܎ੑΛଊ͑Δ
    r $P)0(<8BUBOBCF>
    w ہॴྖҬͷޯ഑ϖΞΛྦྷੵͨ͠ಉ࣌ਖ਼ىߦྻ
    r +PJOU)0(<ࡾҪ>
    w #PPTJOHʹΑΓࣝผʹ༗ޮͳہॴྖҬͷؔ܎ੑΛ֫ಘ
    $P)0(
    )0(ಛ௃ྔͷڞىදݱ
    த෦େֶ
    ޻ֶ෦৘ใ޻ֶՊ
    ߨࢣ
    ࢁԼོٛ
    ػց஌֮ˍϩϘςΟ
    Ϋ
    487-8501
    Ѫ஌ݝय़೔Ҫࢢদຊ
    Tel 0568-51-9670
    Fax 0568-51-1540
    [email protected]
    http://vision.cs.chubu
    MACHINE PERCEPTIO
    Chubu University
    Department of Compu
    த෦େֶ
    ޻ֶ෦ϩϘο
    τཧ޻ֶՊ
    ڭत
    ౻٢߂࿱
    ػց஌֮ˍϩϘςΟ
    Ϋεάϧʔϓ
    487-8501
    Ѫ஌ݝय़೔Ҫࢢদຊொ1200
    Tel 0568-51-9096
    Fax 0568-51-9409
    [email protected]
    http://vision.cs.chubu.ac.jp
    ത࢜
    ʢ޻ֶʣ
    MACHINE PERCEPTION AND ROBOTICS GROUP
    Chubu University
    Department of Robotics Science and Technology
    ࢁԼོٛ
    ػց஌֮ˍϩϘςΟ
    Ϋεάϧʔ
    487-8501
    Ѫ஌ݝय़೔Ҫࢢদຊொ1200
    Tel 0568-51-9670
    Fax 0568-51-1540
    [email protected]
    http://vision.cs.chubu.ac.jp
    MACHINE PERCEPTION AND R
    Chubu University
    Department of Computer Scie
    College of Engineering
    Lecturer
    Dr.Eng.
    Takayoshi Yam
    Machine Perception and Robo
    1200 Matsumoto-cho, Kasuga
    487-8501 Japan
    Tel +81-568-51-9670
    Fax +81-568-51-1540
    [email protected]
    http://vision.cs.chubu.ac.jp
    MACHINE PERCEPTION AND R
    ౻٢߂࿱
    ػց஌֮ˍϩϘςΟ
    Ϋεάϧʔϓ
    487-8501
    Ѫ஌ݝय़೔Ҫࢢদຊொ1200
    Tel 0568-51-9096
    Fax 0568-51-9409
    [email protected]
    http://vision.cs.chubu.ac.jp
    ത࢜
    ʢ޻ֶʣ
    MACHINE PERCEPTION AND ROBOTICS GROUP
    Chubu University
    Department of Robotics Science and Technology
    College of Engineering
    Professor
    Dr.Eng.
    Hironobu Fujiyoshi
    Machine Perception and Robotics Group
    1200 Matsumoto-cho, Kasugai, Aichi
    487-8501 Japan
    Tel +81-568-51-9096
    Fax +81-568-51-9409
    [email protected]
    http://vision.cs.chubu.ac.jp
    MACHINE PERCEPTION AND ROBOTICS GROUP
    w )0(ಛ௃ྔͷޯ഑ͷؔ܎ੑΛଊ͑Δ
    r $P)0(<8BUBOBCF>
    w ہॴྖҬͷޯ഑ϖΞΛྦྷੵͨ͠ಉ࣌ਖ਼ىߦྻ
    r +PJOU)0(<ࡾҪ>
    w #PPTJOHʹΑΓࣝผʹ༗ޮͳہॴྖҬͷؔ܎ੑΛ֫ಘ
    $P)0(
    +PJOU)0(

    View Slide

  16. ը૾ೝٕࣝज़ͷมભ

    าߦऀݕग़
    )0(47.

    ޯ഑ํ޲ώετάϥϜ
    إݕग़
    )BSSMJLF"EB#PPTU

    CPYϑΟϧλʹΑΔ໌҉ࠩ
    ը૾Ϛονϯά
    4*'5

    εέʔϧෆม
    ಛ௃఺ݕग़ɾهड़
    Ϋϥεͷը૾෼ྨ
    4*'5#0'

    #BHදݱͷಋೖ
    ಛఆ෺ମೝࣝ
    ը૾෼ྨ
    ෺ମݕग़
    ηϚϯςΟοΫ
    ηάϝϯςʔγϣϯ
    खॻ͖਺ࣈͷ෼ྨ
    $//

    ৞ΈࠐΈχϡʔϥϧωοτϫʔΫ
    ϐΫηϧࠩ෼3BOEPN'PSFTU

    ϐΫηϧࠩ෼ʹΑΔςΫενϟ
    463'

    ੵ෼ը૾ʹΑΔߴ଎Խ
    '"45

    ܾఆ໦ʹΑΔίʔφʔݕग़
    03#

    ڭࢣͳֶ͠शʹΑΔϖΞબ୒
    'JTIFS7FDUPS

    ֬཰ີ౓ؔ਺ʹΑΔಛ௃දݱ
    7-"%

    ؔ࿈͢Δ78ͷಛ௃
    +PJOU)0(

    $P)0(

    )0(ͷڞىදݱ
    #3*&'

    ೋ஋ಛ௃

    $"3%

    ಛ௃ྔͷೋ஋Խ
    5FYUPO

    ϑΟϧλόϯΫ
    $)"-$

    ہॴࣗݾ૬ؔ
    Ϋϥϥε෼ྨ*NBHF/FU
    "MFY/FU

    ৞ΈࠐΈχϡʔϥϧωοτϫʔΫ
    ೥୅
    7((


    (PPH-F/FU


    3FT/FU

    ૚ʴεΩοϓߏ଄
    ଟΫϥε෺ମݕग़
    'BTUFS3$//

    3FHJPO1SPQPTBM
    :0-0

    4JOHMFTIPU
    44%

    4JOHMFTIPU
    '$/

    ৞ΈࠐΈʹΑΔηάϝϯςʔγϣϯ
    141/FU

    1ZSBNJE1PPMJOH
    .%FU

    ϚϧνϨϕϧಛ௃ϐϥϛου
    Πϯελϯεηάϝϯςʔγϣϯ
    .BTL3$//

    &OEUPFOEͰ࣮ݱ
    7J5

    7JTJPO5SBOTGPSNFS
    4&/FU

    &YDJUBUJPO
    %*/0

    44-7J5
    4JN$-3

    ରরֶश
    .P$P

    ରরֶश
    #:0-

    ϙδςΟϒϖΞͷΈ
    4FH/FU

    &ODPEFSEFDPEFS %FFQ-BCW

    "USPVT৞ΈࠐΈ
    4FH'PSNFS

    7J5
    %&53

    5SBOTGPSNFS
    '1/

    ಛ௃ϐϥϛου
    6/FU

    '$/Λར༻
    &
    ffi
    DJFOU/FU

    /"4
    $//
    7JTJPO5SBOTGPSNFS
    4VQFS(MVF

    (//ͷར༻
    $FOUFS/FU

    ΞϯΧʔϨε
    ڭࢣ͋Γֶश
    ࣗݾڭࢣ͋Γֶश
    ୈੈ୅ɿ$//ʹΑΔಛ௃දݱ֫ಘ

    View Slide

  17. $//ͷಛ௃நग़աఔ
    17
    த෦େֶϩΰ
    த෦େֶϩΰ
    $POWMBZFS 1PPMJOHMBZFS
    *OQVUMBZFS $POWMBZFS 1PPMJOHMBZFS '$MBZFS 0VUQVUMBZFS
    '$MBZFS
    *OQVUJNBHF
    YY











    'MBUUFO
    LFSOFMT
    TJ[FYY
    TUSJEF
    QBEEJOH
    LFSOFMT
    TJ[FYY
    TUSJEF
    QBEEJOH




    ɹˠ৞ΈࠐΈͱϓʔϦϯάΛଟஈʹ܁Γฦ͢͜ͱͰ޿͍ൣғͷॏཁͳಛ௃Λू໿͠
    ɹɹશ݁߹૚ͰҐஔʹґଘ͠ͳ͍ಛ௃Λ֫ಘʢϩʔΧϧˠϛυϧˠάϩʔόϧʣ
    ৞ΈࠐΈ ϓʔϦϯά ৞ΈࠐΈ ϓʔϦϯά શ݁߹ શ݁߹

    View Slide

  18. w σʔληοτຖʹద੾ͳΧʔωϧΛֶशʹΑΓ֫ಘ
    ֶशʹΑͬͯ֫ಘͨ͠Χʔωϧ
    18
    த෦େֶϩΰ
    த෦େֶϩΰ
    Examples from ImageNet
    จࣈೝࣝɹɹ
    ./*45
    Ϋϥεը૾෼ྨ
    ʢ*NBHF/FUʣ
    ,FSOFM Y

    ,FSOFM Y


    View Slide

  19. $//Χʔωϧ ૚໨
    ͷہॴಛ௃ྔͱͯ͠ͷޮՌ
    த෦େֶϩΰ
    த෦େֶϩΰ
    )0(ʢํ޲ͷޯ഑ಛ௃ʣ
    "MFY/FUʢޯ഑Χʔωϧຕʣ
    "MFY/FUʢશΧʔωϧຕʣ
    › › › › › › › › ›
    ࣍ݩ
    ࣍ݩ
    ࣍ݩ
    ಛ௃ྔͷࢉग़ํ๏
    )0(ɿ֤ըૉͰޯ഑ͷܭࢉ
    "MFY/FUɿ֤ըૉ୯ҐͰΧʔωϧͷ৞ΈࠐΈ
    ηϧຖʹώετάϥϜΛ࡞੒
    ϒϩοΫྖҬʹΑΔਖ਼نԽ

    View Slide

  20. $//Χʔωϧ ૚໨
    ͷہॴಛ௃ྔͱͯ͠ͷޮՌ
    த෦େֶϩΰ
    த෦େֶϩΰ
    w าߦऀݕग़λεΫʹͯධՁ */3*"1FSTPO%BUBTFU

    )0(47.˔
    )0(ʹࣅͨݸͷΧʔωϧ47.˔
    ݸશͯͷΧʔωϧ47.˔
    $//ಛ௃ DPOW
    47.˔
    ˠ"MFY/FUͷֶशʹΑΓ֫ಘͨ͠Χʔωϧ͸ϋϯυΫϥϑτಛ௃ )0(
    ΑΓߴੑೳ
    "MFY/FU BMMLFSOFMTʣ
    "MFY/FU DPOWʣ
    )0(
    "MFY/FU TFMFDUFELFSOFMTʣ

    View Slide

  21. w $//ͷߏ଄ΛλεΫʹ߹Θͤͯઃܭ
    ը૾ೝࣝλεΫʹ͓͚Δ$//ͷॊೈੑ
    ʜ
    z1FSTPOz
    W
    H
    W′

    H′

    H
    W
    W
    H
    ըૉ͝ͱʹΫϥε֬཰Λग़ྗ
    W
    H
    1FSTPO
    1FSTPO 1FSTPO
    1FSTPO
    C
    ʜ
    ʜ
    ɿ৞ΈࠐΈ૚ ɿϓʔϦϯά૚ ɿΞοϓαϯϓϦϯά૚
    C
    άϦου͝ͱʹ
    Ϋϥε֬཰ͱݕग़ྖҬΛग़ྗ
    Ϋϥε֬཰Λग़ྗ
    ೖྗ ग़ྗ
    C + B
    $//
    ग़ྗ݁ՌͷՄࢹԽ
    $//
    $//
    ෺ମݕग़
    ը૾෼ྨ
    ηϚϯςΟοΫ
    ηάϝϯςʔγϣϯ

    View Slide

  22. ը૾ೝٕࣝज़ͷมભ

    าߦऀݕग़
    )0(47.

    ޯ഑ํ޲ώετάϥϜ
    إݕग़
    )BSSMJLF"EB#PPTU

    CPYϑΟϧλʹΑΔ໌҉ࠩ
    ը૾Ϛονϯά
    4*'5

    εέʔϧෆม
    ಛ௃఺ݕग़ɾهड़
    Ϋϥεͷը૾෼ྨ
    4*'5#0'

    #BHදݱͷಋೖ
    ಛఆ෺ମೝࣝ
    ը૾෼ྨ
    ෺ମݕग़
    ηϚϯςΟοΫ
    ηάϝϯςʔγϣϯ
    खॻ͖਺ࣈͷ෼ྨ
    $//

    ৞ΈࠐΈχϡʔϥϧωοτϫʔΫ
    ϐΫηϧࠩ෼3BOEPN'PSFTU

    ϐΫηϧࠩ෼ʹΑΔςΫενϟ
    463'

    ੵ෼ը૾ʹΑΔߴ଎Խ
    '"45

    ܾఆ໦ʹΑΔίʔφʔݕग़
    03#

    ڭࢣͳֶ͠शʹΑΔϖΞબ୒
    'JTIFS7FDUPS

    ֬཰ີ౓ؔ਺ʹΑΔಛ௃දݱ
    7-"%

    ؔ࿈͢Δ78ͷಛ௃
    +PJOU)0(

    $P)0(

    )0(ͷڞىදݱ
    #3*&'

    ೋ஋ಛ௃

    $"3%

    ಛ௃ྔͷೋ஋Խ
    5FYUPO

    ϑΟϧλόϯΫ
    $)"-$

    ہॴࣗݾ૬ؔ
    Ϋϥϥε෼ྨ*NBHF/FU
    "MFY/FU

    ৞ΈࠐΈχϡʔϥϧωοτϫʔΫ
    ೥୅
    7((


    (PPH-F/FU


    3FT/FU

    ૚ʴεΩοϓߏ଄
    ଟΫϥε෺ମݕग़
    'BTUFS3$//

    3FHJPO1SPQPTBM
    :0-0

    4JOHMFTIPU
    44%

    4JOHMFTIPU
    '$/

    ৞ΈࠐΈʹΑΔηάϝϯςʔγϣϯ
    141/FU

    1ZSBNJE1PPMJOH
    .%FU

    ϚϧνϨϕϧಛ௃ϐϥϛου
    Πϯελϯεηάϝϯςʔγϣϯ
    .BTL3$//

    &OEUPFOEͰ࣮ݱ
    7J5

    7JTJPO5SBOTGPSNFS
    4&/FU

    &YDJUBUJPO
    %*/0

    44-7J5
    4JN$-3

    ରরֶश
    .P$P

    ରরֶश
    #:0-

    ϙδςΟϒϖΞͷΈ
    4FH/FU

    &ODPEFSEFDPEFS %FFQ-BCW

    "USPVT৞ΈࠐΈ
    4FH'PSNFS

    7J5
    %&53

    5SBOTGPSNFS
    '1/

    ಛ௃ϐϥϛου
    6/FU

    '$/Λར༻
    &
    ffi
    DJFOU/FU

    /"4
    $//
    7JTJPO5SBOTGPSNFS
    4VQFS(MVF

    (//ͷར༻
    $FOUFS/FU

    ΞϯΧʔϨε
    ڭࢣ͋Γֶश
    ࣗݾڭࢣ͋Γֶश
    ୈੈ୅ɿ7J5ʹΑΔಛ௃දݱ֫ಘ

    View Slide

  23. w 5SBOTGPSNFSΛ7JTJPO෼໺ʹԠ༻ͨ͠ը૾෼ྨख๏
    ը૾Λݻఆύονʹ෼ղ
    4FMGBUUFOUJPOʹΑΔύονؒͷؔ܎ੑΛଊ͑Δ
    *NBHF/FUͳͲͷΫϥε෼ྨλεΫͰ4P5"
    7JTJPO5SBOTGPSNFS<%PTPWJUTLJZ *$-3>

    Figure 1: The Transformer - model architecture.
    3.1 Encoder and Decoder Stacks
    Scaled Dot-Product Attention Multi-Head Attention
    Figure 2: (left) Scaled Dot-Product Attention. (right) Multi-Head Attention consists of several
    attention layers running in parallel.
    3.2.1 Scaled Dot-Product Attention
    We call our particular attention "Scaled Dot-Product Attention" (Figure 2). The input consists of
    queries and keys of dimension dk
    , and values of dimension dv
    . We compute the dot products of the
    query with all keys, divide each by
    p
    dk
    , and apply a softmax function to obtain the weights on the
    values.
    In practice, we compute the attention function on a set of queries simultaneously, packed together
    into a matrix Q. The keys and values are also packed together into matrices K and V . We compute
    the matrix of outputs as:
    Attention(Q, K, V ) = softmax(
    QKT
    p
    dk
    )V (1)
    The two most commonly used attention functions are additive attention [2], and dot-product (multi-
    plicative) attention. Dot-product attention is identical to our algorithm, except for the scaling factor
    of 1
    p
    dk
    . Additive attention computes the compatibility function using a feed-forward network with
    a single hidden layer. While the two are similar in theoretical complexity, dot-product attention is
    much faster and more space-efficient in practice, since it can be implemented using highly optimized
    matrix multiplication code.
    Scaled Dot-Product Attention Multi-Head Attention
    Figure 2: (left) Scaled Dot-Product Attention. (right) Multi-Head Attention consists of several
    attention layers running in parallel.
    3.2.1 Scaled Dot-Product Attention
    We call our particular attention "Scaled Dot-Product Attention" (Figure 2). The input consists of
    queries and keys of dimension dk
    , and values of dimension dv
    . We compute the dot products of the
    query with all keys, divide each by
    p
    dk
    , and apply a softmax function to obtain the weights on the
    values.
    In practice, we compute the attention function on a set of queries simultaneously, packed together
    5SBOTGPSNFS
    7J5

    View Slide

  24. w 7J5͕ͲͷΑ͏ͳಛ௃Λଊ͍͑ͯΔ͔ΛධՁ<5VKJ BS9JW>
    ("/ʹΑΔελΠϧม׵Ͱੜ੒ͨ͠ը૾Λೖྗ
    ධՁର৅ɿ7J5 $// ਓؒ
    ධՁࢦඪ
    ܗঢ়ͷׂ߹ਖ਼͍͠ܗঢ়Ϋϥεͱࣝผ ਖ਼͍͠ܗঢ়Ϋϥεͱࣝผਖ਼͍͠ςΫενϟΫϥεͱࣝผ

    7J5ʹ͓͚Δಛ௃දݱ֫ಘ
    ("/ʹΑΔ
    ελΠϧม׵
    ೣ ৅
    ೣˠܗঢ়Λଊ͍͑ͯΔ
    ৅ˠςΫενϟΛଊ͍͑ͯΔ
    $//
    PS
    7J5
    ෼ྨ݁Ռ

    View Slide

  25. w 7J5͕ͲͷΑ͏ͳಛ௃Λଊ͍͑ͯΔ͔ΛධՁ<5VKJ BS9JW>
    $//͸ςΫενϟΛॏࢹ
    7J5͸෺ମͷܗঢ়Λॏࢹ
    7J5ʹ͓͚Δಛ௃දݱ֫ಘ

    <>3(FJSIPT l*."(&/&553"*/&%$//4"3&#*"4&%508"3%45&9563&*/$3&"4*/(4)"1&#*"4*.1307&4"$$63"$:"/%30#645/&44 z*$-3
    blished as a conference paper at ICLR 2019
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    AlexNet
    100
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    GoogLeNet
    100
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    VGG−16
    100
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    ResNet−50
    100
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    Humans
    99 97 99 100100 98
    44 49 48
    54
    75
    40
    28 24
    18
    87
    100100100100
    90
    original greyscale silhouette edges texture
    Figure 2: Accuracies and example stimuli for five different experiments without cue conflict.
    anging biases, and discovering emergent benefits of changed biases. We show that the texture bias
    standard CNNs can be overcome and changed towards a shape bias if trained on a suitable data
    . Remarkably, networks with a higher shape bias are inherently more robust to many different
    age distortions (for some even reaching or surpassing human performance, despite never being
    <>ΑΓҾ༻
    <>45VMJ l"SF$POWPMVUJPOBM/FVSBM/FUXPSLTPS5SBOTGPSNFSTNPSFMJLFIVNBOWJTJPO zBS9JW
    Fig. 4: Error consistency results on SIN dataset.
    distribution (i.e., p 2 D240 corresponding to the off-diagonal
    entries of the 16 ⇥ 16 confusion matrix) by taking the error
    counts to be the off-diagonal elements of the confusion ma-
    trix:
    ei j = CMi, j, 8 j 6= i
    In this context, the inter-class JS distance compares what
    classes were misclassified as what.
    An interesting finding is that, instead of a strong correla-
    tion shown by class-wise JS in Figure 3(a), Figure 3(b) sug-
    gests that there is no correlation of inter-class JS distance with
    Cohen’s k implying that this metric gives insight beyond Co-
    hen’s k in measuring error-consistency with humans.
    0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
    1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0
    Fraction of 'texture' decisions
    Fraction of 'shape' decisions
    Shape categories


































    ResNet−50
    AlexNet
    VGG−16
    GoogLeNet
    ViT−B_16
    ViT−L_32
    Humans (avg.)
    Fig. 5: Shape bias for different networks for the SIN dataset
    (Geirhos et al., 2019). Vertical lines indicate averages.
    <>ΑΓҾ༻
    $//ͱਓؒͷൺֱ
    7J5 ˝˝
    $// ˔˙˛˔
    ਓؒ
    ♦︎

    ͷൺֱ
    ςΫενϟ
    ܗঢ়

    View Slide

  26. 4FH'PSNFSʹΑΔηϚϯςΟοΫηάϝϯςʔγϣϯ<9JF /FVS*14>
    IUUQTXXXZPVUVCFDPNXBUDI W+.P32[;F6
    ϊΠζͷӨڹΛड͚ੑೳ͕ྼԽ ϊΠζʹର͠ϩόετ
    ˠ5SBOTGPSNFS͸෺ମͷܗঢ়Λֶश͢ΔͨΊɼςΫενϟϊΠζͷӨڹΛड͚ʹ͍͘

    View Slide

  27. ࢦ਺Ҡಈฏۉ
    #BDLQSPQ
    w ੜెωοτϫʔΫͱڭࢣωοτϫʔΫͷ̎ͭͷωοτϫʔΫΛར༻ͨࣗ͠ݾڭࢣ͋Γֶश
    ੜెͷग़ྗ෼෍͕ڭࢣͷग़ྗ෼෍ʹۙͮ͘Α͏ʹֶश
    7J5ͷࣗݾڭࢣ͋Γֶशɿ%*/0<$BSPO *$$7>
    4PGUNBY
    4PGUNBY
    $FOUFS
    TUPQHSBE
    ಛ௃ྔ
    Τϯίʔμ ϓϩδΣΫλ TIBSQFOJOH ֬཰෼෍
    MPDBM
    HMPCBM
    ੜెωοτϫʔΫ
    ڭࢣωοτϫʔΫ
    σʔλ૿෯ ଛࣦܭࢉ
    7J5
    7J5
    .-1
    .-1
    ہॴྖҬΛΫϩοϓ
    ʢ೉͍͠໰୊ʣ
    ޿͍ൣғΛΫϩοϓ
    ʢ༏͍͠໰୊ʣ

    View Slide

  28. w ϑΝΠϯνϡʔχϯάʹΑΔධՁ
    4VQɿ*NBHF/FU,Λ༻͍ͯڭࢣ͋Γֶशͨ͠7J5ΛϑΝΠϯνϡʔχϯά
    %*/0ɿ*NBHF/FU,Λ༻͍ͯࣗݾڭࢣ͋Γֶशͨ͠7J5ΛϑΝΠϯνϡʔχϯά
    w ࠷ऴ૚ͷ೚ҙͷ)FBEʹ͓͚Δ"UUFOUJPOXFJHIUΛՄࢹԽ
    Emerging Properties in Self-Supervised Vision Transformers
    Mathilde Caron1,2 Hugo Touvron1,3 Ishan Misra1 Herv´
    e Jegou1
    Julien Mairal2 Piotr Bojanowski1 Armand Joulin1
    1 Facebook AI Research 2 Inria⇤ 3 Sorbonne University
    V] 24 May 2021

    7J5ͷࣗݾڭࢣ͋Γֶशɿ%*/0<$BSPO *$$7>
    keep 60% of the mass. On top, we show the resulting masks for
    a ViT-S/8 trained with supervision and DINO. We show the best
    head for both models. The table at the bottom compares the Jac-
    card similarity between the ground truth and these masks on the
    validation images of PASCAL VOC12 dataset.
    Table 6: Transfer learning by finetuning pretrained models on
    different datasets. We report top-1 accuracy. Self-supervised
    pretraining with DINO transfers better than supervised pretraining.
    Cifar10
    Cifar100
    INat18
    INat19
    Flwrs Cars INet
    ViT-S/16
    Sup. [69] 99.0 89.5 70.7 76.6 98.2 92.1 79.9
    DINO 99.0 90.5 72.0 78.2 98.5 93.0 81.5
    ViT-B/16
    Sup. [69] 99.0 90.8 73.2 77.7 98.4 92.1 81.8
    DINO 99.1 91.7 72.6 78.6 98.8 93.0 82.8
    In Table 7, we report different model variants as we add
    or remove components. First, we observe that in the absence
    of momentum, our framework does not work (row 2) and
    more advanced operations, SK for example, are required to
    avoid collapse (row 9). However, with momentum, using
    SK has little impact (row 3). In addtition, comparing rows 3
    and 9 highlights the importance of the momentum encoder
    for performance. Second, in rows 4 and 5, we observe that
    7 BYOL X 7 7 MSE
    8 MoCov2 X 7 7 INCE
    9 SwAV 7 X X CE
    SK: Sinkhorn-Knopp, MC: Multi-Cro
    CE: Cross-Entropy, MSE: Mean Square E
    Fi
    Pa
    ua
    th
    fe
    wi
    M
    30
    with different patch sizes, 16 ⇥ 16, 8
    also compare to ViT-B with 16 ⇥ 16 a
    the models are trained for 300 epochs
    performance greatly improves as we de
    patch. It is interesting to see that perfo
    improved without adding additional p
    the performance gain from using sma
    the expense of throughput: when usi
    throughput falls to 44 im/s, vs 180 im/
    ˠڭࢣ͋ΓࣄલֶशϞσϧ 4VQ
    Λ௒͑ΔੑೳΛൃش
    ˠϥϕϧ৘ใ͕ແͯ͘΋ਖ਼֬ͳ෺ମྖҬΛ֫ಘ

    View Slide

  29. 7J5ͷ೿ੜख๏

    7J5
    <"%PTPWJUTLJZ *$-3>
    %*/0
    <.$BSPO *$$7>
    .P$PW
    <9$IFO *$$7>
    ."&
    <,)F BS9JW>
    4JN.*.
    <;9JF $713>
    #&J5
    <)#BP *$-3>
    $P"U/FU
    <;%BJ /FVS*14>
    $W5
    <)8V *$$7>
    557J5
    <-:VBO *$$7>
    -F7J5
    <#(SBIBN *$$7>
    'PDBM"UUFOUJPO
    <+:BOH /FVS*14>
    $48JO
    <9%POH $713>
    %"5
    <;9JB BS9JW>
    %FGPSNBCMFͳ"UUFOUJPOΛ֫ಘ
    ॎԣɾہॴେҬతͳ"UUFOUJPOΛ֫ಘ
    $PBSTFUP'JOFͳ"UUFOUJPOΛ֫ಘ
    4XJO
    <;-JV *$$7>
    4XJOW
    <;-JV $713>
    7JEFP4XJO
    <;-JV $713>
    %FJ5
    <)5PVWSPO *$.->
    .-1.JYFS
    <*5PMTUJLIJO /FVS*14>
    H.-1
    <)-JV /FVS*14>
    /"47J5
    <$(POH *$-3>
    "VUP'PSNFSW 4

    <.$IFO /FVS*14>
    "VUP'PSNFS
    <.$IFO *$$7>
    7J5"4
    <94V BS9JW>
    $POW.JYFS
    <"5SPDLNBO BS9JW>
    $POW/F9U
    <;-JV $713>
    3FT/FUTUSJLFTCBDL
    <38JHIUNBO /FVS*148>
    %FJ5ͷֶश৚݅ἧ͑ͨΒ3FT/FU΋ࢮΜͰͳ͍
    $POW͸ڧ͍
    )PXEP7J5XPSL
    1BSL *$-3>
    %P7J5TFFMJLF$//
    <.3BHIV /FVS*14>
    .FUB'PSNFS
    <8:V $713>
    %ZOBNJD7J5
    <:3BP /FVS*14>
    ෆཁͳύονಛ௃Λ
    ΨϯϕϧιϑτϚοΫεͰ੍ޚ
    $'7J5
    <.$IFO BS9JW>
    "7J5
    <):JO $713>
    "SF5SBOTGPSNFSTNPSFSPCVTUUIBO$//T
    <:#BJ /FVS*14>
    6OEFSTUBOEJOH3PCVTUOFTTPG5SBOTGPSNFSTGPS*NBHF$MBTTJ
    fi
    DBUJPO
    <4#IPKBOBQBMMJ *$$7>
    "EBQUJWF$PNQVUBUJPO5JNF "$5
    Ͱ੍ޚ
    4QBSTF.-1
    <$5BOH """*>
    %&53
    $BSJPO &$$7>
    1W5
    <88BOH *$$7>
    4FH'PSNFS
    <&9JF *$$7>
    1W5W
    <88BOH $7.+>
    5SBOT("/
    <:+JBOH /FVS*14>
    7J5("/
    <,-FF *$-3>
    4&53
    <4;IFOH $713>
    .VMUJ."&
    <3#BDINBOO BS9JW>
    ϚϧνλεΫԽ
    $PO7J5
    <4E`"TDPMJ *$.->
    "UUFOUJPOʹTPGU$POWΛ௥Ճ
    TPGU$POW"UUFOUJPOͱ3FMQPTΛͲΕ͚ͩೖΕΔ͔Λ੍ޚ
    5/5
    <,)BO /FVS*14>
    5SBOTGPSNFS&YQMBJOBCJMJUZ
    <)$IFGFS $713>
    .VMUJTDBMF7J5
    <)'BO *$$7>
    7JTJPO-POHGPSNFS
    <1;IBOH *$$7>
    5JNF4GPSNFS
    <(#FSUBTJVT *$.->
    7J7J5
    <""SOBC *$$7>
    4UZMF4XJO
    <#;IBOH $713>
    J#05
    <+;IPV *$-3>
    )PXUP6OEFSTUBOE."&
    <4$BP BS9JW>
    ."&ͷ੒ޭʹ͍ͭͯཧ࿦తͳূ໌Λߦ͏
    $FJ5
    <,:VBO *$$7>
    444XJO
    <;9JF BS9JW>
    ࣗݾڭࢣTXJO
    %FFQ7J5
    <%;IPV BS9JW>
    %15
    <33BOGUM *$$7>
    .PWJMF7J5
    <4.FIUB *$-3>
    .PCJMF'PSNFS
    <:$IFO $713>
    $BJ5
    <)5PVWSPO *$$7>
    7JTVBMJ[JOH1BJSFE*NBHF4JNJMBSJUZJO5SBOTGPSNFS/FUXPSLT
    <4#MBDL 8"$7>
    (SBQIPSNFS
    <$:JOH /FVS*14>
    ࢝·ΓͷޚࡾՈ
    $POW4"
    /FVSBM"SDIJUFDUVSF4FBSDI
    4FMG4VQFSWJTFE7J5
    ޮ཰తͳ4FMG"UUFOUJPO7J5ͷఏҊ
    $POWͰ΋શવྑ͍
    "OBMZTJTPG7J5
    4QFDJ
    fi
    DUBTL
    ѻ͍ͮΒ͍ɼվྑ
    ಛఆXJOEPX಺Ͱ4"ܭࢉɽ$//ͷ3FT/FUతͳѻ͍
    3FMQPT΍-/ͷҐஔΛม͑ͯੑೳ޲্
    ಈը૾ʹ֦ு
    4QBUJBM3FEVDUJPO"UUFOUJPO 43"
    Ͱޮ཰తʹ4"Λܭࢉ
    4"ͷվྑ
    4"ݟ௚ͯ͠ਂ૚Խʹ੒ޭ
    ෺ମݕग़ʹॳΊͯ5SBOTGPSNFSೖΕͨ
    ࣌୅͸5SBOTGPSNFS
    *NBHF/FUͰ΋ߴੑೳʹͨ͠
    1PPMͰ΋ྑ͍
    άϥϑදݱ
    -PDBMUP(MPCBMͳಛ௃ଊ͑Δ QSVOJOHܥ
    .PWJMF/FUGVTJPO
    /FTUFE5SBOTGPSNFS
    <4E`"TDPMJ """*>
    %B7J5
    <.%JOH BS9JW>
    νϟϯωϧͱۭؒํ޲Ͱ4"
    .BY7J5
    <;5V BS9JW>
    ஥ؒʹೖΔ
    -77J5
    <;+JBOH /FVS*14>
    ηϚϯςΟοΫͳ
    τʔΫϯϥϕϧ΋ೖΕΔ ஈ֊తʹUPLFOΛऔΓೖΕΔ
    ஥ؒʹೖΔ
    ("/ 7JEFP3FDPHOJUJPO
    4FHNFOUFS
    <34USVEFM *$$7>
    4FHNFOUBUJPO
    (SPVQ7J5
    <+9V $713>
    %FQUIFTUJNBUJPO
    0UIFS
    5SBOT1PTF
    <4:BOH *$$7>
    )VNBOQPTFFTUJNBUJPO
    1PJOUDMPVET
    %&53
    <*.JTSB *$$7>
    1PJOU5SBOTGPSNFS
    <);IBP *$$7>
    %PCKFDUEFUFDUJPO
    4FHNFOUBUJPO
    .4"ͷ༗ޮΛௐࠪ
    େن໛σʔληοτͰ7J5Λֶश͢Δͱઙ͍૚Ͱہॴಛ௃Λଊ͍͑ͯΔ
    7J5Λਂ૚Խͯ͠ߴੑೳʹ͢ΔͨΊʹ
    4"ͷվྑͱΫϥετʔΫϯͷҐஔΛม͑ͨ
    2,7ΛDPOWͰܭࢉ
    'FFEGPSXBSEʹ$POW௥Ճ
    $POW͔ͯ͠Β4"
    3FT/FUͱ7J5Λ*NBHF/FU஥ؒͰධՁɼ·ͨ"EWFSTBSJBM&YBNQMFT΍ۭؒత߈ܸ ը૾ճస
    ͰϞσϧͷؤ݈ੑΛௐࠪ
    ͭͷը૾ʹࣸΔಉ͡෺ମྖҬΛଊ͑ղऍՄೳͳࢹ֮ԽΛߦ͏ɽ·ͨը૾ݕࡧλεΫͰ3FT/FUͱ7J5Ͱଊ͑ͯΔ෺ମ͕ҧ͏
    7J5ͱ$//Ͱֶश৚݅ҧ͏͔Βෆެฏɽނʹެฏʹ্ͨ͠Ͱఢରత߈ܸʹؤ݈͔Ͳ͏͔Λௐࠪ
    "UUFOUJPOSPMMPVU͸ೝࣝ෺ମͱແؔ܎ͳύον͕ڧௐ͞ΕΔ͔Βޯ഑ϕʔεͰϚοϓΛՄࢹԽ
    ɾ%&53ͷҾ༻਺
    ɾ7J5ͷҾ༻਺
    ɾ%FJ5ͷҾ༻਺
    ɾ4XJOͷҾ༻਺
    ˞೥݄೔࣌఺
    ɿ
    ɿ
    ɿ
    ɿ
    "SF$POWPMVUJPOBM/FVSBM/FUXPSLTPS5SBOTGPSNFST
    NPSFMJLFIVNBOWJTJPO
    <45VMJ $PH4DJ>
    5SBOTGPSNFS͸෺ମͷܗঢ়Λɼ$//͸෺ମͷςΫενϟΛཔΓʹ෺ମೝࣝͯ͠Δ͜ͱ͕൑໌
    $ZDMF.-1
    <4$IFO *$-3>
    4.-1
    <5:V 8"$7>
    ۭؒYνϟϯωϧͷνϟϯωϧΛαΠΫϧ
    ۭؒํ޲ʹγϑτ
    "4.-1
    <%-JBO *$-3>
    .-1Ͱۭؒ৘ใࠞͥΕ͹ྑ͍

    View Slide

  30. 7J5ͷ೿ੜख๏ʹ͓͚Δಛ௃දݱ֫ಘ<ຳӜ .*36>

    w 7J5ͱ೿ੜख๏Ϟσϧͷൺֱ
    3FT/FUɿ˙
    $POW/FYU-ɿ˙
    .-1.JYFS-ɿ˙
    1PPM.ɿ˙
    4XJO-ɿ˙
    7J5-ɿ˙
    'SBDUJPOPGbTIBQF`EFDJTJPOT
    'SBDUJPOPGbUFYUVSF`EFDJTJPOT
    ςΫενϟ
    ܗঢ়
    ਖ਼ղϥϕϧɿೣ
    ςΫενϟɿ৅
    ਖ਼ղϥϕϧɿं
    ςΫενϟɿϘτϧ
    ೿ੜख๏ΑΓ7J5ͷํ͕
    ܗঢ়Λଊ͍͑ͯΔ͜ͱ͕൑໌

    View Slide

  31. w ୈ̍ੈ୅ɿϋϯυΫϥϑτಛ௃
    ը૾ೝࣝλεΫ͝ͱʹద੾ͳϋϯυΫϥϑτಛ௃Λݚڀऀ͕ઃܭ
    w ୈ̎ੈ୅ɿ$//ʹΑΔಛ௃දݱ֫ಘ
    ֶशʹΑΓΧʔωϧΛࣗಈઃܭ
    ৞ΈࠐΈͱϓʔϦϯάΛଟஈʹ܁Γฦ͢͜ͱͰ޿͍ൣғͷॏཁͳಛ௃Λू໿͠ɼ
    શ݁߹૚ͰҐஔʹґଘ͠ͳ͍ಛ௃Λ֫ಘ
    w ୈ̏ੈ୅ɿ7J5ʹΑΔಛ௃දݱ֫ಘ
    $//Ͱ͸֫ಘͰ͖ͳ͔ͬͨܗঢ়ಛ௃Λ֫ಘՄೳˠϊΠζʹରͯ͠ؤ݈
    ϥϕϧ৘ใ͕ແͯ͘΋ਖ਼֬ͳ෺ମྖҬΛ֫ಘʢࣗݾڭࢣ͋Γֶशʣ
    ·ͱΊɿہॴಛ௃ྔɿը૾ೝࣝʹ͓͚Δಛ௃දݱ֫ಘͷมભ

    Emerging Properties in Self-Supervised Vision Transformers
    Mathilde Caron1,2 Hugo Touvron1,3 Ishan Misra1 Herv´
    e Jegou1
    Julien Mairal2 Piotr Bojanowski1 Armand Joulin1
    1 Facebook AI Research 2 Inria⇤ 3 Sorbonne University
    Figure 1: Self-attention from a Vision Transformer with 8 ⇥ 8 patches trained with no supervision. We look at the self-attention of
    the [CLS] token on the heads of the last layer. This token is not attached to any label nor supervision. These maps show that the model
    automatically learns class-specific features leading to unsupervised object segmentations.
    Abstract 1. Introduction
    Transformers [70] have recently emerged as an alternative
    94v2 [cs.CV] 24 May 2021
    ୈੈ୅ɿϋϯυΫϥϑτಛ௃
    ୈੈ୅ɿ$//ʹΑΔಛ௃දݱ֫ಘ
    ୈੈ୅ɿ7J5ʹΑΔಛ௃දݱ֫ಘ

    View Slide

  32. ػց஌֮ϩϘςΟΫεݚڀάϧʔϓ
    த෦େֶϩΰ
    த෦େֶϩΰ
    ڭत
    ౻٢߂࿱ Hironobu Fujiyoshi E-mail: [email protected]
    1997೥ த෦େֶେֶӃത࢜ޙظ՝ఔमྃ, 1997೥ ถΧʔωΪʔϝϩϯେֶϩϘοτ޻ֶݚڀॴPostdoctoral Fellow, 2000೥ த෦େֶ޻ֶ෦৘ใ޻ֶՊߨࢣ, 2004೥ த෦େֶ।ڭत,
    2005೥ ถΧʔωΪʔϝϩϯେֶϩϘοτ޻ֶݚڀॴ٬һݚڀһ(ʙ2006೥), 2010೥ த෦େֶڭत, 2014೥໊ݹ԰େֶ٬һڭत.

    ܭࢉػࢹ֮ɼಈը૾ॲཧɼύλʔϯೝࣝɾཧղͷݚڀʹैࣄɽ

    ϩϘΧοϓݚڀ৆(2005೥)ɼ৘ใॲཧֶձ࿦จࢽCVIM༏ल࿦จ৆(2009೥)ɼ৘ใॲཧֶձࢁԼه೦ݚڀ৆(2009೥)ɼը૾ηϯγϯάγϯϙδ΢Ϝ༏लֶज़৆(2010, 2013, 2014೥) ɼ
    ిࢠ৘ใ௨৴ֶձ ৘ใɾγεςϜιαΠΤςΟ࿦จ৆(2013೥)ଞ
    ڭत
    ࢁԼོٛ Takayoshi Yamashita E-mail:[email protected]
    2002೥ ಸྑઌ୺Պֶٕज़େֶӃେֶത࢜લظ՝ఔमྃ, 2002೥ ΦϜϩϯגࣜձࣾೖࣾ, 2009೥ த෦େֶେֶӃത࢜ޙظ՝ఔमྃ(ࣾձਓυΫλʔ), 2014೥ த෦େֶߨࢣɼ
    2017೥ த෦େֶ।ڭतɼ2021೥ த෦େֶڭतɽ

    ਓͷཧղʹ޲͚ͨಈը૾ॲཧɼύλʔϯೝࣝɾػցֶशͷݚڀʹैࣄɽ

    ը૾ηϯγϯάγϯϙδ΢Ϝߴ໦৆(2009೥)ɼిࢠ৘ใ௨৴ֶձ ৘ใɾγεςϜιαΠΤςΟ࿦จ৆(2013೥)ɼిࢠ৘ใ௨৴ֶձPRMUݚڀձݚڀ঑ྭ৆(2013೥)ड৆ɽ
    ߨࢣ
    ฏ઒ཌྷ Tsubasa Hirakawa E-mail:[email protected]
    2013೥ ޿ౡେֶେֶӃത࢜՝ఔલظऴྃɼ2014೥ ޿ౡେֶେֶӃത࢜՝ఔޙظೖֶɼ2017೥ த෦େֶݚڀһ (ʙ2019೥)ɼ2017೥ ޿ౡେֶେֶӃത࢜ޙظ՝ఔमྃɽ2019
    ೥ த෦େֶಛ೚ॿڭɼ2021೥ த෦େֶߨࢣɽ2014೥ ಠཱߦ੓๏ਓ೔ຊֶज़ৼڵձಛผݚڀһDC1ɽ2014೥ ESIEE Paris٬һݚڀһ (ʙ2015೥)ɽ
    ίϯϐϡʔλϏδϣϯɼύλʔϯೝࣝɼҩ༻ը૾ॲཧͷݚڀʹैࣄ

    View Slide