$30 off During Our Annual Pro Sale. View Details »

Ensemble Feature for Person Re-Identification

Ensemble Feature for Person Re-Identification

論文LT会で作成したPerson Re-Identification論文の説明資料です。

Masanori YANO

April 19, 2019
Tweet

More Decks by Masanori YANO

Other Decks in Science

Transcript

  1. 画像処理&機械学習 論文LT会 #1
    Ensemble Feature for Person Re-Identification
    2019年4月19日(金)
    矢農 正紀 (Masanori YANO)

    View Slide

  2. 論文
    2
    Ensemble Feature for Person Re-Identification
    論文のURL: https://arxiv.org/abs/1901.05798
    ⇒ Person Re-IdentificationのタスクでSOTAと主張
    著者は、中国のArmy Engineering University of PLA
    2019年のACMの会議に投稿している模様
    選んだ理由
    ・Person Re-Identificationのタスクに関心があった
    ・arXiv論文を検索してみたら上位で、新しかった
    ・手法を見たら、他のタスクへの応用の可能性もありそう

    View Slide

  3. Person Re-Identificationとは
    3
    異なるカメラ間の同一人物の認識
    ⇒ 入力された人物の画像が、既知のデータの誰に近いか?
    引用元: https://www.sciencedirect.com/science/article/pii/S0262885614000262
    http://www.ee.cuhk.edu.hk/~xgwang/CUHK_identification.html
    CUHK03データセットのサンプル
    異なるカメラの配置の例

    View Slide

  4. Person Re-Identificationの課題
    4
    画像によって、人の映り方が変化する
    [1] カメラの画角
    ・人は移動するので、カメラと人の位置関係が変化
    ・撮影したカメラが異なると、画角は(当然)変化
    [2] 人の姿勢
    ・人は歩いているので、手足などポーズが変化する
    (人の画像) = (背格好など人の特徴)+(画角・姿勢の情報)
    ⇒ 画角・姿勢に引きずられず
    人の特徴を抽出したい
    引用元: https://arxiv.org/abs/1807.05284

    View Slide

  5. Person Re-Identificationのアプローチ
    5
    二枚の画像を入力し、同じか違うか判定するCNN
    ⇒ 既知のデータが多くなると、判定が必要な回数が増大
    一枚の画像の特徴ベクトルを出力するCNNを学習
    [1] 距離学習
    Triplet Loss, Contrastive Loss, Cosine Lossなど
    ⇒ 似ている画像は近い特徴ベクトルに、違う画像は遠く
    [2] 生成モデル
    GAN, GAN及びVAE
    ⇒ 生成モデルを活用して、人の姿勢に依存しない出力に
    [3] アンサンブル学習
    本論文の提案手法

    View Slide

  6. 本論文のアイデア
    6
    複数のCNNを個別に学習させ、合わせて使うと性能が向上
    ただし、学習の時間や管理にかかるコストが増大して不便
    ⇒ 途中で分岐する、一つのCNNによって解決を図る
    ResNet-50べ―スの同じモデルを最大8個アンサンブル学習させた結果

    View Slide

  7. 本論文が提案するEnsembleNet
    7
    一つのCNNを、途中から複数のブランチに分岐
    ・論文ではResNet-50のres_conv5_1レイヤーから分岐
    ・ブランチごとに、Average Poolingの処理が違う(後述)
    ・Reductionでは、全結合ではなく1×1の畳み込みで削減
    ・損失関数は、論文では、単純なsoftmax log-loss(後述)
    EnsembleNetのアーキテクチャ

    View Slide

  8. EnsembleNetで実装した内容(1/2)
    8
    各々のブランチで、特徴ベクトルの本数を変える
    [1] 一番目は、Global Average Poolingで1本
    [2] 二番目では、2DのAdaptive Average Poolingで2本
    [3] 三番目では、2DのAdaptive Average Poolingで3本
    ⇒ 例えば、二番目で「上半身と下半身」の特徴が得られる
    EnsembleNetのアーキテクチャ

    View Slide

  9. EnsembleNetで実装した内容(2/2)
    9
    損失関数は、クラス数に対するsoftmax log-loss

    = − ෍
    =1

    log
    exp(

    (
    ) +
    )
    σ
    =1
    exp(

    (
    ) +
    )
    Market, Duke, CUHK03のデータセットでSOTA
    EnsembleNetの評価結果
    横軸はブランチの数で「3」の結果を採用

    View Slide

  10. まとめ
    10
    本論文では、EnsembleNetを提案
    ・途中で分岐する、一つのCNNで学習・推論が可能
    ・ResNet-50ベースでPerson Re-IdentificationのSOTA
    ・今後は、アテンションモデルとの結合を試みるとのこと
    所感
    ・シンプルなため、本当に効果があるなら役立ちそう
    ・実装も難しくなさそう(論文はPyTorchで実装とのこと)
    ・初めて見たときから「本当?」と、汎用性に少し疑問

    View Slide