日本ディープラーニング協会主催 CVPR 2021 技術報告会（登内）

Slide 1

Slide 1 text

日本ディープラーニング協会主催 CVPR 2021 技術報告会ハッシュタグ #今こそ学ぼう #CVPR2021 #AISCHOLAR

Slide 2

Slide 2 text

自己紹介　登内雅人（Masato Tonouchi）　　株式会社ミクシィ　　みてね事業部開発グループ MLエンジニア　　AI-Scholar: 記事リンク, Twitter: @tono2700 経歴・2018年9月〜 2020年3月株式会社ミクシィ学生アルバイト・2020年4月〜株式会社ミクシィエンジニア趣味・運動、スポーツ観戦、YouTube、コーヒーアウトプット・mixi tech note #5 ・日本ディープラーニング協会主催 CVPR 2020 技術報告会・今期の私は凄かったぞ！！！ DSやMLはビジネスに役立つ！

Slide 3

Slide 3 text

mixi, Inc. 全世界1000万人(※)以上の利用者 ※（株）ミクシィ調べ。iOS・Androidアプリ登録者数、ブラウザ版登録者数の合計。

Slide 4

Slide 4 text

主な機能

Slide 5

Slide 5 text

論文を読むメリット去年の取り組み ● モデル改善における課題 ○ モデル更新における関連作業に、チームの半年分の工数が必要という見積もりに ○ 今後も更新作業は複数回ある ● 最新論文サーベイにより解決 https://www.slideshare.net/ssuser995b9a1/ml-245520906 論文：Towards Backward-Compatible Representation Learning 著者：Yantao Shen, Yuanjun Xiong, Wei Xia, Stefano Soatto 出典：CVPR 2020 as oral ※一つ目の紹介論文の先行研究になっている手法

Slide 6

Slide 6 text

今日話すこと 1. Compatibility-Aware Heterogeneous Visual Search ○ 表現学習モデルのニューラルアーキテクチャサーチ（ NAS） ○ 先行研究であるBackward-Compatible Training(BCT)を応用し、互換性のあるアーキテクチャ探索を実現する 2. Composing Photos Like a Photographe ○ プロの写真家が行っている美的構成を自動化するためのトリミング位置予測 ○ 写真の美的構図ルールを明示的にモデリング

Slide 7

Slide 7 text

表現学習モデルの精度改善の課題分類結果ではなく特徴ベクトルを使用する点入力画像別々にトレーニングされたモデルは、一般に同じ埋め込み空間にはならない

Slide 8

Slide 8 text

表現学習モデルの精度改善の課題引用元：https://arxiv.org/abs/2003.11942 ・大規模なデータに対して　 Backfill（再推論）が必要・分散処理、整合性チェッ　ク、切り替え処理など、　考えることが多い DB移行と同等以上の開発・作業が必要モデル更新の度にコストがかかる

Slide 9

Slide 9 text

Towards Backward-Compatible Representation Learning 　後方互換性を担保しつつ、　モデルの更新を行える手法　を提案。記事リンク引用元：https://arxiv.org/abs/2003.11942

Slide 10

Slide 10 text

損失関数に旧分類器の誤差を追加互換性基準損失関数引用元：https://arxiv.org/abs/2003.11942 実用性の面でも優れている

Slide 11

Slide 11 text

Compatibility-Aware Heterogeneous Visual Search クエリとギャラリーセットでそれぞれ異なる埋め込みモデルを使用するHeterogeneousな設定引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Duggal_Compatibility-Aware_Heterogeneous_Visual_Search_CVPR_2021_paper.html

Slide 12

Slide 12 text

アーキテクチャと互換性の関係引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Duggal_Compatibility-Aware_Heterogeneous_Visual_Search_CVPR_2021_paper.html

Slide 13

Slide 13 text

実験結果 ● 精度低下をパラゴン設定の1.6% 以内に維持しつつ、ベースラインと同等のパフォーマンスを達成 ● ベースラインのアーキテクチャを BCTでトレーニングした結果よりも、 CMP-NASで見つけたアーキテクチャが遥かに良い精度を記録している引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Duggal_Compatibility-Aware_Heterogeneous_Visual_Search_CVPR_2021_paper.html

Slide 14

Slide 14 text

まとめ ● BCTによる後方互換性のある学習によって、軽量化したクエリモデルを使用するHeterogeneousな検索システムを実現できる ○ 精度低下も ● 実験により、アーキテクチャも互換性の影響要因になることを示した

Slide 15

Slide 15 text

良い写真について考える ● 大量の写真の中からフォトブックや１秒動画に使う写真を選ばなければならない ● アルバムの最初の方に良い写真が並んでいる方が良い「良い写真」を選び出すレコメンド機能が必要

Slide 16

Slide 16 text

良い写真とは？子供が写っている方が良い？表情は？笑顔の方が良い？景色が良い写真？動きのある動画？たくさん人が写っている写真？泣いてる顔も良い？明るいor 暗い？

Slide 17

Slide 17 text

論文２タイトル：Composing Photos Like a Photographer 著者：Chaoyi Hong, Shuaiyuan Du, Ke Xian, Hao Lu, Zhiguo Cao, Weicai Zhong 概要 ● プロの写真家が行っている美的構成を自動化するための切り出し位置予測 ● 写真の美的構図ルールを明示的にモデリング

Slide 18

Slide 18 text

Image Croppingの基礎技術 1. Attention-Guided Image Cropping ○ Saliency Mapやenergy functionsによって推定する ○ 顕著なオブジェクトや情報のある領域を残せることが，   良い画像切り出しであるという考え   ○ サムネイル画像などの用途でよく使われる     2. Aesthetics-Informed Image Cropping ○ 美しさに基づいた手法 ○ アノテーションされた美的ラベルで学習 ■ クラス分類、ランキング学習など ○ モデルが美的構成について獲得できることを期待引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html 　　　 https://arxiv.org/pdf/1702.00503.pdf ＜ランキング学習 ※順序関係を利用して学習

Slide 19

Slide 19 text

既存研究 ● VFN ○ プロの写真家がとった写真から、切り出し候補を作成 ○ ○ 損失関数　を全てのペア候補で算出し、総和を最小化 ● DIP ○ SaliencyMapで候補ビューを絞り込む ● VPN ○ 蒸留を用いて推論を高速化 ● GAIC ○ グリッドアンカーを設計して候補の検索空間を削減引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html

Slide 20

Slide 20 text

既存手法課題 ● 予測結果に対する解釈性がない ● 美的構成が暗黙的に獲得されることを前提とした手法引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html

Slide 21

Slide 21 text

Composing Photos Like a Photographer ● 良い写真において「構図」が重要 ● 構図ルールを明示的にモデルに組み込む手法を提案どんな理由で選ばれたのか分かる良い写真・良い構図という曖昧な予測問題に対し、解釈性を与える引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html

Slide 22

Slide 22 text

写真の構図とは？引用元: https://fotoria.net/ja/blog/bc/photo-shoot-techniques/sc/composition/ar/16-photo-layouts/ 三分割構図三角構図対角線構図シンメトリー構図

Slide 23

Slide 23 text

CACNet（Composition-Aware Image Cropping Network）引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html

Slide 24

Slide 24 text

Composition Branch ● 構図ルールを予測するClassificationモデルを学習 ○ composition dataset [2]を使用 ○ 次ページの9つの構図ルール ● 要素の識別により、画像切り出しに合理的で信頼できる手がかりを与えることができる引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html

Slide 25

Slide 25 text

Composition Branchが識別する構図ルール上２行が学習データセットからサンプルしたもの、下２行はComposition Branchによって予測された例引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html

Slide 26

Slide 26 text

KCM 1. 各構図ルールに対応する CAMを作成 2. 各CAMを結合してKCMを作成 3. KCMを入力画像サイズに UpSumpling 画像が一つ以上の構図ルールに従うことを考慮する必要がある例えば、海辺に立つ人物の画像は， Hor.の規則と RoT.の規則の両方に従う可能性がある引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html

Slide 27

Slide 27 text

Cropping Branch ● KCMと優れたクロッピングの関係を学習 ○ KCMによるアンカーポイントの重み付け ○ バウンディングボックスの回帰引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html

Slide 28

Slide 28 text

CACNetの解釈性引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html

Slide 29

Slide 29 text

データセット ● FCDB（1743枚、うちトレーニング用が 1395枚） ● FLMS（500枚、全て評価用に使用）実験結果引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html

Slide 30

Slide 30 text

失敗ケース ● CACNetの限界 ○ GroundTruthの切り出しサイズが比較的小さい場合に失敗 ○ 従来手法では、候補ビューにサイズの小さい領域も多数含めれば対応可能 ○ CACNetは全体を見て切り出し位置を決定する手法。トレードオフ引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html

Slide 31

Slide 31 text

応用例同じシーンの3枚の写真。「鉢植えの位置」だけを変えている引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html

Slide 32

Slide 32 text

まとめ ● 構図ルールを明示的にモデリングし、解釈可能な画像切り出しを行うCACNetを提案し、精度・パフォーマンス面で有効性を示した感想 ● 構図ルールが学習可能なものだとは思わなかった ● 良い写真・良い構図を求めるような抽象的な推論タスクと「解釈性」の組み合わせは相性が良いと感じた