Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
日本ディープラーニング協会主催 CVPR 2021 技術報告会 ハッシュタグ #今こそ学ぼう #CVPR2021 #AISCHOLAR
Slide 2
Slide 2 text
自己紹介 登内 雅人(Masato Tonouchi) 株式会社ミクシィ みてね事業部 開発グループ MLエンジニア AI-Scholar: 記事リンク, Twitter: @tono2700 経歴 ・2018年9月〜 2020年3月 株式会社ミクシィ 学生アルバイト ・2020年4月〜 株式会社ミクシィ エンジニア 趣味 ・運動、スポーツ観戦、YouTube、コーヒー アウトプット ・mixi tech note #5 ・日本ディープラーニング協会主催 CVPR 2020 技術報告会 ・今期の私は凄かったぞ!!! DSやMLはビジネスに役立つ!
Slide 3
Slide 3 text
mixi, Inc. 全世界1000万人(※)以上の利用者 ※(株)ミクシィ調べ。iOS・Androidアプリ登録者数、ブラウザ版登録者数の合計。
Slide 4
Slide 4 text
主な機能
Slide 5
Slide 5 text
論文を読むメリット 去年の取り組み ● モデル改善における課題 ○ モデル更新における関連作業に、 チームの半年分の工数が必要という 見積もりに ○ 今後も更新作業は複数回ある ● 最新論文サーベイにより解決 https://www.slideshare.net/ssuser995b9a1/ml-245520906 論文:Towards Backward-Compatible Representation Learning 著者:Yantao Shen, Yuanjun Xiong, Wei Xia, Stefano Soatto 出典:CVPR 2020 as oral ※一つ目の紹介論文の先行研究になっている手法
Slide 6
Slide 6 text
今日話すこと 1. Compatibility-Aware Heterogeneous Visual Search ○ 表現学習モデルのニューラルアーキテクチャサーチ( NAS) ○ 先行研究であるBackward-Compatible Training(BCT)を応用し、 互換性のあるアーキテクチャ探索を実現する 2. Composing Photos Like a Photographe ○ プロの写真家が行っている美的構成を自動化するためのトリミング位置予測 ○ 写真の美的構図ルールを明示的にモデリング
Slide 7
Slide 7 text
表現学習モデルの精度改善の課題 分類結果ではなく特徴ベクトルを使用する点 入力 画像 別々にトレーニングされたモデル は、一般に同じ埋め込み空間には ならない
Slide 8
Slide 8 text
表現学習モデルの精度改善の課題 引用元:https://arxiv.org/abs/2003.11942 ・大規模なデータに対して Backfill(再推論)が必要 ・分散処理、整合性チェッ ク、切り替え処理など、 考え ることが多い DB移行と同等以上の開発・作業が必要 モデル更新の度にコストがかかる
Slide 9
Slide 9 text
Towards Backward-Compatible Representation Learning 後方互換性を担保しつつ、 モデルの更新を行える手法 を提案。 記事リンク 引用元:https://arxiv.org/abs/2003.11942
Slide 10
Slide 10 text
損失関数に旧分類器の誤差を追加 互換性基準 損失関数 引用元:https://arxiv.org/abs/2003.11942 実用性の面でも優れている
Slide 11
Slide 11 text
Compatibility-Aware Heterogeneous Visual Search クエリとギャラリーセットでそれぞれ異なる埋め込みモデルを使用するHeterogeneousな設定 引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Duggal_Compatibility-Aware_Heterogeneous_Visual_Search_CVPR_2021_paper.html
Slide 12
Slide 12 text
アーキテクチャと互換性の関係 引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Duggal_Compatibility-Aware_Heterogeneous_Visual_Search_CVPR_2021_paper.html
Slide 13
Slide 13 text
実験結果 ● 精度低下をパラゴン設定の1.6% 以内に維持しつつ、ベースライン と同等のパフォーマンスを達成 ● ベースラインのアーキテクチャを BCTでトレーニングした結果よりも、 CMP-NASで見つけたアーキテクチャ が遥かに良い精度を記録している 引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Duggal_Compatibility-Aware_Heterogeneous_Visual_Search_CVPR_2021_paper.html
Slide 14
Slide 14 text
まとめ ● BCTによる後方互換性のある学習によって、軽量化したクエリモデルを使 用するHeterogeneousな検索システムを実現できる ○ 精度低下も ● 実験により、アーキテクチャも互換性の影響要因になることを示した
Slide 15
Slide 15 text
良い写真について考える ● 大量の写真の中からフォトブックや1秒動画に使う写真を選ばなければならない ● アルバムの最初の方に良い写真が並んでいる方が良い 「良い写真」 を選び出す レコメンド機能が必要
Slide 16
Slide 16 text
良い写真とは? 子供が写ってい る方が良い? 表情は?笑顔 の方が良い? 景色が良い 写真? 動きのある 動画? たくさん人が写って いる写真? 泣いてる顔も 良い? 明るいor 暗い?
Slide 17
Slide 17 text
論文2 タイトル:Composing Photos Like a Photographer 著者:Chaoyi Hong, Shuaiyuan Du, Ke Xian, Hao Lu, Zhiguo Cao, Weicai Zhong 概要 ● プロの写真家が行っている美的構成を自動化するための切り出し位置予測 ● 写真の美的構図ルールを明示的にモデリング
Slide 18
Slide 18 text
Image Croppingの基礎技術 1. Attention-Guided Image Cropping ○ Saliency Mapやenergy functionsによって推定する ○ 顕著なオブジェクトや情報のある領域を残せることが, 良い画像切り出しであるという考え ○ サムネイル画像などの用途でよく使われる 2. Aesthetics-Informed Image Cropping ○ 美しさに基づいた手法 ○ アノテーションされた美的ラベルで学習 ■ クラス分類、ランキング学習など ○ モデルが美的構成について獲得できることを期待 引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html https://arxiv.org/pdf/1702.00503.pdf < ランキング学習 ※順序関係を利用して学習
Slide 19
Slide 19 text
既存研究 ● VFN ○ プロの写真家がとった写真から、切り出し候補を作成 ○ ○ 損失関数 を全てのペア候補で算出し、 総和を最小化 ● DIP ○ SaliencyMapで候補ビューを絞り込む ● VPN ○ 蒸留を用いて推論を高速化 ● GAIC ○ グリッドアンカーを設計して候補の検索空間を削減 引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html
Slide 20
Slide 20 text
既存手法 課題 ● 予測結果に対する解釈性がない ● 美的構成が暗黙的に獲得されることを前提とした手法 引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html
Slide 21
Slide 21 text
Composing Photos Like a Photographer ● 良い写真において「構図」が重要 ● 構図ルールを明示的にモデルに組み込む手法を提案 どんな理由で選ばれたのか分かる 良い写真・良い構図という曖昧な予測 問題に対し、解釈性を与える 引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html
Slide 22
Slide 22 text
写真の構図とは? 引用元: https://fotoria.net/ja/blog/bc/photo-shoot-techniques/sc/composition/ar/16-photo-layouts/ 三分割構図 三角構図 対角線構図 シンメトリー構図
Slide 23
Slide 23 text
CACNet(Composition-Aware Image Cropping Network) 引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html
Slide 24
Slide 24 text
Composition Branch ● 構図ルールを予測するClassificationモデルを学習 ○ composition dataset [2]を使用 ○ 次ページの9つの構図ルール ● 要素の識別により、画像切り出しに合理的で信頼できる手がかりを 与えることができる 引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html
Slide 25
Slide 25 text
Composition Branchが識別する構図ルール 上2行が学習データセットからサンプルしたもの、下2行はComposition Branchによっ て予測された例 引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html
Slide 26
Slide 26 text
KCM 1. 各構図ルールに対応する CAMを作成 2. 各CAMを結合してKCMを作成 3. KCMを入力画像サイズに UpSumpling 画像が一つ以上の構図ルールに従うことを考慮する必要がある 例えば、海辺に立つ人物の画像は, Hor.の規則と RoT.の規則の両方に従う可能性がある 引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html
Slide 27
Slide 27 text
Cropping Branch ● KCMと優れたクロッピングの関係を学習 ○ KCMによるアンカーポイントの重み付け ○ バウンディングボックスの回帰 引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html
Slide 28
Slide 28 text
CACNetの解釈性 引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html
Slide 29
Slide 29 text
データセット ● FCDB(1743枚、うちトレーニング用が 1395枚) ● FLMS(500枚、全て評価用に使用) 実験結果 引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html
Slide 30
Slide 30 text
失敗ケース ● CACNetの限界 ○ GroundTruthの切り出しサイズが比較的小さい場合に失敗 ○ 従来手法では、候補ビューにサイズの小さい領域も多数含めれば対応可能 ○ CACNetは全体を見て切り出し位置を決定する手法。トレードオフ 引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html
Slide 31
Slide 31 text
応用例 同じシーンの3枚の写真。 「鉢植えの位置」だけを 変えている 引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html
Slide 32
Slide 32 text
まとめ ● 構図ルールを明示的にモデリングし、解釈可能な画像切り出しを行うCACNetを提 案し、精度・パフォーマンス面で有効性を示した 感想 ● 構図ルールが学習可能なものだとは思わなかった ● 良い写真・良い構図を求めるような抽象的な推論タスクと「解釈性」の 組み合わせは相性が良いと感じた