[Journal club]PolyFormer: Referring Image Segmentation as Sequential Polygon Generation

PolyFormer: Referring Image Segmentation as Sequential Polygon Generation 慶應義塾大学杉浦孔明研究室
畑中駿平 Liu, Jiang, et al. "PolyFormer: Referring image segmentation as sequential polygon generation.“, arXiv preprint arXiv:2302.07387, 2023. Jiang Liu1*☨ , Hui Ding2*, Zhaowei Cai2, Yuting Zhang2, Ravi Kumar Satzoda2, Vijay Mahadevan2, R. Manmatha2 1 Johns Hopkins University, 2 AWS AI Labs * Equal Contribution, ☨ Work done during internship at AWS AI Labs Accepted for CVPR2023

Referring image segmentation (RIS) タスクの定義 ▸ localize the segmentation mask
of an object given a natural language query 既存のRISモデル (e.g., LAVT [Yang+, CVPR22], CRIS [Wang+, CVPR22]) ▸ 各画素の2クラス分類によってセグメンテーションマスクを生成 ▸  画素間独立して予測しているので画素間の関係性が失われている 2 背景：既存のRISモデルは画素間の関係性が失われている LAVT [Yang+, CVPR22] CRIS [Wang+, CVPR22]

近年のセグメンテーションマスクのアノテーション方法 ▸ 物体の輪郭を描く形で構造化されたポリゴン形式で表現 ([Acuna+, CVPR18]) ▸ ☺ べた塗のマスクよりも安価で好まれるアノテーション形式構造化されたポリゴンを直接予測するCNNベースモデル ▸
E.g., BoundaryFormer [Lazarow+, CVPR22], PolyTransform [Liang+, CVPR22], PolarMask [Xie+, CVPR22] ▸  CNNベースで直接ポリゴンを予測するのは困難であり性能が低い 3 既存手法：CNNベースのポリゴン予測モデルは依然として性能が低い PolygonRNN++ [Acuna+, CVPR18] PolyTransform [Liang+, CVPR22]

Vision系おけるseq2seqフレームワーク：座標を量子化して分類タスクとして定式化 ▸ E.g., Pix2Seq [Chen+, ICLR22], Unified-IO [Lu+, 2022], OFA
[Wang+, ICML22] ▸ [0,1)に正規化した座標値を整数倍して離散トークンとして扱う Cf. https://speakerdeck.com/keio_smilab/journal-club-pix2seq-a-language-modeling- framework-for-object-detection?slide=8 ▸  分類タスクとして扱うことは位置特定タスクにとっては最適ではない ▹ 回帰タスクとして直接ポリゴンの座標値を予測したい 4 既存手法：既存のseq2seqフレームワークでは座標を量子化した分類タスクとして扱っており最適ではない Pix2Seq [Chen+, ICLR21] Unified-IO [Lu+, 22] OFA [Wang+, ICML22]

SeqTR [Zhu+, ECCV22]：seq2seqフレームワークのRISモデル ▸ ☺ ポリゴンの頂点を逐次的に生成可能 SeqTRの問題点 ▸  座標値を量子化してRISを分類タスクとして定式化している
▸  18頂点の単一ポリゴンしか生成できず、複雑な形状やオクルージョンをもつ物体に対して正しい輪郭を描くことができない 5 SeqTRも既存手法同様に座標値を量子化してポリゴン座標値を分類タスクとして予測 SeqTR [Zhu+, ECCV22]

PolyFormerの新規性 ▸ RISとREC (referring expression comprehension)をsequence-to-sequence予測問題として定式化 ▹ ポリゴンの頂点群と矩形領域の座標値をシーケンス形式で同時に生成可能 ▸
回帰ベースのデコーダの構築 ▹ Seq2seqフレームワークを回帰タスクとして定式化 6 提案手法：Seq2seqフレームワークを回帰として拡張した RISモデルPolyFormer

PolyFormerのモジュール構成 ▸ Visual Encoder / Text Encoder ▸ Multi-modal Transformer
Encoder ▸ Regression-based Transformer Decoder ▹ Seq2seqフレームワークを回帰タスクとして定式化 7 PolyFormerは3種類のモジュールで構成されている

Visual Encoder：Swin transformer [Liu+, ICCV21] ▸ 入力：𝐼 ∈ ℝ𝐻×𝑊×3 ▸
出力： 𝐹 𝑣 ∈ ℝ 𝐻 32 ×𝑊 32 ×𝐶𝑣 Text Encoder：BERT [Devlin+, NAACL-HLT18] ▸ 入力： 𝑇 ∈ ℝ𝐿 ▸ 出力： 𝐹𝑙 ∈ ℝ𝐿×𝐶𝑙 Multi-modal Transformer Encoder： 𝑵層のtransformer layer ▸ 入力：𝐹𝑀 = [MLP 𝐹 𝑣 ; MLP 𝐹𝑙 ] ▹ 画像とテキストの位置情報を保持するために、絶対位置エンコーディング ([Ke+, ICLR21]) と相対位置バイアス (T5[Raffel+, JMLR21], CoAtNet [Dai+, NeurIPS21], SimVLM [Wang+, ICLR22]) を付加 ▸ 出力：𝐹𝑀 𝑁 8 Transformerベースの構造でマルチモーダルな特徴量を獲得

既存のseq2seqフレームワーク (Pix2Seq, Unified-IO, OFA, SeqTR) ▸ 1次元空間における座標コードブックで位置座標の埋め込み表現を獲得 ▸  2次元座標
𝑥, 𝑦 に対する座標表現を獲得することが難しい 2次元座標のコードブックを適用 ▸ ☺ 任意の座標 𝑥, 𝑦 に対してより正確な座標埋め込みを獲得 ▸ 4種類の離散的なビンを生成し、埋め込み表現𝑒(𝑥,𝑦) を獲得 ▹ 例： 𝑒 ҧ 𝑥, ത 𝑦 = 𝒟 ҧ 𝑥, ത 𝑦 ∈ ℝ𝐵𝐻×𝐵𝑊×𝐶𝑒 9 2次元座標のコードブックを使用して 𝑥, 𝑦 に対する座標埋め込み表現を獲得 𝑒(𝑥,𝑦) = ҧ 𝑥 − 𝑥 ത 𝑦 − 𝑦 ∙ 𝑒 𝑥,𝑦 + 𝑥 − 𝑥 𝑦 − 𝑦 ∙ 𝑒 ҧ 𝑥,𝑦 + 𝑥 − 𝑥 𝑦 − 𝑦 ∙ 𝑒 𝑥, ത 𝑦 + 𝑥 − 𝑥 𝑦 − 𝑦 ∙ 𝑒 ҧ 𝑥, ത 𝑦

Transformer Decoder： 𝑵層のtransformer layer ▸ 入力： 𝐹𝑀 𝑁, 𝑒 𝑥,𝑦
▹ マルチモーダル特徴量𝐹𝑀 𝑁と2次元座標埋め込み表現𝑒 𝑥,𝑦 の関係性を学習 (MHCA) ▸ 出力：𝑄𝑁 Prediction Head：最終的な予測を出力（生成）する ▸ Coordinate Head：予測座標値を出力 ▹ ො 𝑥, ො 𝑦 = Sigmoid FFN 𝑄𝑁 ▸ Class Head：予測トークンを出力 ▹ Ƹ 𝑝 = 𝑊 𝑐 𝑄𝑁 + 𝑏𝑐 ▹ <COO>、<SEP>、<EOS>の3種類 10 Transformerベースのデコーダで特徴量𝑄𝑁を獲得し、座標とトークンの種類を出力する回帰タスクとして定式化

1. <BOS>トークンを入力することで生成を開始 2. クラスヘッドからトークンの種類を取得する ◼ <COO>：先行する予測を前提条件としてcoordinate headから2次元座標予測を取得 ◼ <SEP>：ポリゴンの終わりを示すので、<SEP>トークンを出力シーケンスに追加 3.
<EOS>が出力された時点で停止 ◼ 最初の2つのトークンは矩形領域の座標 ◼ 残りはポリゴンの頂点群 ◼ 最終的なセグメンテーションマスクは、ポリゴンの予測値から得られる 11 推論方法：トークンを取得したのちポリゴンを順次生成 SeqTRの問題点を解消

データセット：RISタスクとして4種類で評価 ▸ RefCOCO [Yu+, ECCV16] ▸ RefCOCO+ [Yu+, ECCV16] ▸
RefCOCOg [Mao+, CVPR16] ▸ ReferIt [Kazemzadeh+ EMNLP14] 評価尺度：3種類 ▸ Mean IoU、[email protected]、Overall IoU 学習時間に関して ▸ 学習時間・ハードウェア構成：ともに記載なし ▸ 参考：バッチサイズ128のエポック数100で学習 12 実験設定：4種類のデータセットで実験

▸ すべてのデータセットでSoTAを達成 ▹ 特にVisual BackboneをSwin-BからSwin-Lにするとさらに約1~2ポイント上昇 13 定量的結果：RISタスクにおいてすべてのデータセットで SoTAを達成

14 定性的結果：オクルージョンな物体でも既存手法より正確にセグメンテーションマスクを生成可能

実験方法：座標予測をクラス分類ベースと回帰ベースで性能比較 ▸ ☺ 結果として、すべてのタスクで回帰ベースのモデルが上回る性能 15 Ablation Study：回帰デコーダの有効性を確認

Strengths ▸ 既存手法の調査の網羅性の高さと提案手法との差別化が明確である ▸ Seq2seqフレームワークを回帰タスクとして定式化したことで、性能向上を実現 Weaknesses ▸ SeqTRの改良版という位置づけなので新規性としてはSeqTRのほうがインパクトが大きい印象 ▸ 失敗例の定性的結果やエラー分析がない
Others ▸ LAVT [Yang+, CVPR22] のスコアが実際の論文値よりもなぜか高くなっている ▸ 第1著者（おそらく博士課程の学生）がAWS AI Labのインターン中にCVPRにアクセプトされる実績を得ることに驚き ▸ コードの公開が待たれる ▹ Project page: https://polyformer.github.io 16 所感

背景 ▸ 既存手法のseq2seqフレームワークは座標を量子化しており、予測は分類タスクとして定式化されている提案 ▸ Seq2seqフレームワークを回帰タスクとして定式化したPolyFormerの提案結果 ▸ RISタスクの主要なベンチマークでSoTAを達成
17 まとめ

Appendix 18

▸ Coordinate Head：L1ノルム損失関数 ▹ 最初の2トークン分は矩形領域の座標値を予測 ▸ Class Head：交差エントロピー損失関数 19 損失関数：2種類の損失関数を適用

▸ SeqTRの問題点：ポリゴンの頂点数を固定（デフォルト値18点）になっている ▹  生成されたセグメンテーションマスクが粗くなる ▸ ポリゴンのデータ拡張 ▹ GTのポリゴン情報から密な輪郭を補間しサンプリング ▹
密な輪郭からランダムに粒度の異なるポリゴンを生成 ▹ ☺ モデルがより柔軟なポリゴン表現を学習可能 20 ポリゴンのデータ拡張

学習方法：RECタスクとして事前学習→RISタスクとしてファインチューニング ▸ データセットは4種類 ▹ Visual Genome, RefCOCO, RefCOCO+, RefCOCOg, Flickr30k-entities
▹ バッチサイズは160、エポック数は20で学習ハイパーパラメータなどの設定 ▸ 𝜆𝑏𝑜𝑥 , 𝜆𝑝𝑜𝑙𝑦 , 𝜆𝑐𝑙𝑠 = 0.1, 1, 5 × 10−5 ▸ ポリゴンのデータ拡張：50%の確率で適用 ▸ 2次元座標埋め込みコードブック： 𝐵𝐻 , 𝐵𝑊 = 64, 64 21 学習方法：RECタスクを事前学習したのちRISタスクとしてファインチューニングを行う

RECタスクとして学習したモデルを既存手法と比較 ▸ OFA-Lと同程度の性能を達成 22 定量的結果：RECタスクでは既存手法と同程度の性能を獲得

23 相互注意機構のアテンションの可視化結果

Ablation studyの条件は以下の4つ ▸ Order：原点から最も近い頂点を始点として時計回りにポリゴンを生成（SeqTR） ▸ Aug：粒度の異なるポリゴンによるポリゴンのデータ拡張 ▸ Multi-task：RISとRECタスクのマルチタスク学習 ▸ <SEP>：<SEP>トークンの有無による複数のポリゴン生成
☺ 結果としてすべての条件の有効性を確認 24 Ablation study：新規性の有効性を確認

Ablation studyの条件：PolyFormer-Bにおいてコードブックのサイズを変更 ☺ 結果として、サイズが64のときに最良であることを確認 25 Ablation study：2次元の座標埋め込みコードブックは64のサイズが最良

[Journal club]PolyFormer: Referring Image Segme...

[Journal club]PolyFormer: Referring Image Segmentation as Sequential Polygon Generation

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

PolyFormer: Referring Image Segmentation as Sequential Polygon Generation 慶應義塾大学杉浦孔明研究室

Referring image segmentation (RIS) タスクの定義 ▸ localize the segmentation mask

Vision系おけるseq2seqフレームワーク：座標を量子化して分類タスクとして定式化 ▸ E.g., Pix2Seq [Chen+, ICLR22], Unified-IO [Lu+, 2022], OFA

SeqTR [Zhu+, ECCV22]：seq2seqフレームワークのRISモデル ▸ ☺ ポリゴンの頂点を逐次的に生成可能 SeqTRの問題点 ▸  座標値を量子化してRISを分類タスクとして定式化している

PolyFormerの新規性 ▸ RISとREC (referring expression comprehension)をsequence-to-sequence予測問題として定式化 ▹ ポリゴンの頂点群と矩形領域の座標値をシーケンス形式で同時に生成可能 ▸

PolyFormerのモジュール構成 ▸ Visual Encoder / Text Encoder ▸ Multi-modal Transformer

Visual Encoder：Swin transformer [Liu+, ICCV21] ▸ 入力：𝐼 ∈ ℝ𝐻×𝑊×3 ▸

既存のseq2seqフレームワーク (Pix2Seq, Unified-IO, OFA, SeqTR) ▸ 1次元空間における座標コードブックで位置座標の埋め込み表現を獲得 ▸  2次元座標

Transformer Decoder： 𝑵層のtransformer layer ▸ 入力： 𝐹𝑀 𝑁, 𝑒 𝑥,𝑦

データセット：RISタスクとして4種類で評価 ▸ RefCOCO [Yu+, ECCV16] ▸ RefCOCO+ [Yu+, ECCV16] ▸