Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club]PolyFormer: Referring Image Segmentation as Sequential Polygon Generation

[Journal club]PolyFormer: Referring Image Segmentation as Sequential Polygon Generation

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. PolyFormer: Referring Image Segmentation as Sequential Polygon Generation 慶應義塾大学 杉浦孔明研究室

    畑中駿平 Liu, Jiang, et al. "PolyFormer: Referring image segmentation as sequential polygon generation.“, arXiv preprint arXiv:2302.07387, 2023. Jiang Liu1*☨ , Hui Ding2*, Zhaowei Cai2, Yuting Zhang2, Ravi Kumar Satzoda2, Vijay Mahadevan2, R. Manmatha2 1 Johns Hopkins University, 2 AWS AI Labs * Equal Contribution, ☨ Work done during internship at AWS AI Labs Accepted for CVPR2023
  2. Referring image segmentation (RIS) タスクの定義 ▸ localize the segmentation mask

    of an object given a natural language query 既存のRISモデル (e.g., LAVT [Yang+, CVPR22], CRIS [Wang+, CVPR22]) ▸ 各画素の2クラス分類によってセグメンテーションマスクを生成 ▸  画素間独立して予測しているので画素間の関係性が失われている 2 背景:既存のRISモデルは画素間の関係性が失われている LAVT [Yang+, CVPR22] CRIS [Wang+, CVPR22]
  3. 近年のセグメンテーションマスクのアノテーション方法 ▸ 物体の輪郭を描く形で構造化されたポリゴン形式で表現 ([Acuna+, CVPR18]) ▸ ☺ べた塗のマスクよりも安価で好まれるアノテーション形式 構造化されたポリゴンを直接予測するCNNベースモデル ▸

    E.g., BoundaryFormer [Lazarow+, CVPR22], PolyTransform [Liang+, CVPR22], PolarMask [Xie+, CVPR22] ▸  CNNベースで直接ポリゴンを予測するのは困難であり性能が低い 3 既存手法:CNNベースのポリゴン予測モデルは依然として 性能が低い PolygonRNN++ [Acuna+, CVPR18] PolyTransform [Liang+, CVPR22]
  4. Vision系おけるseq2seqフレームワーク:座標を量子化して分類タスクとして定式化 ▸ E.g., Pix2Seq [Chen+, ICLR22], Unified-IO [Lu+, 2022], OFA

    [Wang+, ICML22] ▸ [0,1)に正規化した座標値を整数倍して離散トークンとして扱う Cf. https://speakerdeck.com/keio_smilab/journal-club-pix2seq-a-language-modeling- framework-for-object-detection?slide=8 ▸  分類タスクとして扱うことは位置特定タスクにとっては最適ではない ▹ 回帰タスクとして直接ポリゴンの座標値を予測したい 4 既存手法:既存のseq2seqフレームワークでは座標を量子化 した分類タスクとして扱っており最適ではない Pix2Seq [Chen+, ICLR21] Unified-IO [Lu+, 22] OFA [Wang+, ICML22]
  5. SeqTR [Zhu+, ECCV22]:seq2seqフレームワークのRISモデル ▸ ☺ ポリゴンの頂点を逐次的に生成可能 SeqTRの問題点 ▸  座標値を量子化してRISを分類タスクとして定式化している

    ▸  18頂点の単一ポリゴンしか生成できず、複雑な形状やオクルージョンをもつ物体 に対して正しい輪郭を描くことができない 5 SeqTRも既存手法同様に座標値を量子化してポリゴン座標値 を分類タスクとして予測 SeqTR [Zhu+, ECCV22]
  6. PolyFormerの新規性 ▸ RISとREC (referring expression comprehension)をsequence-to-sequence予測問題 として定式化 ▹ ポリゴンの頂点群と矩形領域の座標値をシーケンス形式で同時に生成可能 ▸

    回帰ベースのデコーダの構築 ▹ Seq2seqフレームワークを回帰タスクとして定式化 6 提案手法:Seq2seqフレームワークを回帰として拡張した RISモデルPolyFormer
  7. PolyFormerのモジュール構成 ▸ Visual Encoder / Text Encoder ▸ Multi-modal Transformer

    Encoder ▸ Regression-based Transformer Decoder ▹ Seq2seqフレームワークを回帰タスクとして定式化 7 PolyFormerは3種類のモジュールで構成されている
  8. Visual Encoder:Swin transformer [Liu+, ICCV21] ▸ 入力:𝐼 ∈ ℝ𝐻×𝑊×3 ▸

    出力: 𝐹 𝑣 ∈ ℝ 𝐻 32 ×𝑊 32 ×𝐶𝑣 Text Encoder:BERT [Devlin+, NAACL-HLT18] ▸ 入力: 𝑇 ∈ ℝ𝐿 ▸ 出力: 𝐹𝑙 ∈ ℝ𝐿×𝐶𝑙 Multi-modal Transformer Encoder: 𝑵層のtransformer layer ▸ 入力:𝐹𝑀 = [MLP 𝐹 𝑣 ; MLP 𝐹𝑙 ] ▹ 画像とテキストの位置情報を保持するために、絶対位置エンコーディング ([Ke+, ICLR21]) と 相対位置バイアス (T5[Raffel+, JMLR21], CoAtNet [Dai+, NeurIPS21], SimVLM [Wang+, ICLR22]) を付加 ▸ 出力:𝐹𝑀 𝑁 8 Transformerベースの構造でマルチモーダルな特徴量を獲得
  9. 既存のseq2seqフレームワーク (Pix2Seq, Unified-IO, OFA, SeqTR) ▸ 1次元空間における座標コードブックで位置座標の埋め込み表現を獲得 ▸  2次元座標

    𝑥, 𝑦 に対する座標表現を獲得することが難しい 2次元座標のコードブックを適用 ▸ ☺ 任意の座標 𝑥, 𝑦 に対してより正確な座標埋め込みを獲得 ▸ 4種類の離散的なビンを生成し、埋め込み表現𝑒(𝑥,𝑦) を獲得 ▹ 例: 𝑒 ҧ 𝑥, ത 𝑦 = 𝒟 ҧ 𝑥, ത 𝑦 ∈ ℝ𝐵𝐻×𝐵𝑊×𝐶𝑒 9 2次元座標のコードブックを使用して 𝑥, 𝑦 に対する 座標埋め込み表現を獲得 𝑒(𝑥,𝑦) = ҧ 𝑥 − 𝑥 ത 𝑦 − 𝑦 ∙ 𝑒 𝑥,𝑦 + 𝑥 − 𝑥 𝑦 − 𝑦 ∙ 𝑒 ҧ 𝑥,𝑦 + 𝑥 − 𝑥 𝑦 − 𝑦 ∙ 𝑒 𝑥, ത 𝑦 + 𝑥 − 𝑥 𝑦 − 𝑦 ∙ 𝑒 ҧ 𝑥, ത 𝑦
  10. Transformer Decoder: 𝑵層のtransformer layer ▸ 入力: 𝐹𝑀 𝑁, 𝑒 𝑥,𝑦

    ▹ マルチモーダル特徴量𝐹𝑀 𝑁と2次元座標埋め込み表現𝑒 𝑥,𝑦 の関係性を学習 (MHCA) ▸ 出力:𝑄𝑁 Prediction Head:最終的な予測を出力(生成)する ▸ Coordinate Head:予測座標値を出力 ▹ ො 𝑥, ො 𝑦 = Sigmoid FFN 𝑄𝑁 ▸ Class Head:予測トークンを出力 ▹ Ƹ 𝑝 = 𝑊 𝑐 𝑄𝑁 + 𝑏𝑐 ▹ <COO>、<SEP>、<EOS>の3種類 10 Transformerベースのデコーダで特徴量𝑄𝑁を獲得し、 座標とトークンの種類を出力する 回帰タスクとして定式化
  11. 1. <BOS>トークンを入力することで生成を開始 2. クラスヘッドからトークンの種類を取得する ◼ <COO>:先行する予測を前提条件としてcoordinate headから2次元座標予測を取得 ◼ <SEP>:ポリゴンの終わりを示すので、<SEP>トークンを出力シーケンスに追加 3.

    <EOS>が出力された時点で停止 ◼ 最初の2つのトークンは矩形領域の座標 ◼ 残りはポリゴンの頂点群 ◼ 最終的なセグメンテーションマスクは、ポリゴンの予測値から得られる 11 推論方法:トークンを取得したのちポリゴンを順次生成 SeqTRの問題点を解消
  12. データセット:RISタスクとして4種類で評価 ▸ RefCOCO [Yu+, ECCV16] ▸ RefCOCO+ [Yu+, ECCV16] ▸

    RefCOCOg [Mao+, CVPR16] ▸ ReferIt [Kazemzadeh+ EMNLP14] 評価尺度:3種類 ▸ Mean IoU、[email protected]、Overall IoU 学習時間に関して ▸ 学習時間・ハードウェア構成:ともに記載なし ▸ 参考:バッチサイズ128のエポック数100で学習 12 実験設定:4種類のデータセットで実験
  13. Strengths ▸ 既存手法の調査の網羅性の高さと提案手法との差別化が明確である ▸ Seq2seqフレームワークを回帰タスクとして定式化したことで、性能向上を実現 Weaknesses ▸ SeqTRの改良版という位置づけなので新規性としてはSeqTRのほうがインパクトが大きい印象 ▸ 失敗例の定性的結果やエラー分析がない

    Others ▸ LAVT [Yang+, CVPR22] のスコアが実際の論文値よりもなぜか高くなっている ▸ 第1著者(おそらく博士課程の学生)がAWS AI Labのインターン中にCVPRにアクセプトされる 実績を得ることに驚き ▸ コードの公開が待たれる ▹ Project page: https://polyformer.github.io 16 所感
  14. 学習方法:RECタスクとして事前学習→RISタスクとしてファインチューニング ▸ データセットは4種類 ▹ Visual Genome, RefCOCO, RefCOCO+, RefCOCOg, Flickr30k-entities

    ▹ バッチサイズは160、エポック数は20で学習 ハイパーパラメータなどの設定 ▸ 𝜆𝑏𝑜𝑥 , 𝜆𝑝𝑜𝑙𝑦 , 𝜆𝑐𝑙𝑠 = 0.1, 1, 5 × 10−5 ▸ ポリゴンのデータ拡張:50%の確率で適用 ▸ 2次元座標埋め込みコードブック: 𝐵𝐻 , 𝐵𝑊 = 64, 64 21 学習方法:RECタスクを事前学習したのちRISタスクとして ファインチューニングを行う