[Journal club] Parallel Vertex Diffusion for Unified Visual Grounding

Parallel Vertex Diffusion for Unified Visual Grounding 慶應義塾大学杉浦孔明研究室畑中駿平
Cheng, Z. et al. "Parallel Vertex Diffusion for Unified Visual Grounding." AAAI, 2024. Zesen Cheng1 Kehan Li1 Peng Jin1 Xiangyang Ji3 Li Yuan1,2 Chang Liu3† Jie Chen1,2† 1 School of Electronic and Computer Engineering, Peking University 2 Peng Cheng Laboratoy 3 Tsinghua Universiy † Corresponding author AAAI2024

▸ Visual grounding：与えられた参照表現を画像に接地させること ▹ 画像とテキスト間の細かい対応を確立することが可能 [Li+, CVPR22] ▸ Visual groundingは2つのサブタスクに分類
▹ Referring Expression Comprehension (REC) [Hu+, CVPR16]：bboxで予測 ▹ Referring Expression Segmentation (RES) [Hu+, ECCV16]：マスクで予測 2 背景：Visual groundingはvision-language分野のタスクで重要なタスクである [Hu+, CVPR16] [Hu+, ECCV16]

▸ RECとRESには高い共通点とそれぞれの利点がある ▹ → 2つのタスクを統合することは自然かつ有益 ▸ RECとRESを統合したモデル ▹ E.g. Mask-RCNN
[He+, ICCV17], MAttNet [Yu+, CVPR18], MCN [Luo+, CVPR20], [Li+, NeurIPS21], SeqTR [Zhu+, ECCV22] 3 関連研究： RECとRESを統合したモデルが注目 MCN [Luo+, CVPR20], SeqTR [Zhu+, ECCV22]

▸ SeqTR [Zhu+, ECCV22]：自己回帰モデル (Pix2Seq [Chen+, ICLR21]) によってRECとRESを同時に自己回帰頂点生成問題としてモデル化 ▸ SeqTRの問題点
▹  頂点列の上流の精度が十分でない場合，誤差が増大する ▹  高次元になると生成のための反復回数が増加し推論に時間がかかる 4 既存手法の問題点：自己回帰モデルの逐次頂点生成は性能の上限に制限があるテキスト：“center baseman”

▸ SeqTR [Zhu+, ECCV22]：自己回帰モデル (Pix2Seq [Chen+, ICLR21]) によってRECとRESを同時に自己回帰頂点生成問題としてモデル化 ▸ SeqTRの問題点
▹  頂点列の上流の精度が十分でない場合，誤差が増大する ▹  高次元になると生成のための反復回数が増加し推論に時間がかかる 5 既存手法の問題点：自己回帰モデルの逐次頂点生成は性能の上限に制限があるテキスト：“center baseman”  最初の頂点が右側の野球選手に予測するとその後のリカバリーが困難

新規性 ▸ Parallel Vertex Diffusion：拡散モデルを用いた並列頂点生成 ▸ Center Anchor Mechanism，Geometry Constraint：収束性を向上
6 提案手法：Parallel Vertex Diffusion

▸ モデルの入力：画像とテキストのペア ▹ ℎ：画像の高さ，𝑤：画像の幅，𝑛：単語数 ▸ Encoder Image ▹ 出力： ▹
Darknet-53 [Redmon+, 18]，ResNet [He+, CVPR16] ，Swin Transformer [Liu+, ICCV21] をbackboneとして適用可能 ▸ Encoder Text：BERT [Devlin+, NAACL-HLT19] を適用 ▹ 出力： 7 Cross-modal Feature Extraction：特徴量抽出

▸ 𝑖層目の画像特徴量とをSeqTRとMSDeformAttn [Zhu+, ICLR21] をベースに融合しを得る ▸ ▹
MLP：全結合層 ▹ 𝜎：活性化関数 ▹ ⨀：アダマール積 8 Cross-modal Feature Extraction：特徴量抽出 SeqTRとおなじ形

▸ CAMの動機：中心点を基準に正規化することで座標回帰の難易度が下がることが期待される [Tian+, ICCV19] ▸ Center Point Prediction：物体の中央点をヒートマップで予測
▹ ：正解の中心点の座標（正規化済み） ▹ 𝜎：画像サイズに適した標準偏差 9 Center Anchor Mechanism (CAM) ：物体の中心点を予測

▸ CAMの動機：中心点を基準に正規化することで座標回帰の難易度が下がることが期待される [Tian+, ICCV19] ▸ 正解および予測されたヒートマップに対してfocal loss
[Lin＋, ICCV17] を用いて学習 10 Center Anchor Mechanism (CAM) ：物体の中心点を予測

▸ 拡散モデルは効果的なスケーラブルなモデルとして活用 ▹ E.g. 画像生成タスク [Ramesh+, 22]，識別タスク [Chen+, ICCV23] ▹
☺ ノイズの次元を変更するだけで，高次元設定の拡張可能 ▸ 拡散モデルを用いて頂点生成をより高次元かつ並列に行う Parallel Vertex Diffusionの提案 ▹ ※ Pix2Seq-D [Chen+, ICCV23] に基づいて構築（以降Denoiserと称す） 11 Parallel Vertex Diffusion：拡散モデルを用いて頂点を洗練

▸ Step1：ノイズ状態𝑥𝑡 を生成 ▹ 𝜖：標準正規分布 ▹ 𝑡：一様分布 ▹ ：単調減少関数 ▹
𝑥0 ：初期状態 12 Parallel Vertex Diffusion：拡散モデルを用いて頂点を洗練

▸ Step2：𝑥𝑡 を頂点ベクトル𝑉𝑡 に変換 ▸ Denoiserの頂点の正規化座標が [0, 1] のため[-1, 1]→[0,
1]にスケールダウン ▸ 𝑉𝑡 の次元数は(4 + 2𝑁)である ▹ 𝑁：ポリゴンの頂点数 13 Parallel Vertex Diffusion：拡散モデルを用いて頂点を洗練

▸ Step3：𝑉𝑡 を2次元座標埋め込みにより 𝑄𝑡 に変換 [Meng+, ICCV21] 14 Parallel Vertex
Diffusion：拡散モデルを用いて頂点を洗練

▸ Step4：𝑄𝑡 とクロスモーダル特徴量𝐹𝑐 をtransformer decoderに入力する ▹ 15 Parallel Vertex Diffusion：拡散モデルを用いて頂点を洗練

▸ Step5：transformer decoderの出力に時間埋め込み特徴量𝜀𝑡 によって正規化され，その後洗練された頂点ベクトル 𝑉𝑡−1 に射影される 16 Parallel
Vertex Diffusion：拡散モデルを用いて頂点を洗練

▸ Step6：次のノイズ状態𝑥𝑡−1 を取得するために，DDIMステップ [Song+, ICLR21] によって処理される 17 Parallel Vertex
Diffusion：拡散モデルを用いて頂点を洗練

▸ Point Constraintの損失関数 [Chen+, ICLR23] ▹ ：パラメータ化されたDenoiser ▹ 各ノイズ状態𝑥𝑡 は初期状態𝑥0
に近づくことが求められる 18 Parallel Vertex Diffusion：拡散モデルを用いて頂点を洗練

▸ 頂点生成の主な最適化関数： Point Constraint ▹ ☺ 予測された各頂点をGTに近づけるように修正 ▹  2つのポリゴン集合間の形状の違いを考慮できていない
▸ Geometry Constraintの導入 ▹ 今回はAngle Summation algorithm [Sutherland+, ACM74] を適用 19 Geometry Constraint：ポリゴン全体の形状を考慮

▸ Angle Summation algorithmによるポリゴン全体の形状を計算 ▸ ある点Pとすべてのポリゴンの頂点との間の角度の和について ▹ （a）360°の場合：点Pはポリゴンの内部に存在 ▹ （b）360°未満の場合：点Pはポリゴンの外部に存在
▸ この操作をすべての点で計算して角度和マップを得る 20 Geometry Constraint：ポリゴン全体の形状を考慮

▸ Angle Summation Loss (ASL)： Angle Summation algorithmを各時刻𝑡において計算してGTとの差を計算する ▹
：時刻𝑡における角度和マップ 21 Geometry Constraint：ポリゴン全体の形状を考慮

▸ REC・RESタスクの標準データセット ▹ RefCOCO [Yu+, ECCV16]，RefCOCO+ [Yu+, ECCV16]， RefCOCOg [Mao+,
CVPR16] ▸ 評価尺度 ▹ REC：[email protected] ▹ RES：overall IoU ▸ 学習設定等 ▹ GPU：4つのNVIDIA V100 ▹ デフォルトの頂点数𝑁 = 36 ▹ バッチサイズ 64，エポック数 100 22 実験設定：3種類の標準データセットで実験

▸ ☺ RECタスクにおいて，特にDarknet-53よりもSwin-baseのほうがより性能が向上し，すべてのデータセットでSOTA 23 定量的結果：REC・RESと主にほとんどのデータセットで SOTAを達成

▸ ☺ RESタスクにおいてもRECタスク同様な結果が得られた ▹ ほとんどすべてのデータセットでSOTAを達成 24 定量的結果：REC・RESと主にほとんどのデータセットで SOTAを達成

▸ 特に，(b)や(d)はSeqTRよりもオクルージョンされた物体の輪郭をとらえることが可能 ▸ ※ 以降，SVG（sequential vertex generation）はSeqTRを指す 25 定性的結果：SeqTRと比較してより洗練されたマスクを生成

▸ Center anchor mechanism（CAM）およびangle summation loss （ASL）をそれぞれ削除 ▹ どちらも削除した場合はvanilla Parallel
Vertex Diffusionとなる ▸ ☺ CAMおよびASLモジュールそれぞれが有効 26 Ablation study：提案モジュールの有効性を確認

27 実験結果：PVDはSeqTRよりも頂点数を増やしても性能向上し，推論速度も2-5倍ほど速い

Strengths ▸ 要所で図や新規性のmotivationが明記されていて理解しやすい ▸ 拡散モデルの特徴を活かして，スケーラビリティおよび推論速度の向上を実現 ▸ 実験設定が適切かつ豊富で提案手法の有効性を確認している Weaknesses ▸ SeqTRよりも頂点数の増やしているが（最大で2倍の36点），オクルージョンには依然として対応
できていない ▸ 表のキャプションが下側にある・typoが随所見られた（最新版は修正されているかもしれない） Others ▸ SeqTRによる後続研究が活発的である（e.g. PolyFormer [Liu+, CVPR23]，Partial-RES [Qu＋， CVPR23]，PORTER [九曜+, NLP24]） ▸ ベースライン手法も含めて2020年以降のREC/RESモデルのbackboneにDarknet-53 [Redmon+, 18] を適用している手法が多い印象 28 所感

背景 ▸ 自己回帰としての逐次頂点生成モデルは性能の上限が制限される提案 ▸ 拡散モデルを用いて並列頂点生成モデルPVDの提案結果 ▸ 性能に加えて，推論速度や複雑さの観点からでも既存手法を上回る 29
まとめ

[Journal club] Parallel Vertex Diffusion for Un...

[Journal club] Parallel Vertex Diffusion for Unified Visual Grounding

Semantic Machine Intelligence Lab., Keio Univ.
PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

Parallel Vertex Diffusion for Unified Visual Grounding 慶應義塾大学杉浦孔明研究室畑中駿平

▸ Visual grounding：与えられた参照表現を画像に接地させること ▹ 画像とテキスト間の細かい対応を確立することが可能 [Li+, CVPR22] ▸ Visual groundingは2つのサブタスクに分類

▸ RECとRESには高い共通点とそれぞれの利点がある ▹ → 2つのタスクを統合することは自然かつ有益 ▸ RECとRESを統合したモデル ▹ E.g. Mask-RCNN

▸ SeqTR [Zhu+, ECCV22]：自己回帰モデル (Pix2Seq [Chen+, ICLR21]) によってRECとRESを同時に自己回帰頂点生成問題としてモデル化 ▸ SeqTRの問題点

▸ SeqTR [Zhu+, ECCV22]：自己回帰モデル (Pix2Seq [Chen+, ICLR21]) によってRECとRESを同時に自己回帰頂点生成問題としてモデル化 ▸ SeqTRの問題点

新規性 ▸ Parallel Vertex Diffusion：拡散モデルを用いた並列頂点生成 ▸ Center Anchor Mechanism，Geometry Constraint：収束性を向上

▸ モデルの入力：画像とテキストのペア ▹ ℎ：画像の高さ，𝑤：画像の幅，𝑛：単語数 ▸ Encoder Image ▹ 出力： ▹

▸ 𝑖層目の画像特徴量とをSeqTRとMSDeformAttn [Zhu+, ICLR21] をベースに融合しを得る ▸ ▹

▸ CAMの動機：中心点を基準に正規化することで座標回帰の難易度が下がることが期待される [Tian+, ICCV19] ▸ Center Point Prediction：物体の中央点をヒートマップで予測

▸ CAMの動機：中心点を基準に正規化することで座標回帰の難易度が下がることが期待される [Tian+, ICCV19] ▸ 正解および予測されたヒートマップに対してfocal loss

▸ 拡散モデルは効果的なスケーラブルなモデルとして活用 ▹ E.g. 画像生成タスク [Ramesh+, 22]，識別タスク [Chen+, ICCV23] ▹

▸ Step1：ノイズ状態𝑥𝑡 を生成 ▹ 𝜖：標準正規分布 ▹ 𝑡：一様分布 ▹ ：単調減少関数 ▹

▸ Step2：𝑥𝑡 を頂点ベクトル𝑉𝑡 に変換 ▸ Denoiserの頂点の正規化座標が [0, 1] のため[-1, 1]→[0,

▸ Step3：𝑉𝑡 を2次元座標埋め込みにより 𝑄𝑡 に変換 [Meng+, ICCV21] 14 Parallel Vertex

▸ Step4：𝑄𝑡 とクロスモーダル特徴量𝐹𝑐 をtransformer decoderに入力する ▹ 15 Parallel Vertex Diffusion：拡散モデルを用いて頂点を洗練

▸ Step5：transformer decoderの出力に時間埋め込み特徴量𝜀𝑡 によって正規化され，その後洗練された頂点ベクトル 𝑉𝑡−1 に射影される 16 Parallel

▸ Step6：次のノイズ状態𝑥𝑡−1 を取得するために，DDIMステップ [Song+, ICLR21] によって処理される 17 Parallel Vertex

▸ Point Constraintの損失関数 [Chen+, ICLR23] ▹ ：パラメータ化されたDenoiser ▹ 各ノイズ状態𝑥𝑡 は初期状態𝑥0

▸ 頂点生成の主な最適化関数： Point Constraint ▹ ☺ 予測された各頂点をGTに近づけるように修正 ▹  2つのポリゴン集合間の形状の違いを考慮できていない

▸ Angle Summation algorithmによるポリゴン全体の形状を計算 ▸ ある点Pとすべてのポリゴンの頂点との間の角度の和について ▹ （a）360°の場合：点Pはポリゴンの内部に存在 ▹ （b）360°未満の場合：点Pはポリゴンの外部に存在

▸ Angle Summation Loss (ASL)： Angle Summation algorithmを各時刻𝑡において計算してGTとの差を計算する ▹

▸ REC・RESタスクの標準データセット ▹ RefCOCO [Yu+, ECCV16]，RefCOCO+ [Yu+, ECCV16]， RefCOCOg [Mao+,

▸ ☺ RECタスクにおいて，特にDarknet-53よりもSwin-baseのほうがより性能が向上し，すべてのデータセットでSOTA 23 定量的結果：REC・RESと主にほとんどのデータセットで SOTAを達成

▸ ☺ RESタスクにおいてもRECタスク同様な結果が得られた ▹ ほとんどすべてのデータセットでSOTAを達成 24 定量的結果：REC・RESと主にほとんどのデータセットで SOTAを達成

▸ 特に，(b)や(d)はSeqTRよりもオクルージョンされた物体の輪郭をとらえることが可能 ▸ ※ 以降，SVG（sequential vertex generation）はSeqTRを指す 25 定性的結果：SeqTRと比較してより洗練されたマスクを生成

▸ Center anchor mechanism（CAM）およびangle summation loss （ASL）をそれぞれ削除 ▹ どちらも削除した場合はvanilla Parallel

27 実験結果：PVDはSeqTRよりも頂点数を増やしても性能向上し，推論速度も2-5倍ほど速い

背景 ▸ 自己回帰としての逐次頂点生成モデルは性能の上限が制限される提案 ▸ 拡散モデルを用いて並列頂点生成モデルPVDの提案結果 ▸ 性能に加えて，推論速度や複雑さの観点からでも既存手法を上回る 29