論文速読23

論⽂速読第⼀週⽬ 01 〜10 慶應義塾⼤学杉浦孔明研究室 M1 和⽥唯我 2023

タスク論⽂ 01 〜 04

01. Physion: Evaluating Physical Prediction from Vision in Humans and
Machines[Bear+(Stanford), NeurIPS21] 3 ü 背景: 既存のモデルは現実の物理現象を理解できるのか？ • 8個の物理現象をシミュレートしたデータセットPhysionを提案 • DominoesやSupport(積まれた物体)など, 多様な物体・環境下における物体衝突予測タスク • Object Contact Predictionタスク • ⾚い物体が⻩⾊の物体に衝突するかの⼆値分類 • 粒⼦ベースの精度は⼈間と同等だが Visionベースの精度はかなり低い現時点での粒⼦ベース⼿法SOTA?: SGNN[Han+, NeurIPS22]

02. Delivering Arbitrary-Modal Semantic Segmentation [Zhang+(Karlsruhe Institute of Technology),CVPR23] 4
ü 背景: 任意数のモダリティを統合する研究は未だ不⼗分 • DeLiVERデータセットを提案 • モダリティ: Depth, LiDAR, multiple Views, Events, and RGB. • タスク: ⾞両viewについての instance / semantic segmentation • ベースライン: CMNEXT • 多様な訓練データを含む • Viewは6視点から提供される • 5つの環境条件 (cloudy, foggy, night-time, rainy and sunny) • 5つのコーナーケース (e.g., Motion Blur; Over Exposure … etc) • Segmentationとして25クラスが付与されている

03. IconQA: A New Benchmark for Abstract Diagram Understanding and
Visual Language Reasoning [Lu+(UCLA), NeurIPS21] 5 ü 背景: 抽象的な図に関するVQAの研究は未だ不⼗分 • 抽象図を⽤いたデータセットIconQAを提案 (複数画像選択, 複数テキスト選択, 空欄補充) • ベースライン: Patch-TRM (⼀般のVQAモデルもベースライン群に設定可能) • 要請されるスキル↓ / ベースラインの精度 →

04. Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions[Wald+(Technische
Universitat Munchen), CVPR20] 6 ü 概要: 3RScanにおけるシーングラフデータセット3DSSGを提案 • PointNet + GCNによって点群から半⾃動的にシーングラフを⽣成 • タスク: scene graph generation / captioning(?) • class / relation 共にrichなラベリング → • ベースライン(?): • Explore Contextual Information for 3D Scene Graph Generation (IEEE Transactions on Visualization and Computer Graphics)

⼿法論⽂ 05 〜 08

05. Parameter is Not All You Need: Starting from Non-Parametric
Networks for 3D Point Cloud Analysis[Zhang+(Shanghai Artificial Intelligence Laboratory),CVPR23] 8 • パラメタを⼀切使⽤せずに，多様な3Dタスクにおいて既存⼿法に匹敵する⼿法Point-NNを提案． • 学習可能なヘッドの代わりにPoint-Memory Bankで特徴量を保持 → Point-PN: Point-Memory Bank等を線形層にした軽量モデル • 「farthest point sampling (FPS)→k-近傍→プーリング」の繰り返しで構成 • パラメタを使わずに点群を⾼次元空間に写像 • Positional Encodingによる⾮線形変換が有効？

06. Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models[Xu+(UC San Diego),
CVPR23] 9 • 背景: 拡散モデルはテキストとのcross-attentionを取っているので，⾔語で表現されるような概念を潜在空間上で捉えている可能性がある． (傍証) • CLIPとStable Diffusionを使ったopen-vocab.なsegmentationモデルODISEを提案 • 結果: Swin(H), ConvNeXt(H)を上回る https://jerryxu.net/ODISE/

07. Generating Data to Mitigate Spurious Correlations in Natural Language
Inference Datasets[Wu+(Microsoft),ACL22] 10 • NLPのデータセットにはバイアス(タスクとは無関係な特徴)が含まれることが多い． • バイアスは擬似相関を⽣み出すので，分布内では上⼿く予測できるが汎化性を得られない． • 例: SNLIはhypothesisだけで解けてしまうことがある→ hypothesisにバイアスの可能性 • バイアスを軽減する⼿法を提案 • データを⽣成するGenerator (e.g., GPT-2をfinetune) • Z検定[Gardner+, EMNLP21]によるz-filter → ⼀様分布からどれだけ 𝑝(𝑙|𝑥) が離れているか • 結果: 特にSNLI-hardにおいて⾼い性能 • SNLI-hard: hypothesis-onlyで解けてしまうものを除いたデータセット

08. Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space
Layers [Gu+(Stanford Univ.), NeurIPS21] 11 ü ⻑距離系列を扱う上で，状態空間モデル(SSM)にHiPPOを導⼊し，RNNのような recurrent と CNNのようなconvolution の両⽅で学習できる⼿法LSSLを提案 • RNNs: 👍系列データの学習 👎⻑距離系列→勾配爆発 • CNNs: 👍⾼速かつ並列可能 👎系列データの学習に向いていない • NDEs: 👍 連続かつ⻑距離依存を扱える 👎効率が悪い • これら三者の利点を統合する形のモデルを⽬指す • SSMの⾏列AをHiPPO⾏列にするだけで， sCIFARでTransformerを上回る． • sMNIST, sCIFAR: MNIST, CIFARを1次元へと flatten化．画像の帰納バイアスが使えないため，⾃⼒で系列の依存関係を理解する必要がある

動作確認 • 09. Hungry Hungry Hippos: Towards Language Modeling with
State Space Models • 10. OccamNets: Mitigating Dataset Bias by Favoring Simpler Hypotheses

09. Hungry Hungry Hippos: Towards Language Modeling with State Space
Models [Gu+(Stanford Univ.), ICLR23 (notable top 25%)] 13 ü 背景: SSMは様々なモダリティにおいて有⽤性が検証されてきたが，未だ⾔語系においては性能が不⼗分 • Transformerとの⽐較実験によって以下の⼆つが不得意であることを確認 • ①前⽅にあるトークンの記憶 ②トークン間の⽐較 → H3 (Hungry Hungry Hippos)を提案 • Transformerに則り，Q, K, V による設計 • Hybrid(H3 + Attention)で GPT-2, GPT-Neoよりも低いperplexity

09. Hungry Hungry Hippos: Towards Language Modeling with State Space
Models [Gu+(Stanford Univ.), ICLR23 (notable top 25%)] 14 • H3: (B, L, H) = (8, 6, 512) • データセット: The Pile (hacker_newsのみを使⽤) • 学習時間: 98時間, Epoch: 92 • RAM(GPU): 17.3GB, test/perplexity: 29.5 所感 • H3動かすのにCUDA関係でめちゃくちゃ苦労した… • 後続のHyenaになるとImageを扱えるので，普通にマルチモダリティ扱えそう • 学習時間が減ってる感じはあまりわからない • もう少し軽量のデータセットで試せば効果を実感できそう

10. OccamNets: Mitigating Dataset Bias by Favoring Simpler Hypotheses[Shrestha+(Rochester Institute
of Technology), ECCV22] 15 ü 概要: データセットのバイアスに対処する⼿法OccamNetsを提案 • バイアス = 学習とは関係ないが，疑似相関が存在するようなもの (e.g., シロクマと⽩い⼤地) • 本研究ではcolor, texture, scale, contextual等を⼈為的に操作したデータセットを使⽤ • オッカムの剃⼑に則り，以下の帰納バイアスにより設計 • Early Exit: なるだけ前⽅の層を使⽤ • Visual Contraint: なるだけ少ない数の領域を使⽤ • CAMをlossに追加: saliency mapが⾼いものだけを重視するように

10. OccamNets: Mitigating Dataset Bias by Favoring Simpler Hypotheses[Shrestha+(Rochester Institute
of Technology), ECCV22] 16 • データセット: COCO-on-places (2万サンプル抽出) • Backbone: Resnet-18 • 学習時間: 1時間強, RAM(GPU): 5GB • Epoch: 150 所感 • 論⽂値 = 43.4 < 再現値 = 55.8 • (データセットが違うので単純⽐較はできないが) • 帰納バイアス通り，モデルはかなり軽量なので動かしやすい • バイアス(疑似相関)が多いデータセットさえ⾒つければかなり有⽤そう • (pytorch-lightning使ってるプロジェクトが増えてきたイメージ… → OccamNetsもH3もS4もlightning)

論⽂速読第⼆週⽬ 11 〜 20 慶應義塾⼤学杉浦孔明研究室 M1 和⽥唯我 2023

タスク論⽂ 11 〜 14

11. OpenRooms: An Open Framework for Photorealistic Indoor Scene Datasets[Li+(UC
San Diego), CVPR21] 19 ü 概要: photorealisticな屋内環境を⽣成するフレームワーク・データセットOpenRoomsを提案 Material editing Object insertion 市販の3Dセンサからデータセットを作成可能 • サンプル数: 100K → HDR画像, depth, BRDF, 光源, ピクセルベースのsemantic labels を含む • Light source detection • Per-pixel lighting estimation • Robotics and Embodied Vision → 摩擦係数のGTを取得可能 • Inverse Rendering • Intrinsic decomposition • Depth and normal estimation • Semantic segmentation • Augmented Reality • Object insertion • Material editing 多様なタスクの訓練に使⽤可能

12. Habitat-Matterport 3D Dataset (HM3D): 1000 Large-scale 3D Environments for
Embodied AI [Ramakrishnan+(FAIR),NeurIPS21] 20 ü 背景: 実世界における室内環境3Dデータセットは未だ少ない • ⼤規模室内環境3DデータセットHabitat-Matterport 3D Dataset (HM3D)を提案 • 離散環境であるMatterport3Dとは異なり，連続環境なのでcontinuousなVLNが要請される • M3D+HM3DによるVLN: [Hong+,CVPR22] • Matterport3D(M3D)よりも10倍のsceneが存在

13. Habitat-Matterport 3D Semantics Dataset[Yadav+(Meta), 2022] 21 ü 概要: 前述のHM3Dに⼤規模でdenseなアノテーションを⾏ったデータセットを提案
• Habitat-Matterport 3D Dataset Semantics (HM3DSEM) • 2022年10⽉公開なので未採択．おそらく採択されるはず • (少なくとも NeurIPS Datasets and Benchmarks Trackには通ると思います) • 統計情報 ↓ • texture(3D)でannotateされており， glTF (.glb) フォーマットで格納 • MP3Dよりも2.1倍多いアノテーション • iioka君のB4研究にそのまま使える？ • 多分簡単にmaskを取れるはず code / project GIF画像

14. DialFRED: Dialogue-enabled agents for embodied instruction following [Gao(UCLA)+, IROS22]
22 ü 背景: ロボットに対する⼈間の指⽰は曖昧なことが多いため，対話によって指⽰を明確化する必要性 • 例: 2本のナイフがある場合→ナイフの⾊をロボット側が聞き返すことで指⽰が明確に • ALFREDをベースとした対話型のEmbodied Instruction Following ベンチマークDialFREDを提案 • 統計情報 • Sub-Goal: 25種類 (ALFREDでは8種類) • Q/A: 53K • Navigation actions: 5個 • Manipulation actions: 7個 (e.g., Pickup) baseline

⼿法論⽂ 15〜 18

15. Zero Shot Image Restoration Using Denoising Diffusion Null- Space
Model [Wang+(Peking University), ICLR23(notable top 25%)] 24 ü 背景: 逆問題(Ax=yからxを推定)はNull-Spaceと関係が深いため[Schwab+, 19]，Image Restorationには Range-Null space decompositionが有効である • 提案⼿法: Diffusion Null-Space Model (DDNM) • 学習済み拡散モデルを⽤いて，任意の逆問題 (Super-Resolution, Inpainting, Colorization … etc)を Zero-Shot で解く • DDPMと同じ⼿続きでdenoiseした 𝑥 に対して 𝑥 をnull-spaceに⾶ばす → (I − A!A)𝑥 Range-Null space decomposition Range-space Null-space if (擬似逆⾏列==逆⾏列) return 0

ü 背景: continuous VLNは訓練が困難 & discrete VLNにおける既存研究をcontinuous VLNに適⽤するのはドメインギャップの観点から難しい． •
連続空間におけるwaypoint予測器をMP3Dのnav. graphから学習する⼿法を提案 • データセット: R2R-CE, RxR-CE (Matterport3DSimulatorから構築) • SPLにおいて，既存⼿法を上回る → 本⼿法はSOTAを達成 16. Bridging the Gap Between Learning in Discrete and Continuous Environments for Vision-and-Language Navigation [Hong+ (Australian National Univ.), CVPR22] 25 overview Waypoint Predictor 8位に転落してます…→ Eval AI

17. Energy-Based Reranking: Improving Neural Machine Translation Using Energy- Based
Models [Bhattacharyya+(University of North Carolina Charlotte) ,ACL-IJCNLP21] 26 ü 背景: NMTでは最尤推定に基づく学習が主流だが，最尤推定とmetricsの間に強い相関はない • 例: 右下の図はあるタスクにおけるBLEUと最尤推定値の相関 (Spearman) → 強い相関は⾒られない • それゆえ，強化学習に基づく⼿法が提案されてきた (e.g., BLEUで強化学習) • 提案: BLEUとlossが相関する学習⽅法としてEBMに基づく⼿法を提案 • BLEUによってrank付け→⼤⼩関係を元にEnergy関数を学習 • BaseNMT: Transformer → Conditional-EBMが各⾔語においてTransformerを上回る

18. Visual Recognition with Deep Nearest Centroids [Wang+(Zhejiang Univ.), ICLR23(notable
top 25%)] 27 ü 背景: 現在のDNNは完全にparametricなので(パラメタに対して誤差を計算するだけ)，パラメタの扱いが抽象的であり，現実的なモデリングとは⾔えない → ゆえにブラックボックス的であり説明性に⽋ける • Sub-centroids を⽤いた視覚認識のためのモデルDeep nearest centroids (DNC)を提案 • モデルを特徴量抽出器(f)と識別器(l)に分割した際，後者をnon-parametricにすることで，説明性が向上 • DNC: fの出⼒からクラスに基づいたサブクラスタを作成し，sub-centroidsを元にクラスを識別 • サブクラスタの形成にbinary integer program (BIP)を⽤いる→ 最適輸送に落とし込み，Sinkhorn-Knopで解く • 𝐼, ⋅ をクエリ画像𝐼との類似度とすると，右上の図のようにIF-THEN形式の論理式で識別を記述できる (類似度による定量的な説明性も出⼒可能)

動作確認 • 19. Rethinking the Effect of Data Augmentation in
Adversarial Contrastive Learning [Luo+,ICLR23] • 20. Compositional Visual Generation with Composable Diffusion Models [Liu+ECCV22]

19. Rethinking the Effect of Data Augmentation in Adversarial Contrastive
Learning [Luo+(Peking Univ.), ICLR23] 29 ü 背景: adversarial training (AT)は頑健性に寄与するが，⾃⼰教師あり学習(SSL)においては，未だ教師あり学習よりも強い頑健性を獲得できるAT⼿法は存在しない (self-AT := SSL + AT) • Strong / weak に拘らず，data augmentationはself-ATに有益でないことを検証し，新たな学習⼿法として DYNACL（Dynamic Adversarial Contrastive Learning）を提案 • Self-ATにおけるdata augmentationの弊害 • Train-test間の分布ギャップ • クラス間の分離不可能性 (class inseparability) → ⼀⽅，augmentationの強さ 𝑠 に対して分布ギャップ vs 精度・頑健性はtrade-off ⇒ 動的に 𝑠 が変化するself-AT⼿法としてDYNACLを提案 • DYNACL++: DYNACLwith post-processing • Linear Probing then full FineTuning[Kumar+, ICLR22]に則り， head以外を固定してheadを学習→全体を疑似ラベルでfinetune • 結果: 既存⼿法をCIFAR-10, CIFAR-100 において上回る

19. Rethinking the Effect of Data Augmentation in Adversarial Contrastive
Learning [Luo+(Peking Univ.), ICLR23] 30 • DYNACLをCIFAR-100で学習 (code) • 学習時間: 32時間, Epoch: 673 • RAM(GPU): 7.5GB 学習過程所感 • 論⽂値=19.25 ≒ 再現値 = 18.59 • 若⼲低い気もするが，再現できたことにする • SSLにしては1epochに若⼲時間が掛かった印象 • ⼿法はシンプルなので，どんなタスクでも簡単に組み込めそう

20. Compositional Visual Generation with Composable Diffusion Models [Liu+(University of
Illinois Urbana-Champaign), ECCV22] 31 ü 概要: Energy Based Models (EBM) によるcompositionalな画像⽣成を拡散モデルに適⽤した⼿法 • 拡散モデルをEBMで捉え直し，右下の図のようにAND, OR, NOTを定義 Compositional Visual Generation with Energy Based Models [Du+(MIT), NeurIPS20] "mystical trees" AND "A magical pond" AND NOT "Dark" "mystical trees" AND "A magical pond" AND "Dark" 所感: EBMは⽣成系でよく使われるというイメージが⽣えた [Suhali+, CVPR21] (輪講)，検索結果

20. Compositional Visual Generation with Composable Diffusion Models [Liu+(University of
Illinois Urbana-Champaign), ECCV22] 32 • データセット: CLEVR Objects • 学習時間: 34時間, Steps: 2.41e+05 • RAM(GPU): 9.6GB, diffusion step: 1000 所感 • かなりlossは下がってくれている • それっぽい画像は⽣成してくれるが，epoch数が⾜りないのか指定した位置には画像を⽣成してくれていない模様⽣成画像

論⽂速読第三週⽬ 21 〜30 慶應義塾⼤学杉浦孔明研究室 M1 和⽥唯我 2023

タスク論⽂ 21 〜 24

21. Less is More: Generating Grounded Navigation Instructions from Landmarks
[Wang+(Google), CVPR22] 35 ü 概要: 屋内環境におけるナビゲーション指⽰を⾃動⽣成する⼿法Markeyを提案 • MARKY-MT5: landmark detectorとinstruction generator (T5)で構成 • MARKY-MT5: RxRのnav. pathsとlandmarkから学習 • LandmarkのGTは存在しないので⾃動で⽣成 (i.e., silver data) • RxRはナビゲーションの各単語にtimestampが存在するので⾃動⽣成可 1. Landmark detector • エージェントのパノラマ画像からlandmarkを特定 2. Instruction generator • テンプレートに沿ったtextからナビゲーション指⽰を⽣成 • T5をfinetune ⽣成⽂の⾃動評価結果

22. Zillow Indoor Dataset: Annotated Floor Plans With 360deg Panoramas
and 3D Room Layouts [Cruz(Univ. of Colorado Colorado Springs)+, CVPR21] 36 ü 概要: 室内環境に関する⼤規模データセットとしてZillow Indoor Dataset (ZInD)を提案 • ZInD: 3Dレイアウト，2D/3D floor plan, パノラマ画像，ドア・窓の位置等を含む • 家具が存在しない設定での環境 (unfurnished homes) • 統計情報 • パノラマ: 71,474枚 • 家: 1,524個 • room layouts: 21,596個 • floor plans: 2,564個 • タスク • Layout Estimation • floor plan recovery from panoramas • Memo • ProcTHOR等での室内環境データセットの構築 → 現実的な部屋の配置情報として使える

23. Airbert: In-domain Pretraining for Vision-and-Language Navigation[Guhur+, ICCV21] 37 ü
背景: 室内環境は多様性に富んでおりunseenな環境にはtrain時に存在しない物体が多く存在する • Airbnbから収集した⼤規模な室内環境データセットBnBを提案 • BnB: ⼤規模室内環境データセット • Airbnbから室内画像とキャプションの組を収集 • それらの組から⾃動的にinstructionを⽣成 1. Captionをconcat 2. templateを埋める 3. ViLBERTによりinstructionを⽣成 (V&Lモデルによりno captionに対応)

24. Synthetic-to-Real Domain Adaptation for Action Recognition: A Dataset and
Baseline Performances [Reddy+(Johns Hopkins University), ICRA23] 38 ü 背景: 合成データと実データの間のドメインギャップに対してDomain Adaptation (DA)が有望視されている • 動画像処理におけるDA研究のためのデータセットRoCoG-v2を提案 (RoCoG-v1[Melo+, IROS20]) • タスク: 動画からジェスチャーを認識 • ⼆種類の視点からの動画 (ground, air) • 7個のジェスチャージェスチャー

⼿法論⽂ 25 〜 28

25. A New Path: Scaling Vision-and-Language Navigation with Synthetic Instructions
and Imitation Learning[Kamath+(NewYork Univ.), CVPR23] 40 ü 背景: ⼤規模データで学習したV&Lモデルが台頭しているが，VLNの学習においては従来のWebベースの⼤規模データでは不⼗分 ü 仮説: 空間に接地された action-oriented な指⽰⽂が必要 • 提案⼿法: MARVAL • 前述のMarkeyでMP3Dの指⽰⽂を⾃動⽣成し学習 (データセットは公開予定→4.2Mの指⽰-軌跡ペア) • i2iのモデル(GAN)を⽤いて新たなviewを⽣成しaugmentation • モデル構造はHAMT[Chen+, NeurIPS21]を踏襲 • エラーからの回復を学習させるためDAGGERアルゴリズムを採⽤ • R2RにおいてSOTAを達成 (NDTW; Normalized Dynamic Time Warping)

26. SELF-INSTRUCT: Aligning Language Model with Self Generated Instructions [Wang+(Univ.
of Washington), 2022] 41 ü 背景: アノテーションはコストが掛かる + ⼈⼿のバイアスによる多様性の⽋如 • BootstrapによってLLMからinstruction-tuning⽤のデータセットを⾃動⽣成する⼿法self-instructを提案 1. Task pool ← seed tasks(少量の⼈⼿によるinstruction群) 2. 8個のtaskをtask poolからランダムにサンプリング→LLMにincontext-learning(few-shot)させる 3. Classification Task Identification: 分類問題かどうかをLLMに識別させる 4. 分類問題かどうかでtaskの形式を決定 5. Filtering: pool内のinstructionとのROUGE-Lが0.7以上のものを弾く (以降2に戻る) Zero-shot: SUPERNIにてGPT3を上回る

27. GOT: An Optimal Transport framework for Graph comparison[Maretic+(LTS4), NeurIPS19]
42 ü 概要: グラフの⽐較はchallengingな問題 → 最適輸送によってグラフを⽐較する⼿法を提案 • graph alignment問題(⾮凸性)に適⽤し， stochasticにgraph alignment問題を解く⼿法も提案 • グラフはラプラシアン⾏列 𝐿 を⽤いた確率分布とみなせる • この定式化により，globalな構造を捉えた⽐較を⾏うことができる • Wasserstein距離は以下のように，ラプラシアン⾏列の逆⾏列のtraceで書ける • 𝐿 の差分のノルムは⼀致するが， Wasserstein距離は⼤きく異なる例 → • 所感 • Scene graph等に使えそう

28. LLaMA: Open and Efficient Foundation Language Models [Touvron+(Meta), 2023]
43 ü 背景: 近年のLLMには推論に関する議論が抜けている → 推論が早く安価に学習ができてパラメタが少ないモデルを⼤量のデータで学習させるのがbetter ⇒ オープンなデータかつ7B〜65B程度のパラメタで構成されたLLMとしてLLaMAを提案 • LLaMA-13B • ほとんどのベンチマークで GPT-3(175B) を上回るゼロショット性能 (Common Sense Reasoning tasks) データセットの割合モデルサイズごとのハイパラ

動作確認 • 29. SeqTR: A Simple yet Universal Network for
Visual Grounding • 30. FILM: Following Instructions in Language with Modular Methods

29. SeqTR: A Simple yet Universal Network for Visual Grounding
[Zhu+(Xiamen Univ.), ECCV22] 45 ü 概要: Pix2Seqを元にvisual groundingを点予測問題へと帰着して解く⼿法SeqTRを提案 ü REC / RESを同じフレームワークで解くことができる • Mask contour sampling • Center-based: 中⼼からの⼀定間隔の⾓度でsampling • Uniform: 時計回りに⼀様にsampling • mIOUのupper-boundを決めてしまうため慎重に設計する必要あり • Language Encoder: bidirectional GRU を使⽤ • 定式化の妥当性を検証するためBERT等を使わずGRUを採⽤ ü 結果: RefCOCOにおいてSOTAを達成

29. SeqTR: A Simple yet Universal Network for Visual Grounding
[Zhu+(Xiamen Univ.), ECCV22] 46 • SeqTRをMS-COCOで学習 • 学習時間: 39時間, Epoch: 90 • RAM(GPU): 14.82GB 所感 • 論⽂値(67.26) ≒ 再現値 (66.44) • コードが未完成なのは何故… (issue) • 上の定性的結果を⾒ると，mIOUのupper-boundを決めてしまうという議論通り，若⼲不⾃然なmask が⽣成されてしまう • Polygonだと荒いことがあるので，さらにここから何らかの⽅法でmaskをrefine?していくモデルとかできないかな？ (条件付け的な)

30. FILM: Following Instructions in Language with Modular Methods [Min+(Carnegie
Mellon Univ.), ICLR22] 47 ü 概要: 環境を表現するsemantic mapから探索の⽬標位置を予測するVLNモデルとしてFILMを提案 • ALFREDにおけるSOTA⼿法Prompterの先⾏研究 • Language Processing • BERT type classification: タスクの種類を予測 → サブタスクのテンプレートを選択 • BERT argument classification: 対象物体を予測 → テンプレートに挿⼊ Language Processing

30. FILM: Following Instructions in Language with Modular Methods [Min+(Carnegie
Mellon Univ.), ICLR22] 48 • データセット: ALFRED • 学習可能モジュール: Language Processing, Semantic Policy • Language Processingは学習できたが，Semantic Policyはデータセットが 1.6TBもあることが判明し動作確認できず… ←Language Processing の動作確認

論⽂速読第四週⽬ 31 〜40 慶應義塾⼤学杉浦孔明研究室 M1 和⽥唯我 2023

タスク論⽂ 31 〜 34

31. Visual Room Rearrangement [Weihs+(Allen Institute), CVPR21] 51 ü 背景:
環境とinteractするrearrangement タスクは重要 ü 制約の少ないRearrangement タスクのためのデータセット RoomRを提案 • 既存データセットとの違い • visual的にも地形的にも複雑 & 多様な物体・物体の状態が含まれる • 統計情報 • settings: 6,000 • scenes: 120 • objects: 72 • 現時点でのSOTAでも SR(test)は12%程度初期状態, 予測領域, rearrangement後 leaderboard1, leaderboard2

32. The Abduction of Sherlock Holmes: A Dataset for Visual
Abductive Reasoning [Hessel+(Allen Institute), ECCV22] 52 ü タスク: Visual Abductive Reasoning • clue(観察された物体のBBOX)からabductive inferenceを得るタスク • 363Kの(clue, inference)を含むコーパス Sherlock を提案 abductive inference

33. Agriculture-Vision: A Large Aerial Image Database for Agricultural Pattern
Analysis[Chiu(UIUC)+, CVPR20] 53 ü 背景: 適切な農業⽤データセットが存在しないため，農業に関するCVは未だ未発達 ü 農業のためのSegmentation⽤航空写真データセットAgriculture-Visionを提案 • 提案データセット: Agriculture-Vision • Class: double plant, drydown, endrow, nutrient deficiency, planter skip, storm damage, water, waterway, weed cluster • 統計情報 • 画像: 94,986枚 • ラベル: 169,086 • クラス: 9個

34. TEACh: Task-driven Embodied Agents that Chat [Padmakumar(Amazon Alexa)+, AAAI22]
54 ü 背景: 対話を通した家事タスクにおけるデータセットTEAChを提案 • 指⽰を⾏うFollowerと実⾏役のCommanderから構成 • タスク • Execution from Dialogue History (SR=9.62) • 学習対象: Follower • 対話履歴から実⾏を予測 • Trajectory from Dialogue (SR=0.17) • 学習対象: Follower • 対話からエージェントの軌跡を予測 • Two-Agent Task Completion (SR=24.4) • 学習対象: Follower / Commander • ⽬標: 環境観測だけが与えられた状態でタスクを完遂 • ベースラインはルールベース

⼿法論⽂ 35 〜 38

35. LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention
[Zhang+(Shanghai Artificial Intelligence Laboratory), 2023] 56 ü 概要: 1.2MでLLaMA(7B/13B)をfine-tuneする⼿法を提案 ü 1時間 (V100 8台)でfine-tune可能 & マルチモダリティにも対応可 • 提案⼿法: LLaMA-Adapter • LLaMAの後半層に対してAdaption Promptを追加 • 追加対象の層のAttentionは0で初期化 (noiseの影響を軽減) • Gate機構を追加し，LLaMAのトークン(prompt)をコントロール • 画像を各解像度ごとにトークン化し，Adapterを噛ますことでマルチモーダル学習を実現

36. EnvEdit: Environment Editing for Vision-and-Language Navigation[Li+(UNC Chapel Hill), CVPR22]
57 ü 背景: VLNタスクでは未知の環境における汎化性能が重要 ü 既存の環境をedit (augment) することで汎化性能を上げるVLN⼿法EnvEditを提案 • 提案⼿法: EnvEdit • Style, Appearance, Object classをそれぞれedit • 環境をedit → navigationを学習 → Back Translation ← 7位 (R2R)

37. Segment Anything [Kirillov+(FAIR), 2023] 58 ü 概要: 下流タスクに応⽤できるSegmentation⽤の基盤モデルを開発 •
Task: promptable segmentation • NLPの基盤モデルに則り，あるpromptを⼊⼒としてvalidなmaskを⽣成するタスク • Model: Segment Anything Model (SAM) • Prompt Encoder + Image Encoder • Data: data engine • Data engineにより半⾃動的にデータセットを⽣成 promptable segmentation

38. City-scale Scene Change Detection using Point Clouds [Yew+(National University
of Singapore), ICRA21] 59 ü 背景: 都市の3Dデータを最新状態に維持するためには，構造的な変化を検出する必要あり • 2時刻における⾞載カメラの撮影画像から都市の構造変化を検出する⼿法を提案 • ⼆種類のデータセットを作成 • Business District (BD) • ⾼層ビルが多く含まれる • Research Town (RT) • ⽐較的低い建築物が多く含まれる • SfMに通して点群を得た後，点群を⽐較して変化領域を検出

動作確認 • 39. Episodic Transformer for Vision-and-Language Navigation • 40.
Composing Text and Image for Image Retrieval

39. Episodic Transformer for Vision-and-Language Navigation [Pashevich+(Inria), ICCV21] 61 ü
VLNにおける課題: サブタスクの連続的な実⾏・複雑なinstructionの理解 • 視覚情報・全episode情報・全⾏動を全て⼊⼒とするEpisodic Transformerを提案 • Language Encoder: 合成指⽰⽂を⽣成するようにpretrain • 結果: ALFREDにおいてSR(seen) = 38.4%, SR(unseen) = 8.5%

39. Episodic Transformer for Vision-and-Language Navigation [Pashevich+(Inria), ICCV21] 62 •
データセット: DialFRED • Epoch: 20, 学習時間: 3時間 • RAM(GPU): 9.98GB • val-unseenにてSR = 0.2047, PWSR = 0.1233 所感 • VRAMもあまり⾷っていないし，学習時間もそこまでなので，⽐較的軽量なモデルであるような印象を受けた • DialFREDだけでなくTEAChのベースラインにも採⽤されていて，E.T.の汎⽤性の⾼さを感じる

40. Composing Text and Image for Image Retrieval [Vo+(Georgia Tech),
CVPR19] 63 ü 概要: 画像と変更テキストから別の画像を検索するimage retrieval taskの⼿法TIRGを提案 • 例: エッフェル塔の画像 / “No people and switch to night-time” • 提案⼿法: Text Image Residual Gating (TIRG) • Reference画像とtarget画像との潜在空間上での差分がテキスト特徴量となるように学習

40. Composing Text and Image for Image Retrieval [Vo+(Georgia Tech),
CVPR19] 64 • データセット: MITStates • PyTorchのバージョンが0.4.xだったのでコードを修正 • 1⽇かけてコードを⼤量修正したが，学習できず無念の敗退…

論文速読23

論文速読23

More Decks by Yuiga Wada (和田唯我)

Other Decks in Technology

Featured

Transcript