$30 off During Our Annual Pro Sale. View Details »

論文速読23

 論文速読23

Yuiga Wada (和田唯我)

April 17, 2023
Tweet

More Decks by Yuiga Wada (和田唯我)

Other Decks in Technology

Transcript

  1. 論⽂速読
    第⼀週⽬ 01 〜10
    慶應義塾⼤学
    杉浦孔明研究室 M1 和⽥唯我
    2023

    View Slide

  2. タスク論⽂
    01 〜 04

    View Slide

  3. 01. Physion: Evaluating Physical Prediction from Vision in Humans and
    Machines[Bear+(Stanford), NeurIPS21]
    3
    ü 背景: 既存のモデルは現実の物理現象を理解できるのか?
    • 8個の物理現象をシミュレートしたデータセットPhysionを提案
    • DominoesやSupport(積まれた物体)など, 多様な
    物体・環境下における物体衝突予測タスク
    • Object Contact Predictionタスク
    • ⾚い物体が⻩⾊の物体に
    衝突するかの⼆値分類
    • 粒⼦ベースの精度は⼈間と同等だが
    Visionベースの精度はかなり低い 現時点での粒⼦ベース⼿法SOTA?:
    SGNN[Han+, NeurIPS22]

    View Slide

  4. 02. Delivering Arbitrary-Modal Semantic Segmentation
    [Zhang+(Karlsruhe Institute of Technology),CVPR23]
    4
    ü 背景: 任意数のモダリティを統合する研究は未だ不⼗分
    • DeLiVERデータセットを提案
    • モダリティ: Depth, LiDAR, multiple Views, Events, and RGB.
    • タスク: ⾞両viewについての instance / semantic segmentation
    • ベースライン: CMNEXT
    • 多様な訓練データを含む
    • Viewは6視点から提供される
    • 5つの環境条件 (cloudy, foggy, night-time, rainy and sunny)
    • 5つのコーナーケース (e.g., Motion Blur; Over Exposure … etc)
    • Segmentationとして25クラスが付与されている

    View Slide

  5. 03. IconQA: A New Benchmark for Abstract Diagram Understanding
    and Visual Language Reasoning [Lu+(UCLA), NeurIPS21]
    5
    ü 背景: 抽象的な図に関するVQAの研究は未だ不⼗分
    • 抽象図を⽤いたデータセットIconQAを提案 (複数画像選択, 複数テキスト選択, 空欄補充)
    • ベースライン: Patch-TRM (⼀般のVQAモデルもベースライン群に設定可能)
    • 要請されるスキル↓ / ベースラインの精度 →

    View Slide

  6. 04. Learning 3D Semantic Scene Graphs from 3D Indoor
    Reconstructions[Wald+(Technische Universitat Munchen), CVPR20]
    6
    ü 概要: 3RScanにおけるシーングラフデータセット3DSSGを提案
    • PointNet + GCNによって点群から半⾃動的にシーングラフを⽣成
    • タスク: scene graph generation / captioning(?)
    • class / relation 共にrichなラベリング →
    • ベースライン(?):
    • Explore Contextual Information for 3D Scene Graph Generation
    (IEEE Transactions on Visualization and Computer Graphics)

    View Slide

  7. ⼿法論⽂
    05 〜 08

    View Slide

  8. 05. Parameter is Not All You Need: Starting from Non-Parametric Networks for 3D
    Point Cloud Analysis[Zhang+(Shanghai Artificial Intelligence Laboratory),CVPR23]
    8
    • パラメタを⼀切使⽤せずに,多様な3Dタスクにおいて既存⼿法に匹敵する⼿法Point-NNを提案.
    • 学習可能なヘッドの代わりにPoint-Memory Bankで特徴量を保持
    → Point-PN: Point-Memory Bank等を線形層にした軽量モデル
    • 「farthest point sampling (FPS)→k-近傍→プーリング」の繰り返しで構成
    • パラメタを使わずに点群を⾼次元空間に写像
    • Positional Encodingによる⾮線形変換が有効?

    View Slide

  9. 06. Open-Vocabulary Panoptic Segmentation with Text-to-Image
    Diffusion Models[Xu+(UC San Diego), CVPR23]
    9
    • 背景: 拡散モデルはテキストとのcross-attentionを取っているので,⾔語で表現されるような概念
    を潜在空間上で捉えている可能性がある. (傍証)
    • CLIPとStable Diffusionを使ったopen-vocab.なsegmentationモデルODISEを提案
    • 結果: Swin(H), ConvNeXt(H)を上回る
    https://jerryxu.net/ODISE/

    View Slide

  10. 07. Generating Data to Mitigate Spurious Correlations in Natural
    Language Inference Datasets[Wu+(Microsoft),ACL22]
    10
    • NLPのデータセットにはバイアス(タスクとは無関係な特徴)が含まれることが多い.
    • バイアスは擬似相関を⽣み出すので,分布内では上⼿く予測できるが汎化性を得られない.
    • 例: SNLIはhypothesisだけで解けてしまうことがある→ hypothesisにバイアスの可能性
    • バイアスを軽減する⼿法を提案
    • データを⽣成するGenerator (e.g., GPT-2をfinetune)
    • Z検定[Gardner+, EMNLP21]によるz-filter
    → ⼀様分布からどれだけ 𝑝(𝑙|𝑥) が離れているか
    • 結果: 特にSNLI-hardにおいて⾼い性能
    • SNLI-hard: hypothesis-onlyで解けてしまうもの
    を除いたデータセット

    View Slide

  11. 08. Combining Recurrent, Convolutional, and Continuous-time Models
    with Linear State-Space Layers [Gu+(Stanford Univ.), NeurIPS21]
    11
    ü ⻑距離系列を扱う上で,状態空間モデル(SSM)にHiPPOを導⼊し,RNNのような
    recurrent と CNNのようなconvolution の両⽅で学習できる⼿法LSSLを提案
    • RNNs: 👍系列データの学習 👎⻑距離系列→勾配爆発
    • CNNs: 👍⾼速かつ並列可能 👎系列データの学習に向いていない
    • NDEs: 👍 連続かつ⻑距離依存を扱える 👎効率が悪い
    • これら三者の利点を統合する形のモデルを⽬指す
    • SSMの⾏列AをHiPPO⾏列にするだけで,
    sCIFARでTransformerを上回る.
    • sMNIST, sCIFAR: MNIST, CIFARを1次元へと
    flatten化.画像の帰納バイアスが使えないため,
    ⾃⼒で系列の依存関係を理解する必要がある

    View Slide

  12. 動作確認
    • 09. Hungry Hungry Hippos: Towards Language Modeling with State
    Space Models
    • 10. OccamNets: Mitigating Dataset Bias by Favoring Simpler Hypotheses

    View Slide

  13. 09. Hungry Hungry Hippos: Towards Language Modeling with State
    Space Models [Gu+(Stanford Univ.), ICLR23 (notable top 25%)]
    13
    ü 背景: SSMは様々なモダリティにおいて有⽤性が検証されてきたが,未だ⾔語系
    においては性能が不⼗分
    • Transformerとの⽐較実験によって以下の⼆つが不得意であることを確認
    • ①前⽅にあるトークンの記憶 ②トークン間の⽐較
    → H3 (Hungry Hungry Hippos)を提案
    • Transformerに則り,Q, K, V による設計
    • Hybrid(H3 + Attention)で
    GPT-2, GPT-Neoよりも
    低いperplexity

    View Slide

  14. 09. Hungry Hungry Hippos: Towards Language Modeling with State
    Space Models [Gu+(Stanford Univ.), ICLR23 (notable top 25%)]
    14
    • H3: (B, L, H) = (8, 6, 512)
    • データセット: The Pile (hacker_newsのみを使⽤)
    • 学習時間: 98時間, Epoch: 92
    • RAM(GPU): 17.3GB, test/perplexity: 29.5
    所感
    • H3動かすのにCUDA関係でめちゃくちゃ苦労した…
    • 後続のHyenaになるとImageを扱えるので,普通に
    マルチモダリティ扱えそう
    • 学習時間が減ってる感じはあまりわからない
    • もう少し軽量のデータセットで試せば効果を
    実感できそう

    View Slide

  15. 10. OccamNets: Mitigating Dataset Bias by Favoring Simpler
    Hypotheses[Shrestha+(Rochester Institute of Technology), ECCV22]
    15
    ü 概要: データセットのバイアスに対処する⼿法OccamNetsを提案
    • バイアス = 学習とは関係ないが,疑似相関が存在するようなもの (e.g., シロクマと⽩い⼤地)
    • 本研究ではcolor, texture, scale, contextual等を⼈為的に操作したデータセットを使⽤
    • オッカムの剃⼑に則り,以下の帰納バイアスにより設計
    • Early Exit: なるだけ前⽅の層を使⽤
    • Visual Contraint: なるだけ少ない数の領域を使⽤
    • CAMをlossに追加: saliency mapが⾼いもの
    だけを重視するように

    View Slide

  16. 10. OccamNets: Mitigating Dataset Bias by Favoring Simpler
    Hypotheses[Shrestha+(Rochester Institute of Technology), ECCV22]
    16
    • データセット: COCO-on-places (2万サンプル抽出)
    • Backbone: Resnet-18
    • 学習時間: 1時間強, RAM(GPU): 5GB
    • Epoch: 150
    所感
    • 論⽂値 = 43.4 < 再現値 = 55.8
    • (データセットが違うので単純⽐較はできないが)
    • 帰納バイアス通り,モデルはかなり軽量なので動かしや
    すい
    • バイアス(疑似相関)が多いデータセットさえ⾒つければ
    かなり有⽤そう
    • (pytorch-lightning使ってるプロジェクトが増えてきたイ
    メージ… → OccamNetsもH3もS4もlightning)

    View Slide

  17. 論⽂速読
    第⼆週⽬ 11 〜 20
    慶應義塾⼤学
    杉浦孔明研究室 M1 和⽥唯我
    2023

    View Slide

  18. タスク論⽂
    11 〜 14

    View Slide

  19. 11. OpenRooms: An Open Framework for Photorealistic Indoor Scene
    Datasets[Li+(UC San Diego), CVPR21]
    19
    ü 概要: photorealisticな屋内環境を⽣成するフレームワーク・データセットOpenRoomsを提案
    Material editing
    Object insertion
    市販の3Dセンサからデータセットを作成可能
    • サンプル数: 100K
    → HDR画像, depth, BRDF, 光源,
    ピクセルベースのsemantic labels を含む
    • Light source detection
    • Per-pixel lighting estimation
    • Robotics and Embodied Vision
    → 摩擦係数のGTを取得可能
    • Inverse Rendering
    • Intrinsic decomposition
    • Depth and normal estimation
    • Semantic segmentation
    • Augmented Reality
    • Object insertion
    • Material editing
    多様なタスクの訓練に使⽤可能

    View Slide

  20. 12. Habitat-Matterport 3D Dataset (HM3D): 1000 Large-scale 3D
    Environments for Embodied AI [Ramakrishnan+(FAIR),NeurIPS21]
    20
    ü 背景: 実世界における室内環境3Dデータセットは未だ少ない
    • ⼤規模室内環境3DデータセットHabitat-Matterport 3D Dataset (HM3D)を提案
    • 離散環境であるMatterport3Dとは異なり,
    連続環境なのでcontinuousなVLNが要請される
    • M3D+HM3DによるVLN: [Hong+,CVPR22]
    • Matterport3D(M3D)よりも10倍のsceneが存在

    View Slide

  21. 13. Habitat-Matterport 3D Semantics Dataset[Yadav+(Meta), 2022]
    21
    ü 概要: 前述のHM3Dに⼤規模でdenseなアノテーションを⾏ったデータセットを提案
    • Habitat-Matterport 3D Dataset Semantics (HM3DSEM)
    • 2022年10⽉公開なので未採択.おそらく採択されるはず
    • (少なくとも NeurIPS Datasets and Benchmarks Trackには通ると思います)
    • 統計情報 ↓
    • texture(3D)でannotateされており,
    glTF (.glb) フォーマットで格納
    • MP3Dよりも2.1倍多いアノテーション
    • iioka君のB4研究にそのまま使える?
    • 多分簡単にmaskを取れるはず code / project
    GIF画像

    View Slide

  22. 14. DialFRED: Dialogue-enabled agents for embodied instruction
    following [Gao(UCLA)+, IROS22]
    22
    ü 背景: ロボットに対する⼈間の指⽰は曖昧なことが多いため,対話によって指⽰を明確化する必要性
    • 例: 2本のナイフがある場合→ナイフの⾊をロボット側が聞き返すことで指⽰が明確に
    • ALFREDをベースとした対話型のEmbodied Instruction Following ベンチマークDialFREDを提案
    • 統計情報
    • Sub-Goal: 25種類 (ALFREDでは8種類)
    • Q/A: 53K
    • Navigation actions: 5個
    • Manipulation actions: 7個 (e.g., Pickup)
    baseline

    View Slide

  23. ⼿法論⽂
    15〜 18

    View Slide

  24. 15. Zero Shot Image Restoration Using Denoising Diffusion Null-
    Space Model [Wang+(Peking University), ICLR23(notable top 25%)]
    24
    ü 背景: 逆問題(Ax=yからxを推定)はNull-Spaceと関係が深いため[Schwab+, 19],Image Restorationには
    Range-Null space decompositionが有効である
    • 提案⼿法: Diffusion Null-Space Model (DDNM)
    • 学習済み拡散モデルを⽤いて,任意の逆問題 (Super-Resolution, Inpainting, Colorization … etc)を
    Zero-Shot で解く
    • DDPMと同じ⼿続きでdenoiseした 𝑥 に対して 𝑥 をnull-spaceに⾶ばす → (I − A!A)𝑥
    Range-Null space decomposition
    Range-space Null-space
    if (擬似逆⾏列==逆⾏列) return 0

    View Slide

  25. ü 背景: continuous VLNは訓練が困難 & discrete VLNにおける既存研究をcontinuous VLNに
    適⽤するのはドメインギャップの観点から難しい.
    • 連続空間におけるwaypoint予測器をMP3Dのnav. graphから学習する⼿法を提案
    • データセット: R2R-CE, RxR-CE (Matterport3DSimulatorから構築)
    • SPLにおいて,既存⼿法を上回る
    → 本⼿法はSOTAを達成
    16. Bridging the Gap Between Learning in Discrete and Continuous Environments
    for Vision-and-Language Navigation [Hong+ (Australian National Univ.), CVPR22]
    25
    overview Waypoint Predictor
    8位に転落してます…→ Eval AI

    View Slide

  26. 17. Energy-Based Reranking: Improving Neural Machine Translation Using Energy-
    Based Models [Bhattacharyya+(University of North Carolina Charlotte)
    ,ACL-IJCNLP21]
    26
    ü 背景: NMTでは最尤推定に基づく学習が主流だが,最尤推定とmetricsの間に強い相関はない
    • 例: 右下の図はあるタスクにおけるBLEUと最尤推定値の相関 (Spearman) → 強い相関は⾒られない
    • それゆえ,強化学習に基づく⼿法が提案されてきた (e.g., BLEUで強化学習)
    • 提案: BLEUとlossが相関する学習⽅法としてEBMに基づく⼿法を提案
    • BLEUによってrank付け→⼤⼩関係を元にEnergy関数を学習
    • BaseNMT: Transformer
    → Conditional-EBMが各⾔語に
    おいてTransformerを上回る

    View Slide

  27. 18. Visual Recognition with Deep Nearest Centroids
    [Wang+(Zhejiang Univ.), ICLR23(notable top 25%)]
    27
    ü 背景: 現在のDNNは完全にparametricなので(パラメタに対して誤差を計算するだけ),パラメタの扱いが抽象
    的であり,現実的なモデリングとは⾔えない → ゆえにブラックボックス的であり説明性に⽋ける
    • Sub-centroids を⽤いた視覚認識のためのモデルDeep nearest centroids (DNC)を提案
    • モデルを特徴量抽出器(f)と識別器(l)に分割した際,後者をnon-parametricにすることで,説明性が向上
    • DNC: fの出⼒からクラスに基づいたサブクラスタを作成し,sub-centroidsを元にクラスを識別
    • サブクラスタの形成にbinary integer program (BIP)を⽤いる→ 最適輸送に落とし込み,Sinkhorn-Knopで解く
    • 𝐼, ⋅ をクエリ画像𝐼との類似度とすると,右上の図のようにIF-THEN形式の論理式で識別を記述できる
    (類似度による定量的な説明性も出⼒可能)

    View Slide

  28. 動作確認
    • 19. Rethinking the Effect of Data Augmentation in Adversarial Contrastive
    Learning [Luo+,ICLR23]
    • 20. Compositional Visual Generation with Composable Diffusion Models
    [Liu+ECCV22]

    View Slide

  29. 19. Rethinking the Effect of Data Augmentation in Adversarial
    Contrastive Learning [Luo+(Peking Univ.), ICLR23]
    29
    ü 背景: adversarial training (AT)は頑健性に寄与するが,⾃⼰教師あり学習(SSL)においては,未だ教師あり学習
    よりも強い頑健性を獲得できるAT⼿法は存在しない (self-AT := SSL + AT)
    • Strong / weak に拘らず,data augmentationはself-ATに有益でないことを検証し,新たな学習⼿法とし
    て DYNACL(Dynamic Adversarial Contrastive Learning)を提案
    • Self-ATにおけるdata augmentationの弊害
    • Train-test間の分布ギャップ
    • クラス間の分離不可能性 (class inseparability)
    → ⼀⽅,augmentationの強さ 𝑠 に対して
    分布ギャップ vs 精度・頑健性はtrade-off
    ⇒ 動的に 𝑠 が変化するself-AT⼿法としてDYNACLを提案
    • DYNACL++: DYNACLwith post-processing
    • Linear Probing then full FineTuning[Kumar+, ICLR22]に則り,
    head以外を固定してheadを学習→全体を疑似ラベルでfinetune
    • 結果: 既存⼿法をCIFAR-10, CIFAR-100 において上回る

    View Slide

  30. 19. Rethinking the Effect of Data Augmentation in Adversarial
    Contrastive Learning [Luo+(Peking Univ.), ICLR23]
    30
    • DYNACLをCIFAR-100で学習 (code)
    • 学習時間: 32時間, Epoch: 673
    • RAM(GPU): 7.5GB
    学習過程
    所感
    • 論⽂値=19.25 ≒ 再現値 = 18.59
    • 若⼲低い気もするが,再現できたことにする
    • SSLにしては1epochに若⼲時間が掛かった印象
    • ⼿法はシンプルなので,どんなタスクでも簡単に組み
    込めそう

    View Slide

  31. 20. Compositional Visual Generation with Composable Diffusion
    Models [Liu+(University of Illinois Urbana-Champaign), ECCV22]
    31
    ü 概要: Energy Based Models (EBM) によるcompositionalな画像⽣成を拡散モデルに適⽤した⼿法
    • 拡散モデルをEBMで捉え直し,右下の図のようにAND, OR, NOTを定義
    Compositional Visual Generation with Energy Based Models [Du+(MIT), NeurIPS20]
    "mystical trees" AND
    "A magical pond" AND
    NOT "Dark"
    "mystical trees" AND
    "A magical pond" AND
    "Dark"
    所感: EBMは⽣成系でよく使われるというイメージが⽣えた
    [Suhali+, CVPR21] (輪講),検索結果

    View Slide

  32. 20. Compositional Visual Generation with Composable Diffusion
    Models [Liu+(University of Illinois Urbana-Champaign), ECCV22]
    32
    • データセット: CLEVR Objects
    • 学習時間: 34時間, Steps: 2.41e+05
    • RAM(GPU): 9.6GB, diffusion step: 1000
    所感
    • かなりlossは下がってくれている
    • それっぽい画像は⽣成してくれるが,epoch数が⾜
    りないのか指定した位置には画像を⽣成してくれ
    ていない模様
    ⽣成画像

    View Slide

  33. 論⽂速読
    第三週⽬ 21 〜30
    慶應義塾⼤学
    杉浦孔明研究室 M1 和⽥唯我
    2023

    View Slide

  34. タスク論⽂
    21 〜 24

    View Slide

  35. 21. Less is More: Generating Grounded Navigation Instructions from
    Landmarks [Wang+(Google), CVPR22]
    35
    ü 概要: 屋内環境におけるナビゲーション指⽰を⾃動⽣成する⼿法Markeyを提案
    • MARKY-MT5: landmark detectorとinstruction generator (T5)で構成
    • MARKY-MT5: RxRのnav. pathsとlandmarkから学習
    • LandmarkのGTは存在しないので⾃動で⽣成 (i.e., silver data)
    • RxRはナビゲーションの各単語にtimestampが存在するので⾃動⽣成可
    1. Landmark detector
    • エージェントのパノラマ画像からlandmarkを特定
    2. Instruction generator
    • テンプレートに沿ったtextからナビゲーション指⽰を⽣成
    • T5をfinetune
    ⽣成⽂の⾃動評価結果

    View Slide

  36. 22. Zillow Indoor Dataset: Annotated Floor Plans With 360deg Panoramas and 3D
    Room Layouts [Cruz(Univ. of Colorado Colorado Springs)+, CVPR21]
    36
    ü 概要: 室内環境に関する⼤規模データセットとしてZillow Indoor Dataset (ZInD)を提案
    • ZInD: 3Dレイアウト,2D/3D floor plan, パノラマ画像,ドア・窓の位置等を含む
    • 家具が存在しない設定での環境 (unfurnished homes)
    • 統計情報
    • パノラマ: 71,474枚
    • 家: 1,524個
    • room layouts: 21,596個
    • floor plans: 2,564個
    • タスク
    • Layout Estimation
    • floor plan recovery from panoramas
    • Memo
    • ProcTHOR等での室内環境データセットの構築
    → 現実的な部屋の配置情報として使える

    View Slide

  37. 23. Airbert: In-domain Pretraining for Vision-and-Language
    Navigation[Guhur+, ICCV21]
    37
    ü 背景: 室内環境は多様性に富んでおりunseenな環境にはtrain時に存在しない物体が多く存在する
    • Airbnbから収集した⼤規模な室内環境データセットBnBを提案
    • BnB: ⼤規模室内環境データセット
    • Airbnbから室内画像とキャプションの組を収集
    • それらの組から⾃動的にinstructionを⽣成
    1. Captionをconcat 2. templateを埋める
    3. ViLBERTによりinstructionを⽣成
    (V&Lモデルによりno captionに対応)

    View Slide

  38. 24. Synthetic-to-Real Domain Adaptation for Action Recognition: A
    Dataset and Baseline Performances [Reddy+(Johns Hopkins University), ICRA23]
    38
    ü 背景: 合成データと実データの間のドメインギャップに対してDomain Adaptation (DA)が有望視
    されている
    • 動画像処理におけるDA研究のためのデータセットRoCoG-v2を提案 (RoCoG-v1[Melo+, IROS20])
    • タスク: 動画からジェスチャーを認識
    • ⼆種類の視点からの動画 (ground, air)
    • 7個のジェスチャー
    ジェスチャー

    View Slide

  39. ⼿法論⽂
    25 〜 28

    View Slide

  40. 25. A New Path: Scaling Vision-and-Language Navigation with Synthetic
    Instructions and Imitation Learning[Kamath+(NewYork Univ.), CVPR23]
    40
    ü 背景: ⼤規模データで学習したV&Lモデルが台頭しているが,VLNの学習においては従来のWebベースの⼤
    規模データでは不⼗分
    ü 仮説: 空間に接地された action-oriented な指⽰⽂が必要
    • 提案⼿法: MARVAL
    • 前述のMarkeyでMP3Dの指⽰⽂を⾃動⽣成し学習 (データセットは公開予定→4.2Mの指⽰-軌跡ペア)
    • i2iのモデル(GAN)を⽤いて新たなviewを⽣成しaugmentation
    • モデル構造はHAMT[Chen+, NeurIPS21]を踏襲
    • エラーからの回復を学習させるためDAGGERアルゴリズムを採⽤
    • R2RにおいてSOTAを達成 (NDTW; Normalized Dynamic Time Warping)

    View Slide

  41. 26. SELF-INSTRUCT: Aligning Language Model with Self Generated
    Instructions [Wang+(Univ. of Washington), 2022]
    41
    ü 背景: アノテーションはコストが掛かる + ⼈⼿のバイアスによる多様性の⽋如
    • BootstrapによってLLMからinstruction-tuning⽤のデータセットを⾃動⽣成する⼿法self-instructを提案
    1. Task pool ← seed tasks(少量の⼈⼿によるinstruction群)
    2. 8個のtaskをtask poolからランダムにサンプリング→LLMにincontext-learning(few-shot)させる
    3. Classification Task Identification: 分類問題かどうかをLLMに識別させる
    4. 分類問題かどうかでtaskの形式を決定
    5. Filtering: pool内のinstructionとのROUGE-Lが0.7以上のものを弾く (以降2に戻る)
    Zero-shot: SUPERNIにてGPT3を上回る

    View Slide

  42. 27. GOT: An Optimal Transport framework for Graph
    comparison[Maretic+(LTS4), NeurIPS19]
    42
    ü 概要: グラフの⽐較はchallengingな問題 → 最適輸送によってグラフを⽐較する⼿法を提案
    • graph alignment問題(⾮凸性)に適⽤し, stochasticにgraph alignment問題を解く⼿法も提案
    • グラフはラプラシアン⾏列 𝐿 を⽤いた確率分布とみなせる
    • この定式化により,globalな構造を捉えた⽐較を⾏うことができる
    • Wasserstein距離は以下のように,ラプラシアン⾏列の逆⾏列のtraceで書ける
    • 𝐿 の差分のノルムは⼀致するが,
    Wasserstein距離は⼤きく異なる例 →
    • 所感
    • Scene graph等に使えそう

    View Slide

  43. 28. LLaMA: Open and Efficient Foundation Language Models
    [Touvron+(Meta), 2023]
    43
    ü 背景: 近年のLLMには推論に関する議論が抜けている
    → 推論が早く安価に学習ができてパラメタが少ないモデルを⼤量のデータで学習させるのがbetter
    ⇒ オープンなデータかつ7B〜65B程度のパラメタで構成されたLLMとしてLLaMAを提案
    • LLaMA-13B
    • ほとんどのベンチマークで GPT-3(175B) を上回る
    ゼロショット性能
    (Common Sense Reasoning tasks)
    データセットの割合
    モデルサイズごとのハイパラ

    View Slide

  44. 動作確認
    • 29. SeqTR: A Simple yet Universal Network for Visual Grounding
    • 30. FILM: Following Instructions in Language with Modular Methods

    View Slide

  45. 29. SeqTR: A Simple yet Universal Network for Visual Grounding
    [Zhu+(Xiamen Univ.), ECCV22]
    45
    ü 概要: Pix2Seqを元にvisual groundingを点予測問題へと帰着して解く⼿法SeqTRを提案
    ü REC / RESを同じフレームワークで解くことができる
    • Mask contour sampling
    • Center-based: 中⼼からの⼀定間隔の⾓度でsampling
    • Uniform: 時計回りに⼀様にsampling
    • mIOUのupper-boundを決めてしまうため慎重に設計する必要あり
    • Language Encoder: bidirectional GRU を使⽤
    • 定式化の妥当性を検証するためBERT等を使わずGRUを採⽤
    ü 結果: RefCOCOにおいてSOTAを達成

    View Slide

  46. 29. SeqTR: A Simple yet Universal Network for Visual Grounding
    [Zhu+(Xiamen Univ.), ECCV22]
    46
    • SeqTRをMS-COCOで学習
    • 学習時間: 39時間, Epoch: 90
    • RAM(GPU): 14.82GB
    所感
    • 論⽂値(67.26) ≒ 再現値 (66.44)
    • コードが未完成なのは何故… (issue)
    • 上の定性的結果を⾒ると,mIOUのupper-boundを
    決めてしまうという議論通り,若⼲不⾃然なmask
    が⽣成されてしまう
    • Polygonだと荒いことがあるので,さらにここから
    何らかの⽅法でmaskをrefine?していくモデルとか
    できないかな? (条件付け的な)

    View Slide

  47. 30. FILM: Following Instructions in Language with Modular Methods
    [Min+(Carnegie Mellon Univ.), ICLR22]
    47
    ü 概要: 環境を表現するsemantic mapから探索の⽬標位置を予測するVLNモデルとしてFILMを提案
    • ALFREDにおけるSOTA⼿法Prompterの先⾏研究
    • Language Processing
    • BERT type classification: タスクの種類を予測 → サブタスクのテンプレートを選択
    • BERT argument classification: 対象物体を予測 → テンプレートに挿⼊
    Language Processing

    View Slide

  48. 30. FILM: Following Instructions in Language with Modular Methods
    [Min+(Carnegie Mellon Univ.), ICLR22]
    48
    • データセット: ALFRED
    • 学習可能モジュール: Language Processing, Semantic Policy
    • Language Processingは学習できたが,Semantic Policyはデータセットが
    1.6TBもあることが判明し動作確認できず…
    ←Language Processing
    の動作確認

    View Slide

  49. 論⽂速読
    第四週⽬ 31 〜40
    慶應義塾⼤学
    杉浦孔明研究室 M1 和⽥唯我
    2023

    View Slide

  50. タスク論⽂
    31 〜 34

    View Slide

  51. 31. Visual Room Rearrangement [Weihs+(Allen Institute), CVPR21]
    51
    ü 背景: 環境とinteractするrearrangement タスクは重要
    ü 制約の少ないRearrangement タスクのためのデータセット RoomRを提案
    • 既存データセットとの違い
    • visual的にも地形的にも複雑 & 多様な物体・物体の状態が含まれる
    • 統計情報
    • settings: 6,000
    • scenes: 120
    • objects: 72
    • 現時点でのSOTAでも
    SR(test)は12%程度
    初期状態, 予測領域, rearrangement後
    leaderboard1, leaderboard2

    View Slide

  52. 32. The Abduction of Sherlock Holmes: A Dataset for Visual Abductive
    Reasoning [Hessel+(Allen Institute), ECCV22]
    52
    ü タスク: Visual Abductive Reasoning
    • clue(観察された物体のBBOX)からabductive inferenceを得るタスク
    • 363Kの(clue, inference)を含むコーパス Sherlock を提案
    abductive inference

    View Slide

  53. 33. Agriculture-Vision: A Large Aerial Image Database for Agricultural
    Pattern Analysis[Chiu(UIUC)+, CVPR20]
    53
    ü 背景: 適切な農業⽤データセットが存在しないため,農業に関するCVは未だ未発達
    ü 農業のためのSegmentation⽤航空写真データセットAgriculture-Visionを提案
    • 提案データセット: Agriculture-Vision
    • Class: double plant, drydown, endrow, nutrient deficiency, planter skip, storm damage, water,
    waterway, weed cluster
    • 統計情報
    • 画像: 94,986枚
    • ラベル: 169,086
    • クラス: 9個

    View Slide

  54. 34. TEACh: Task-driven Embodied Agents that Chat
    [Padmakumar(Amazon Alexa)+, AAAI22]
    54
    ü 背景: 対話を通した家事タスクにおけるデータセットTEAChを提案
    • 指⽰を⾏うFollowerと実⾏役のCommanderから構成
    • タスク
    • Execution from Dialogue History (SR=9.62)
    • 学習対象: Follower
    • 対話履歴から実⾏を予測
    • Trajectory from Dialogue (SR=0.17)
    • 学習対象: Follower
    • 対話からエージェントの軌跡を予測
    • Two-Agent Task Completion (SR=24.4)
    • 学習対象: Follower / Commander
    • ⽬標: 環境観測だけが与えられた状態でタスクを完遂
    • ベースラインはルールベース

    View Slide

  55. ⼿法論⽂
    35 〜 38

    View Slide

  56. 35. LLaMA-Adapter: Efficient Fine-tuning of Language Models with
    Zero-init Attention [Zhang+(Shanghai Artificial Intelligence Laboratory), 2023]
    56
    ü 概要: 1.2MでLLaMA(7B/13B)をfine-tuneする⼿法を提案
    ü 1時間 (V100 8台)でfine-tune可能 & マルチモダリティにも対応可
    • 提案⼿法: LLaMA-Adapter
    • LLaMAの後半層に対してAdaption Promptを追加
    • 追加対象の層のAttentionは0で初期化 (noiseの影響を軽減)
    • Gate機構を追加し,LLaMAのトークン(prompt)をコントロール
    • 画像を各解像度ごとにトークン化し,Adapterを噛ますことで
    マルチモーダル学習を実現

    View Slide

  57. 36. EnvEdit: Environment Editing for Vision-and-Language
    Navigation[Li+(UNC Chapel Hill), CVPR22]
    57
    ü 背景: VLNタスクでは未知の環境における汎化性能が重要
    ü 既存の環境をedit (augment) することで汎化性能を上げるVLN⼿法EnvEditを提案
    • 提案⼿法: EnvEdit
    • Style, Appearance, Object classをそれぞれedit
    • 環境をedit → navigationを学習 → Back Translation
    ← 7位 (R2R)

    View Slide

  58. 37. Segment Anything [Kirillov+(FAIR), 2023]
    58
    ü 概要: 下流タスクに応⽤できるSegmentation⽤の基盤モデルを開発
    • Task: promptable segmentation
    • NLPの基盤モデルに則り,あるpromptを⼊⼒
    としてvalidなmaskを⽣成するタスク
    • Model: Segment Anything Model (SAM)
    • Prompt Encoder + Image Encoder
    • Data: data engine
    • Data engineにより半⾃動的にデータセットを⽣成
    promptable segmentation

    View Slide

  59. 38. City-scale Scene Change Detection using Point Clouds
    [Yew+(National University of Singapore), ICRA21]
    59
    ü 背景: 都市の3Dデータを最新状態に維持するためには,構造的な変化を検出する必要あり
    • 2時刻における⾞載カメラの撮影画像から都市の構造変化を検出する⼿法を提案
    • ⼆種類のデータセットを作成
    • Business District (BD)
    • ⾼層ビルが多く含まれる
    • Research Town (RT)
    • ⽐較的低い建築物が多く含まれる
    • SfMに通して点群を得た後,点群を⽐較して変化領域を検出

    View Slide

  60. 動作確認
    • 39. Episodic Transformer for Vision-and-Language Navigation
    • 40. Composing Text and Image for Image Retrieval

    View Slide

  61. 39. Episodic Transformer for Vision-and-Language Navigation
    [Pashevich+(Inria), ICCV21]
    61
    ü VLNにおける課題: サブタスクの連続的な実⾏・複雑なinstructionの理解
    • 視覚情報・全episode情報・全⾏動を全て⼊⼒とするEpisodic Transformerを提案
    • Language Encoder: 合成指⽰⽂を⽣成するようにpretrain
    • 結果: ALFREDにおいてSR(seen) = 38.4%, SR(unseen) = 8.5%

    View Slide

  62. 39. Episodic Transformer for Vision-and-Language Navigation
    [Pashevich+(Inria), ICCV21]
    62
    • データセット: DialFRED
    • Epoch: 20, 学習時間: 3時間
    • RAM(GPU): 9.98GB
    • val-unseenにてSR = 0.2047, PWSR = 0.1233
    所感
    • VRAMもあまり⾷っていないし,学習時間もそこま
    でなので,⽐較的軽量なモデルであるような印象
    を受けた
    • DialFREDだけでなくTEAChのベースラインにも採
    ⽤されていて,E.T.の汎⽤性の⾼さを感じる

    View Slide

  63. 40. Composing Text and Image for Image Retrieval [Vo+(Georgia
    Tech), CVPR19]
    63
    ü 概要: 画像と変更テキストから別の画像を検索するimage retrieval taskの⼿法TIRGを提案
    • 例: エッフェル塔の画像 / “No people and switch to night-time”
    • 提案⼿法: Text Image Residual Gating (TIRG)
    • Reference画像とtarget画像との潜在空間上での差分が
    テキスト特徴量となるように学習

    View Slide

  64. 40. Composing Text and Image for Image Retrieval [Vo+(Georgia
    Tech), CVPR19]
    64
    • データセット: MITStates
    • PyTorchのバージョンが0.4.xだったのでコードを修正
    • 1⽇かけてコードを⼤量修正したが,学習できず無念の敗退…

    View Slide