Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2022.9.7 NAIST DSCサマーセミナー「Vision and Language技術の最新動向」

2022.9.7 NAIST DSCサマーセミナー「Vision and Language技術の最新動向」

NAIST DSCサマーセミナー2022の発表資料です。
http://www-dsc.naist.jp/dsc_naist/naist-dsc-summer-seminar-2022/

Seitaro Shinagawa

September 09, 2022
Tweet

More Decks by Seitaro Shinagawa

Other Decks in Technology

Transcript

  1. Vision & Language技術の
    最新動向
    2022.09.07
    品川 政太朗
    奈良先端科学技術大学院大学

    View Slide

  2. 生息地:Vision and Language+対話
    博士課程での研究:
    対話的に画像を編集するシステム
    科研費(若手):自然言語に紐づいて構
    造化された表現に基づく画像生成基盤の
    確立
    経歴
    2013年東北大学工学部卒業
    2015年東北大学大学院博士前期課程修了
    2020年奈良先端大博士後期課程修了
    同年11月から同大学助教
    品川 政太朗(しながわ せいたろう)と申します
    2/54

    View Slide

  3. Vision & Language
    分野とは?
    3/54

    View Slide

  4. • image-captioning: 目が見えない人の支援、監視中に起きたイベントを報告
    • text-to-image, image-editing: 創作の支援、ロボット動作のシミュレーション
    • vision and language navigation: (将来的に)ロボットに汎用的な作業をさせる
    Vision & Languageはどういう分野?
    (端的に言えば)画像と言語を組み合わせた問題設定を扱う分野
    4/54

    View Slide

  5. 最近はテキストからの画像生成
    (text-to-image)が大流行中
    引用:https://gigazine.net/news/20220901-
    midjourney-win-fine-arts-competition/
    拡散モデル(Diffusion model)+大規模データセット訓練で
    多様かつ高品質な画像生成ができると話題に
    Midjourney:絵画系の画像生成が得意
    美術品の品評会で1位になるなど衝撃
    を与えている
    日本でも多くの技術者・クリエイター
    の方々が注目中
    ねらい通りの画像を生成するための上
    手なテキスト入力ノウハウ(呪文)の
    探索が進んでいる模様・・・
    引用:https://twitter.com/fladdict/status/1564178679462105088
    5/54

    View Slide

  6. Vision & Language、実は古株
    • 「Vision & Language」と呼ばれ始めたのは2015年
    • 昔は「人工知能」と呼ばれていました
    [Okada, COLING1980]
    Image-captioningの起源?
    (手描きの絵から説明文を生成)
    [Hiyoshi, COLING1994]
    Move this here.
    Text-to-imageの起源?
    (自然言語とキーボード、マウス入力を組合わ
    せてイラストを描画)
    6/54

    View Slide

  7. 人工知能研究の夢と初期の人工知能研究
    機械が自然言語を理解して、人間と協調して知的な作業をし
    てほしい・・・
    SHRDLU [Winograd, 1972]
    限定的な積み木の世界の範囲内ではと
    ても賢く対話して作業ができる
    これを実現するために、昔の人はルールを作りこんで頑張った
    この問題設定、まさしくV&L
    7/54

    View Slide

  8. ただ、そううまくはいかなかった・・・
    ぶっちゃけきつかった
    最大の原因はスケールしないこと
    • 環境内の物体の状態、自然言語の理解の仕方をすべてルール
    で書き下すのは非現実的(知識獲得のボトルネック)
    • そもそも実世界(画像)と記号(言語)の関係をどう紐づけたら
    いいのかわからない(記号接地問題)
    Winograd先生
    Winograd先生もこの「人工知能」研究からはすぐ離れてしまいました
    現在のVision & Languageが注目されるポイント:
    深層学習を基盤とする、実世界(画像)と記号(言語)を
    上手に結び付ける方法論の確立と実証を担っている
    8/54

    View Slide

  9. Q. なぜ画像と言語か?
    A. データが大量に手に入るので深層学習と相性が良い
    • 747M(7億超)の画像-英語テキスト
    • 不適切データも含まれるので研究用途の
    みに使うことを推奨している
    COYO-700M
    • 400M(4億)の画像-英語テキスト
    • 多言語版のLAION-5B、美麗なサンプルの
    みを抽出したLAION-AESTHETICSもある
    LAION-400M
    https://github.com/kakaobrain/coyo-dataset
    https://laion.ai/
    最近の大規模データセットは、CommonCrawlという非営利組織がWeb上から集
    めた公開データを整形して作成
    ライセンスはCreative Commons、しかし・・・
    • 画像はCCのもので絞っているらしいが、完全ではなく著作権にも注意
    • 明らかな不適切データも含まれるので注意
    9/54

    View Slide

  10. 分野ごとにも注目している焦点に特色が
    自然言語処理
    コンピュータビジョン
    (CV)
    ロボティクス
    言語獲得、言語創発
    画像説明文生成
    テキストからの画像生成
    画像付き質問応答
    Vision and Language Navigation
    自然言語による物体操作
    ロボット対話
    画像理解にはラベルより柔軟
    な記号であるテキストを役立
    てたいよね
    実世界でコミュニケー
    ションとれるロボット
    を実現したい
    言語理解には画像とか別の情報源
    も文脈に使えるといいよね
    マルチモーダル機械翻訳
    Vision and Language Navigation
    自然言語による物体操作
    10/54

    View Slide

  11. Vision & Language技術
    の発展と近年の動向
    【Transformersと基盤モデル】
    11/54

    View Slide

  12. V&L関連技術の歴史年表
    2015 2022
    画像特徴量
    抽出器
    画像と言語
    の統合
    自然言語
    処理
    Faster
    R-CNN
    bottom-up
    attention
    Transformer, BERT, GPT
    Vision
    Transformer
    V&L pre-trained
    language models
    RNN
    (LSTM, GRU)
    Memory networks
    Visual semantic embeddings
    画像生成器
    VAE, GAN
    VQ-VAE, dVAE
    diffusion model
    Pixel CNN
    2018
    近年のV&Lの技術も例に漏れずTransformer
    を基盤として発展している傾向 12/54

    View Slide

  13. Transformerの登場で可能になったこと
    言語モデルの大規模なデータ処理が可能になった
    RNN(LSTM, GRU)は隠れ層
    の再帰的入力を繰り返す必要
    があり遅い
    →大規模化のボトルネック
    TransformerはAttention mask
    を内部に持つことで各時刻を
    並列に訓練可能
    →処理が高速なので大規模化が
    しやすい
    13/54

    View Slide

  14. 大規模言語モデルの汎用性
    GPT3をはじめ、大規模言語モデルは様々な知識ベース、タスク、
    データに対して汎用的に利用できる可能性を秘めている
    (下記の例はT5というモデルがベース)
    UnifiedSKG [Xie+,2022] 14/54

    View Slide

  15. V&Lでも複数タスクを一つのTransformer
    モデルで解く流れが主流になってきている
    One For All [Wang, P+, 2022]
    V&Lの問題を解くためのスキルは共通している
    対応できるデータ、タスクを増やして汎用なモデルを
    目指す方向性
    https://github.com/OFA-
    Sys/OFA
    15/54

    View Slide

  16. これらのような汎用的なモデルを
    最近では基盤モデルと呼びます
    Foundation model(基盤モデル) [Bommasani+, 2021]
    様々なデータで事前学習して様々なタスクに応用できる
    図は[Bommasani+, 2021] から引用 16/54

    View Slide

  17. 代表的なTransformerモデルは3種類
    Transformer
    Enc Dec
    𝐾, 𝑉
    Dec
    Enc
    Decoderのみモデル
    (GPT系)
    Encoderのみモデル
    (BERT、ViT系)
    Encoder-Decoderモデル
    もう全部系列として
    生成しようぜ
    Decoderは要らない
    分類ができたらいい
    これが原点
    17/54

    View Slide

  18. 各Transformerモデルの特徴
    Encoder-Decoder型 (Vanilla Transformer)
    Decoder-only型 (GPT-1,2,3)
    Encoder-only型 (BERT, ViT)
    Enc Dec
    𝐾, 𝑉
    • Encoderの出力がkey, valueとなる
    注意機構(ソース・ターゲット注意)
    • Decoderはトークンを一つずつ予測
    (自己回帰モデル)
    • Decoderはトークンを一つずつ予測
    (自己回帰モデル)
    • 赤トークンから予測すればEncoder-
    Decoder風にも使える(Prompting)
    Dec
    • 先頭のトークンでクラス分類を行う
    (画像と文のペア識別、画像認識)
    • 適当にマスクしたトークンの復元課題
    を解く(マスク付き言語モデリング)
    • 自己回帰モデルのような予測も可能
    Enc
    18/54

    View Slide

  19. 画像をTransformerで扱うには?
    Transformerは入力をトークン単位の系列として扱う
    画像はどのようにトークン化すべきか?
    ①物体特徴量をトークンとして扱う
    例:Faster R-CNNから抽出した物体特徴をトークンとして利用
    ②grid状の特徴をトークンとして扱う
    ViLBERT [Lu+,2019]
    利点:物体特徴をマスクして
    ラベル予測する学習方法(自
    己教師あり学習)が使える
    Vision Transformer [Dosovitskiy+, 2021]
    利点:物体特徴抽出器が不要
    埋め込みを離散化すれば自己
    教師あり学習も可能
    19/54

    View Slide

  20. テキストからの画像生成では画像埋め込みを
    離散化してトークン化している
    DALL-E[Ramesh+, 2021] はdVAE(discrete VAE)で画像トー
    クンを離散化している
    input text
    (fixed)
    visual tokens
    (generate)
    GPT-3 (decoder-only
    transformer)
    20/54

    View Slide

  21. dVAE (discrete VAE)の学習方法
    1 ⋯ 0
    𝑧𝑖𝑗
    =
    Enc
    入力
    画像
    生成
    画像
    Dec
    潜在変数 𝑧 にGumbel-softmaxを適用して離散化する
    𝑧~𝑞𝜙
    𝑧 𝑥 ≈ 𝑝 𝑧
    32 tokens
    0 0
    vocabulary size: 8192
    𝑧 ∈ ℝ32×32×8192
    Gumbel-softmax
    • VAEは適当な分布𝑝 𝑧 に潜在空間を押し込める正則化を行う
    • dVAEにおける𝑝 𝑧 は一様カテゴリ分布
    ℒ = −𝔼𝑧~𝑞𝜙 𝑧|𝑥
    log 𝑝𝜃
    𝑥|𝑧
    +𝛽𝐷𝐾𝐿
    𝑞𝜙
    𝑧|𝑥 , 𝑝 𝑧
    21/54

    View Slide

  22. Gumbel-softmax
    1. Sample 𝑢1
    , 𝑢2
    , … , 𝑢𝐶
    ~Uniform 0,1
    2. 𝑔 = − log − log 𝑢 (ただし, 𝑢 = 𝑢1
    , 𝑢2
    , … , 𝑢𝐶

    3. 𝑧 = softmax log 𝑞𝜙 𝑧|𝑥 +𝑔
    𝜏
    Gumbel-softmaxは一様カテゴリ分布に対する
    Reparametrization trick(誤差逆伝播時に計算グラフを保持
    する工夫)
    22/54

    View Slide

  23. 訓練時には慎重に徐々に離散化する必要がある
    dVAEでは2つのハイパーパラメータがある
    • 正則化項の係数 𝛽: 0 → 0.66
    • Gumbel softmaxの温度パラメータ 𝜏: 1 → 1/16
    𝛽: 0 → 0.66
    𝜏: 1 → 1/16
    23/54

    View Slide

  24. VQ-VAEによる画像埋め込みの離散化
    VQ-VAE [Oord+, 2017]
    VQ-VAEではあらかじめcode bookを利用する点が異なる
    1
    0
    0
    𝑒1
    𝑒2
    𝑒3
    決定論的なサンプリング
    𝑧𝑞
    𝑥 ~ 𝑞 𝑧|𝑥 =
    argmin
    𝑒
    | 𝑧𝑒
    𝑥 − 𝑒 |
    𝑧𝑒
    𝑥
    Enc
    入力
    画像
    𝑧𝑞
    𝑥 生成
    画像
    Dec
    VQ-VAE [Oord+,2017]
    VQ-VAEとdVAEの違い
    • サンプリングの違い:VQ-VAEは決定論的、dVAEは確率的
    • VQ-VAEでは徐々にではなく、最初から離散化される
    24/54

    View Slide

  25. Vision & Languageを
    支える要素技術
    25/54

    View Slide

  26. 画像特徴量抽出器の歴史
    V&Lの問題を解くには、画像に登場する物体と物体間の関係
    性を抽出することが有用(良い物体特徴量抽出器が必要)
    [Agrawal+, 2016]
    例:「Q:口ひげは何でできてる?」
    を解くのに必要な情報は?
    • 物体情報:「人の顔」「バナナ」
    • 関係情報「バナナが口元の位置」
    特に、以下の課題解決に力が注がれてきた
    • 物体特徴量抽出器は処理が遅い
    • 物体特徴量抽出器が失敗すると後段の処理も失敗する
    26/54

    View Slide

  27. 物体特徴量抽出の基礎技術
    Faster R-CNN [Ren+,2017]
    説明文
    image-
    captioning
    region feature
    (固定次元)
    • 処理速度 0.2 秒/枚
    • YOLOとかは使われない(比
    較するのが面倒だから?)
    region
    feature
    Faster R-CNNとその派生を使うことが多い
    bounding box (bbox)候補抽出器
    (9 type bbox / position)
    予測確率が高い領域を採用
    領域を固定の次元にpooling
    27/54

    View Slide

  28. 第一進化形態:Bottom-up attention
    Bottom-up attention
    [Anderson+,2018]
    • VQA Challenge 2017優勝手法
    • 2018-2020頃のデファクト
    Faster R-CNNからの差分
    • 物体の属性情報も予測するタス
    クを追加した
    • 例:"green" grass
    • 属性情報も付随している
    Visual Genome (VG) dataset
    を利用
    28/54

    View Slide

  29. 第二進化形態:back to the grid feature
    「下流タスク(VQA)を学習する前提ならRegion Proposal
    Network無くても性能が出た」 [Jiang+,2020]
    良く訓練されたFaster R-CNNは、
    物体領域に区切らなくても既に良い特徴量抽出器!
    bottom-up
    attention
    grid feature
    [Jiang+,2020]
    Region Proposal Networkを除く利点:
    • 下流タスク訓練後に最終的な性能が向
    上(物体領域抽出のミスが下流タスク
    の性能ボトルネックにならないため)
    • 処理速度が高速化される
    【VQA全体の処理速度】
    • 0.02 [秒/枚] (grid feature)
    • 0.89 [秒/枚] (bottom-up)
    29/54

    View Slide

  30. VinVL's pre-training
    (4 large dataset)
    現在のデファクトとなるFaster R-CNN訓練手法
    • VQA Challenge 2020の優勝手法
    • 技術的新規性はないが、複数データセットをうまくブレンド
    して上手に訓練した点がウリ
    • 学習後にgrid featureを利用するのは第二形態と同じ
    第三進化形態:VinVL [Zhang+,2021]
    Bottom-up attention
    (OpenImages datasetで訓練) 30/54

    View Slide

  31. 新しい流れ: Transformerによるpatchベース
    画像をパッチに区切って一から学習(ViLT [Kim+,2021])
    • 利点:Faster R-CNNを捨てられるので処理が速い
    Model Comparison [Kim+,2021]
    ViLT [Kim+,2021]
    UNITER [Chen+,2020]: a region based
    V&L model (処理が重い)
    Pixel-BERT [Huang+,2020]: a grid-based
    V&L model (処理速度まあまあ速い)
    ViLT: modified from UNITER
    (特徴量抽出がないので速い)
    31/54

    View Slide

  32. 余談:VQA Challenge2021の優勝モデル
    2021年の優勝モデルは物体領域特徴とgrid特徴を両方使って
    アンサンブルしている
    image is cited from "VQA Challenge 2021 Winner talk"
    https://drive.google.com/file/d/1KjVjz9cG0KFbEzQwckyDXwrh_63-dbBn/view
    VQA2021 Winner
    Accuracy: 79.78%
    bottom-up
    attention
    VinVL
    Big ensemble
    with SoTA models
    region and grid feature
    32/54

    View Slide

  33. 画像と言語の統合の歴史
    画像と言語の統合方法はV&Lの本丸
    以下を紹介します:
    • 画像と言語の共有埋め込み空間(Visual semantic
    embedding)をつくる方法
    • 注意機構を利用した画像と言語の統合方法
    2015 2022
    V&L pre-trained
    language models
    Visual semantic embeddings
    2018
    33/54

    View Slide

  34. Visual semantic embedding (VSE)
    有名なCLIPの元になった方法論
    対照学習で画像と言語の共通の潜在空間を学習する
    [Wu+, 2019]
    画像 言語
    共通の
    潜在空間
    相互に変換可能だと、検索・生成に使えて嬉しい
    埋め込む言語情報の単位は様々
    • 物体ラベル [Frome+,2013]
    • 単語 [Kiros+,2014]
    • フレーズと文 [Wu+,2019]
    • (CLIPは雑多なテキスト)
    34/54

    View Slide

  35. VSEのための対照学習(黎明期)
    1正例1負例をつくってTriplet lossで学習
    ※負例はミニバッチから一つランダムに選ぶ
    ※対照学習とは?→正例負例を比べて訓練する手法
    Triplet loss
    正例ペア 負例ペア
    𝑣𝑗
    𝑡𝑗
    𝑡𝑘
    ※𝑠はスコア関数(cosが多い)
    𝑣𝑗
    と近いほどloss小
    𝑣𝑗
    と遠いほどloss小
    𝑡𝑗
    𝑡𝑘
    𝑣𝑗
    学習後
    ℒ𝑣,𝑡
    = Σ𝑗
    Σ𝑘
    max 0, 𝛼 − 𝑠 𝑣𝑗
    , 𝑡𝑗
    + 𝑠(𝑣𝑗
    , 𝑡𝑘
    )
    ℒ𝑡,𝑣
    = Σ𝑗
    Σ𝑘
    max 0, 𝛼 − 𝑠 𝑡𝑗
    , 𝑣𝑗
    + 𝑠(𝑡𝑗
    , 𝑣𝑘
    )
    ℒ𝑡𝑜𝑡𝑎𝑙
    = ℒ𝑣,𝑡
    + ℒ𝑡,𝑣
    35/54

    View Slide

  36. VSEのための対照学習(現在)
    1正例N負例をつくってInfoNCE loss(の亜種)で学習
    ※InfoNCE loss [Oord+,2018]については論文参照
    ℒ𝑣,𝑡
    = −𝔼 log
    exp 𝑠 𝑣, 𝑡𝑘
    Σ exp 𝑠 𝑣, 𝑡𝑘
    , ℒ𝑡,𝑣
    = −𝔼 log
    exp 𝑠 𝑡, 𝑣𝑘
    Σ exp 𝑠 𝑡, 𝑣𝑘
    ℒ𝑡𝑜𝑡𝑎𝑙
    =
    1
    2
    (ℒ𝑣,𝑡
    + ℒ𝑡,𝑣
    )
    𝑡𝑗
    𝑣𝑗
    𝑡4
    𝑡2
    𝑡3
    𝑡1
    複数の負例と比べ
    る方が性能が良い
    36/54

    View Slide

  37. このlossを使っているのがCLIP[Radford+,2021]
    VSEをTransformerベースで大規模に訓練すると、色々
    すごかったことが分かった[Radford+,2021]
    (実は技術的な面での新規性はない説がある)
    ViTかResNet
    transformer
    [CLS]
    37/54

    View Slide

  38. CLIPにおけるClass-free分類
    𝑠𝑖𝑗
    = 𝑠𝑐𝑜𝑟𝑒 𝐼𝑖
    , 𝑇𝑗
    = cos 𝐼, 𝑇 ⋅ exp 𝑡
    softmax
    𝑝11
    𝐼 =
    exp 𝑠 𝐼1
    , 𝑇1
    Σ𝑗
    𝑁 exp 𝑠 𝐼1
    , 𝑇𝑗
    ℒ𝐼
    = −Σ𝑖
    𝑁𝑦
    𝑖
    𝐼 𝑇
    log 𝑝
    𝑖
    𝐼 𝑇
    𝐼1
    visual
    feature
    text feature
    𝑇1
    𝑇2
    𝑇3
    𝑠11
    𝑠12
    𝑠13
    ⋯ 𝑇𝑁
    ⋯ 𝑠1𝑁
    1. similarity scoreの計算
    𝑝11
    𝐼 𝑝12
    𝐼 𝑝13
    𝐼 ⋯ 𝑝
    15
    𝐼
    2. softmaxによる正規化
    𝑝
    1
    (𝐼)
    1 0 0 ⋯ 0
    𝑦
    1
    (𝐼) target label
    (positive pair is known)
    3. バッチサイズNの時のN値分類の問題としてlossが計算できる
    38/54

    View Slide

  39. CLIPにおけるClass-free分類
    softmax
    ℒ𝑇
    = −Σ𝑖
    𝑁𝑦
    𝑖
    𝑇 log 𝑝
    𝑖
    𝑇
    visual
    feature
    text feature
    𝑇1
    𝑠11
    𝑠21
    𝑠31
    𝑠𝑁1
    𝑝
    1
    (𝑇)
    1
    0
    0
    0
    𝑦
    1
    (𝑇)
    テキストから見た画像のN値分類も同様にできる
    𝐼1
    𝐼2
    𝐼3
    𝐼𝑁

    𝑝
    11
    𝑇
    𝑝
    21
    𝑇
    𝑝
    31
    𝑇

    𝑝
    𝑁1
    𝑇


    合計のloss:
    ℒ𝑡𝑜𝑡𝑎𝑙
    =
    ℒ𝐼
    + ℒ𝑇
    2 39/54

    View Slide

  40. CLIPがすごいのは汎用性
    Web上の400Mの画像テキストの組で訓練
    Web上のあらゆる画像について汎用性を持つ
    40/54

    View Slide

  41. CLIPのゼロショット画像認識
    • "There is a group of orange fish eggs on the table"
    • "There is a group of orange foods on the table"
    • "There is a group of yellow fish eggs on the table"
    0.627
    0.181
    0.192
    probability
    (fish eggsを改悪)
    手作りテンプレ: "There is a group of [color] [food] on the table"
    (色を改悪)
    CLIP
    入力画像
    手作り説明文を使った画像からの説明文検索
    予測確率の高い文のラベルを予
    測結果とする
    上の例は2種類の分類に対応
    41/54

    View Slide

  42. CLIPの面白い特徴:Typographic attack
    "There is a group of orange fish eggs on the table"
    "There is a group of yellow fish eggs on the table"
    "There is a group of blue fish eggs on the table"
    0.005
    0.833
    0.162
    probability
    CLIPは画像中のテキストに敏感(画像中にテキストが
    映っている画像が多い?)
    利用する時は注意する必要がある
    42/54

    View Slide

  43. CLIPの応用例:テキストによる画像生成
    基本的なアイデアはだいたい同じ
    1. 画像生成モデル(StyleGANなど)の潜在変数zを初期化
    2. zにノイズを加えて複数の新しいz’を作成
    3. 複数のz’からそれぞれ画像を生成
    4. CLIPで生成画像と入力テキストの類似度を計算
    5. 評価の高いzを残して2以降を繰り返す
    [Galatolo+,2021]
    z
    𝑧1

    𝑧2

    𝑧3

    add
    noise
    画像
    生成器
    image
    image
    image
    0.627
    0.181
    0.192
    CLIP
    text
    Q. backpropじゃだめなの?
    A. ある程度最適解に近づくと停滞しやすい(経験談)
    43/54

    View Slide

  44. テキストからの画像生成の例 (using VQ-GAN)
    input text: "two judo players on TV."
    https://colab.research.google.com/drive/1ZAus_gn2RhTZWzOWUpPER
    NC0Q8OhZRTZ#scrollTo=ZdlpRFL8UAlW
    44/54

    View Slide

  45. 注意機構を利用した画像と言語の統合方法
    注意機構(Attention)とは?
    「たくさんのベクトルの集合から、必要な情報に関連する
    ベクトルを自動的に取捨選択する仕組み」
    CV最前線ニュウモンVision and Languageより引用
    +
    attention
    (weight)
    重みづけして足す
    (内挿操作)
    たくさんのベクトル
    の集合(材料)
    完成品を得るためには重みづけ
    をどう自動で決めると良い?
    出力
    (完成品)
    45/54

    View Slide

  46. Query, Key, ValueによるAttention計算
    • Query:情報を引き出すための鍵
    • Key:Valueにアクセスするための鍵穴
    • Value:引っ張り出したい情報源
    𝑄
    𝐾
    𝑉
    𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 𝑄, 𝐾, 𝑉
    = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥
    𝑄𝑇𝐾
    𝑑
    ⋅ 𝑉
    ※ 𝑑はスケーリング
    V&Lでよく出てくるのは以下の2種類
    • Source-target attention:Queryが別の情報源から
    • Self-attention:Queryが同じ情報源から 46/54

    View Slide

  47. V&Lでは、Transformer内部の画像と言語の相互
    作用をどう扱うかに2種類の流儀がある
    1-stream型
    Self-attention型
    2-stream型
    Source-target attention型
    ※どちらが良いかは決着がついてない 47/54

    View Slide

  48. VQA Challenge2021優勝手法のテクニック:
    Learning to Attend
    image is cited from "VQA Challenge 2021 Winner talk"
    https://drive.google.com/file/d/1KjVjz9cG0KFbEzQwckyDXwrh_63-dbBn/view
    1-stream型+モダリティごとに重みづけパラメータ𝜀1
    , 𝜀2
    を学
    習 ( 𝜀1
    = 𝑀𝐿𝑃1
    (ℎ𝐶𝐿𝑆
    ), 𝜀2
    = 𝑀𝐿𝑃2
    (ℎ𝐶𝐿𝑆
    ) )
    ℎ𝐶𝐿𝑆
    1-stream型から2-stream型にも変化できる手法
    48/54

    View Slide

  49. Vision & Language技術
    の近年の課題
    49/54

    View Slide

  50. バイアスの課題
    学習を大規模化したことでデータセットのフィルタリングが
    難しく、バイアスの影響がより顕著に・・・
    OpenAIがtext-to-imageのモデルDALL-E2で生成の多様性を
    上げる施策をとったと報告した際、入力テキストに「黒人」
    や「女性」といったテキスト情報が入っていることが示唆さ
    れる結果に・・・
    https://labs.openai.com/s/PHVac3MM8FZE
    6FxuDcuSR4aW
    https://labs.openai.com/s/4jmy13
    AM7qO6cy58aACiytnL 50/54

    View Slide

  51. 倫理的に様々な課題も
    テキスト生成や画像生成の生成結果の品質が上がるに従い、
    不適切な生成結果や攻撃的な生成結果が人間に悪影響を与え
    る可能性もある
    →商用利用に応用するのに難しさがある
    →現状は結局人間が頑張って例外処理のルールを書いている
    という話も・・・
    51/54

    View Slide

  52. 学習データのリーク
    Web上の大規模なデータで学習したモデルを特定の下流
    タスクで使用する場合、評価用のデータが学習に使われ
    てないことを保証することが難しくなっている
    汎化は未知のデータを正しく予測できることを示す概念
    • 未知のデータがほぼないという条件下ではどうモデルの良
    さを評価すれば良いのか?
    52/54

    View Slide

  53. 大規模化と扱いづらさ
    大規模モデルを学習するのには膨大な金銭的コストが必要
    引用【メタサーベイ】基盤モデル / Foundation Models:
    https://www.slideshare.net/cvpaperchallenge/foundation-models
    レンジは百万~数億
    データのフィルタリ
    ングや分散学習の知
    見も必須
    ただし、fine-tuning
    はGPU1枚でも可能
    (現実的選択肢)
    日本語モデルも基盤モデ
    ルからつくれる?
    53/54

    View Slide

  54. まとめ
    近年のV&Lの動向
    Transformer+大規模データ+様々なタスク
    →基盤モデルとしてのV&Lモデルへ
    技術的に重要なポイント
    • Transformerに合わせた画像のトークン化
    • 速度と精度の要求に合わせた画像特徴量抽出手法の確立
    • 対照学習を利用した画像と言語の共有空間の学習方法の確立
    • 注意機構による画像と言語の統合方法の成熟
    課題
    • 大規模データゆえのバイアスへの対処のしにくさ
    • 大規模モデルの汎化性をどう評価するのが良いか?
    • 学習のコストの高さから、新しいモデルの検討が既存の大規
    模モデルに依存せざるを得ない状況 54/54

    View Slide

  55. NTTの雑談対話モデル(Blenderbot)
    V100で19,200GPU時間(400GPU×48時間)
    ABCIで約100万円
    https://twitter.com/sei_shinagawa/status/14003977505
    33955584/photo/1
    Stable diffusion
    A100(40GB)で38,400,000GPU時間(256GPU×150,000時間)
    市場価格で600,000ドル(8千万強)とのこと
    https://twitter.com/EMostaque/status/1563870674111
    832066
    GPT-3
    460万ドル(約4億9000万円)とのこと(情報元不明)
    付録
    55/54

    View Slide

  56. 文献情報
    P.4
    [Vinyals+, 2015] Oriol Vinyals, Alexander Toshev, Samy Bengio, and Dumitru Erhan.
    Show and tell: A neural image caption generator. CVPR 2015.
    [Agrawal+, 2016] Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell,
    Dhruv Batra, C. Lawrence Zitnick, and Devi Parikh. VQA: visual question answering.
    ICCV2015.
    [Das+, 2018] Abhishek Das, Samyak Datta, Georgia Gkioxari, Stefan Lee, Devi Parikh,
    Dhruv Batra. Embodied Question Answering. CVPR2018.
    [Xu+, 2018] Tao Xu, Pengchuan Zhang, Qiuyuan Huang, Han Zhang, Zhe Gan, Xiaolei
    Huang, Xiaodong He. AttnGAN: Fine-Grained Text to Image Generation with
    Attentional Generative Adversarial Networks. CVPR2018.
    [Bisk+, 2016] Yonatan Bisk, Deniz Yuret, Daniel Marcu. Natural Language
    Communication with Robots. NAACL2016.
    P.6
    [Okada, 1980] Naoyuki Okada. Conceptual taxonomy of Japanese verbs for
    understanding natural language and picture patterns. COLING1980.
    [Hiyoshi+, 1994] Mayumi Hiyoshi and Hideo Shimazu. Drawing pictures with natural
    language and direct manipulation. COLING1994.
    56/54

    View Slide

  57. 文献情報
    P.16 [Bommasani+, 2021] Bommasani et al. On the Opportunities and Risks of
    Foundation Models. In arXiv [cs.LG]. arXiv. http://arxiv.org/abs/2108.07258
    P.19 [Dosovitskiy+, 2021] Dosovitskiy, A. et al. An Image is Worth 16x16 Words:
    Transformers for Image Recognition at Scale. in International Conference on
    Learning Representations (2021).
    P.20 [Ramesh+, 2021] Aditya Ramesh, et al. Zero-Shot Text-to-Image generation.
    arXiv preprint arXiv 2102.12092, 2021.
    P.24 [Oord+, 2017] Aaron van den Oord et al. Neural Discrete Representation
    Learning. NIPS2017.
    P.27 [Ren+,2017] Shaoqing Ren, et al. Faster R-CNN: Towards Real-Time object
    detection with region proposal networks. IEEE Trans. Pattern Anal. Mach. Intell., Vol.
    39, No. 6, pp. 1137–1149, 2017.
    P.28 [Anderson+,2018] Peter Anderson, et al. Bottom-up and top-down attention for
    image captioning and visual question answering. In 2018 IEEE/CVF Conference on
    Computer Vision and Pattern Recognition, 2018.
    P.29 [Jiang+,2020] Huaizu Jiang, et al. In defense of grid features for visual question
    answering. In Proceedings of CVPR, 2020.
    P.30 [Zhang+,2021] Pengchuan Zhang, et al. VinVL: Making visual representations
    matter in vision-language models. CVPR. 2021. 57/54

    View Slide

  58. 文献情報
    P.31
    [Kim+,2021] Wonjae Kim, et al. ViLT: Vision-and-Language transformer without
    convolution or region supervision. ICML, 2021.
    [Chen+,2020] Yen-Chun Chen, et al. UNITER: universal image-text representation
    learning. In Proceedings of ECCV, Vol. 12375 of Lecture Notes in Computer Science, pp.
    104–120, 2020.
    [Huang+,2020] Zhicheng Huang, et al. Pixel-BERT: Aligning image pixels with text by
    deep Multi-Modal transformers. arXiv preprint arXiv 2004.00849, 2020.
    P.34
    [Frome+,2013] Andrea Frome, et al. DeViSE: A deep visual-semantic embedding
    model. NIPS, 2013.
    [Kiros+,2014] Ryan Kiros, et al. Unifying visual-semantic embeddings with
    multimodal neural language models. arXiv preprint arXiv:1411.2539, 2014.
    [Wu+,2019] Hao Wu, et al. Unified visual-semantic embeddings: Bridging vision and
    language with structured meaning representations. In Proceedings of CVPR, 2019.
    P.36 [Oord+,2018] van den Oord, A., Li, Y. & Vinyals, O. Representation Learning with
    Contrastive Predictive Coding. arXiv, 2018. 58/54

    View Slide

  59. 文献情報
    P.37 [Radford+,2021] Alec Radford, et al. Learning transferable visual models from
    natural language supervision. In Proceedings of ICML, Vol. 139, pp. 8748–8763, 2021.
    P.43 [Galatolo+,2021] Galatolo, F. A., et al. Generating images from caption and vice
    versa via CLIP-Guided Generative Latent Space Search. arXiv [cs.NE] (2021)
    59/54

    View Slide