2022.9.7 NAIST DSCサマーセミナー「Vision and Language技術の最新動向」

Slide 1

Slide 1 text

Vision & Language技術の最新動向 2022.09.07 品川政太朗奈良先端科学技術大学院大学

Slide 2

Slide 2 text

生息地：Vision and Language＋対話博士課程での研究：対話的に画像を編集するシステム科研費（若手）：自然言語に紐づいて構造化された表現に基づく画像生成基盤の確立経歴 2013年東北大学工学部卒業 2015年東北大学大学院博士前期課程修了 2020年奈良先端大博士後期課程修了同年11月から同大学助教品川政太朗（しながわせいたろう）と申します 2/54

Slide 3

Slide 3 text

Vision & Language 分野とは？ 3/54

Slide 4

Slide 4 text

• image-captioning: 目が見えない人の支援、監視中に起きたイベントを報告 • text-to-image, image-editing: 創作の支援、ロボット動作のシミュレーション • vision and language navigation: （将来的に）ロボットに汎用的な作業をさせる Vision & Languageはどういう分野？（端的に言えば）画像と言語を組み合わせた問題設定を扱う分野 4/54

Slide 5

Slide 5 text

最近はテキストからの画像生成 (text-to-image)が大流行中引用：https://gigazine.net/news/20220901- midjourney-win-fine-arts-competition/ 拡散モデル(Diffusion model)＋大規模データセット訓練で多様かつ高品質な画像生成ができると話題に Midjourney:絵画系の画像生成が得意美術品の品評会で1位になるなど衝撃を与えている日本でも多くの技術者・クリエイターの方々が注目中ねらい通りの画像を生成するための上手なテキスト入力ノウハウ（呪文）の探索が進んでいる模様・・・引用：https://twitter.com/fladdict/status/1564178679462105088 5/54

Slide 6

Slide 6 text

Vision & Language、実は古株 • 「Vision & Language」と呼ばれ始めたのは2015年 • 昔は「人工知能」と呼ばれていました [Okada, COLING1980] Image-captioningの起源？（手描きの絵から説明文を生成） [Hiyoshi, COLING1994] Move this here. Text-to-imageの起源？（自然言語とキーボード、マウス入力を組合わせてイラストを描画） 6/54

Slide 7

Slide 7 text

人工知能研究の夢と初期の人工知能研究機械が自然言語を理解して、人間と協調して知的な作業をしてほしい・・・ SHRDLU [Winograd, 1972] 限定的な積み木の世界の範囲内ではとても賢く対話して作業ができるこれを実現するために、昔の人はルールを作りこんで頑張ったこの問題設定、まさしくV&L 7/54

Slide 8

Slide 8 text

ただ、そううまくはいかなかった・・・ぶっちゃけきつかった最大の原因はスケールしないこと • 環境内の物体の状態、自然言語の理解の仕方をすべてルールで書き下すのは非現実的（知識獲得のボトルネック） • そもそも実世界(画像)と記号(言語)の関係をどう紐づけたらいいのかわからない（記号接地問題） Winograd先生 Winograd先生もこの「人工知能」研究からはすぐ離れてしまいました現在のVision & Languageが注目されるポイント：深層学習を基盤とする、実世界(画像)と記号(言語)を上手に結び付ける方法論の確立と実証を担っている 8/54

Slide 9

Slide 9 text

Q. なぜ画像と言語か？ A. データが大量に手に入るので深層学習と相性が良い • 747M(7億超)の画像－英語テキスト • 不適切データも含まれるので研究用途のみに使うことを推奨している COYO-700M • 400M(4億)の画像－英語テキスト • 多言語版のLAION-5B、美麗なサンプルのみを抽出したLAION-AESTHETICSもある LAION-400M https://github.com/kakaobrain/coyo-dataset https://laion.ai/ 最近の大規模データセットは、CommonCrawlという非営利組織がWeb上から集めた公開データを整形して作成ライセンスはCreative Commons、しかし・・・ • 画像はCCのもので絞っているらしいが、完全ではなく著作権にも注意 • 明らかな不適切データも含まれるので注意 9/54

Slide 10

Slide 10 text

分野ごとにも注目している焦点に特色が自然言語処理コンピュータビジョン（CV）ロボティクス言語獲得、言語創発画像説明文生成テキストからの画像生成画像付き質問応答 Vision and Language Navigation 自然言語による物体操作ロボット対話画像理解にはラベルより柔軟な記号であるテキストを役立てたいよね実世界でコミュニケーションとれるロボットを実現したい言語理解には画像とか別の情報源も文脈に使えるといいよねマルチモーダル機械翻訳 Vision and Language Navigation 自然言語による物体操作 10/54

Slide 11

Slide 11 text

Vision & Language技術の発展と近年の動向【Transformersと基盤モデル】 11/54

Slide 12

Slide 12 text

V&L関連技術の歴史年表 2015 2022 画像特徴量抽出器画像と言語の統合自然言語処理 Faster R-CNN bottom-up attention Transformer, BERT, GPT Vision Transformer V&L pre-trained language models RNN (LSTM, GRU) Memory networks Visual semantic embeddings 画像生成器 VAE, GAN VQ-VAE, dVAE diffusion model Pixel CNN 2018 近年のV&Lの技術も例に漏れずTransformer を基盤として発展している傾向 12/54

Slide 13

Slide 13 text

Transformerの登場で可能になったこと言語モデルの大規模なデータ処理が可能になった RNN(LSTM, GRU)は隠れ層の再帰的入力を繰り返す必要があり遅い →大規模化のボトルネック TransformerはAttention mask を内部に持つことで各時刻を並列に訓練可能 →処理が高速なので大規模化がしやすい 13/54

Slide 14

Slide 14 text

大規模言語モデルの汎用性 GPT3をはじめ、大規模言語モデルは様々な知識ベース、タスク、データに対して汎用的に利用できる可能性を秘めている（下記の例はT5というモデルがベース） UnifiedSKG [Xie+,2022] 14/54

Slide 15

Slide 15 text

V&Lでも複数タスクを一つのTransformer モデルで解く流れが主流になってきている One For All [Wang, P+, 2022] V&Lの問題を解くためのスキルは共通している対応できるデータ、タスクを増やして汎用なモデルを目指す方向性 https://github.com/OFA- Sys/OFA 15/54

Slide 16

Slide 16 text

これらのような汎用的なモデルを最近では基盤モデルと呼びます Foundation model（基盤モデル） [Bommasani+, 2021] 様々なデータで事前学習して様々なタスクに応用できる図は[Bommasani+, 2021] から引用 16/54

Slide 17

Slide 17 text

代表的なTransformerモデルは3種類 Transformer Enc Dec 𝐾, 𝑉 Dec Enc Decoderのみモデル（GPT系） Encoderのみモデル（BERT、ViT系） Encoder-Decoderモデルもう全部系列として生成しようぜ Decoderは要らない分類ができたらいいこれが原点 17/54

Slide 18

Slide 18 text

各Transformerモデルの特徴 Encoder-Decoder型 (Vanilla Transformer) Decoder-only型 (GPT-1,2,3) Encoder-only型 (BERT, ViT) Enc Dec 𝐾, 𝑉 • Encoderの出力がkey, valueとなる注意機構（ソース・ターゲット注意） • Decoderはトークンを一つずつ予測（自己回帰モデル） • Decoderはトークンを一つずつ予測（自己回帰モデル） • 赤トークンから予測すればEncoder- Decoder風にも使える(Prompting) Dec • 先頭のトークンでクラス分類を行う（画像と文のペア識別、画像認識） • 適当にマスクしたトークンの復元課題を解く（マスク付き言語モデリング） • 自己回帰モデルのような予測も可能 Enc 18/54

Slide 19

Slide 19 text

画像をTransformerで扱うには？ Transformerは入力をトークン単位の系列として扱う画像はどのようにトークン化すべきか？ ①物体特徴量をトークンとして扱う例：Faster R-CNNから抽出した物体特徴をトークンとして利用 ②grid状の特徴をトークンとして扱う ViLBERT [Lu+,2019] 利点：物体特徴をマスクしてラベル予測する学習方法（自己教師あり学習）が使える Vision Transformer [Dosovitskiy+, 2021] 利点：物体特徴抽出器が不要埋め込みを離散化すれば自己教師あり学習も可能 19/54

Slide 20

Slide 20 text

テキストからの画像生成では画像埋め込みを離散化してトークン化している DALL-E[Ramesh+, 2021] はdVAE(discrete VAE)で画像トークンを離散化している input text (fixed) visual tokens (generate) GPT-3 (decoder-only transformer) 20/54

Slide 21

Slide 21 text

dVAE (discrete VAE)の学習方法 1 ⋯ 0 𝑧𝑖𝑗 = Enc 入力画像生成画像 Dec 潜在変数 𝑧 にGumbel-softmaxを適用して離散化する 𝑧~𝑞𝜙 𝑧 𝑥 ≈ 𝑝 𝑧 32 tokens 0 0 vocabulary size: 8192 𝑧 ∈ ℝ32×32×8192 Gumbel-softmax • VAEは適当な分布𝑝 𝑧 に潜在空間を押し込める正則化を行う • dVAEにおける𝑝 𝑧 は一様カテゴリ分布 ℒ = −𝔼𝑧~𝑞𝜙 𝑧|𝑥 log 𝑝𝜃 𝑥|𝑧 +𝛽𝐷𝐾𝐿 𝑞𝜙 𝑧|𝑥 , 𝑝 𝑧 21/54

Slide 22

Slide 22 text

Gumbel-softmax 1. Sample 𝑢1 , 𝑢2 , … , 𝑢𝐶 ~Uniform 0,1 2. 𝑔 = − log − log 𝑢 （ただし, 𝑢 = 𝑢1 , 𝑢2 , … , 𝑢𝐶 ） 3. 𝑧 = softmax log 𝑞𝜙 𝑧|𝑥 +𝑔 𝜏 Gumbel-softmaxは一様カテゴリ分布に対する Reparametrization trick（誤差逆伝播時に計算グラフを保持する工夫） 22/54

Slide 23

Slide 23 text

訓練時には慎重に徐々に離散化する必要がある dVAEでは2つのハイパーパラメータがある • 正則化項の係数 𝛽: 0 → 0.66 • Gumbel softmaxの温度パラメータ 𝜏: 1 → 1/16 𝛽: 0 → 0.66 𝜏: 1 → 1/16 23/54

Slide 24

Slide 24 text

VQ-VAEによる画像埋め込みの離散化 VQ-VAE [Oord+, 2017] VQ-VAEではあらかじめcode bookを利用する点が異なる 1 0 0 𝑒1 𝑒2 𝑒3 決定論的なサンプリング 𝑧𝑞 𝑥 ~ 𝑞 𝑧|𝑥 = argmin 𝑒 | 𝑧𝑒 𝑥 − 𝑒 | 𝑧𝑒 𝑥 Enc 入力画像 𝑧𝑞 𝑥 生成画像 Dec VQ-VAE [Oord+,2017] VQ-VAEとdVAEの違い • サンプリングの違い：VQ-VAEは決定論的、dVAEは確率的 • VQ-VAEでは徐々にではなく、最初から離散化される 24/54

Slide 25

Slide 25 text

Vision & Languageを支える要素技術 25/54

Slide 26

Slide 26 text

画像特徴量抽出器の歴史 V&Lの問題を解くには、画像に登場する物体と物体間の関係性を抽出することが有用（良い物体特徴量抽出器が必要） [Agrawal+, 2016] 例：「Q：口ひげは何でできてる？」を解くのに必要な情報は？ • 物体情報：「人の顔」「バナナ」 • 関係情報「バナナが口元の位置」特に、以下の課題解決に力が注がれてきた • 物体特徴量抽出器は処理が遅い • 物体特徴量抽出器が失敗すると後段の処理も失敗する 26/54

Slide 27

Slide 27 text

物体特徴量抽出の基礎技術 Faster R-CNN [Ren+,2017] 説明文 image- captioning region feature （固定次元） • 処理速度 0.2 秒/枚 • YOLOとかは使われない（比較するのが面倒だから？） region feature Faster R-CNNとその派生を使うことが多い bounding box (bbox)候補抽出器 (9 type bbox / position) 予測確率が高い領域を採用領域を固定の次元にpooling 27/54

Slide 28

Slide 28 text

第一進化形態：Bottom-up attention Bottom-up attention [Anderson+,2018] • VQA Challenge 2017優勝手法 • 2018-2020頃のデファクト Faster R-CNNからの差分 • 物体の属性情報も予測するタスクを追加した • 例："green" grass • 属性情報も付随している Visual Genome (VG) dataset を利用 28/54

Slide 29

Slide 29 text

第二進化形態：back to the grid feature 「下流タスク（VQA）を学習する前提ならRegion Proposal Network無くても性能が出た」 [Jiang+,2020] 良く訓練されたFaster R-CNNは、物体領域に区切らなくても既に良い特徴量抽出器！ bottom-up attention grid feature [Jiang+,2020] Region Proposal Networkを除く利点： • 下流タスク訓練後に最終的な性能が向上（物体領域抽出のミスが下流タスクの性能ボトルネックにならないため） • 処理速度が高速化される【VQA全体の処理速度】 • 0.02 [秒/枚] (grid feature) • 0.89 [秒/枚] (bottom-up) 29/54

Slide 30

Slide 30 text

VinVL's pre-training （4 large dataset）現在のデファクトとなるFaster R-CNN訓練手法 • VQA Challenge 2020の優勝手法 • 技術的新規性はないが、複数データセットをうまくブレンドして上手に訓練した点がウリ • 学習後にgrid featureを利用するのは第二形態と同じ第三進化形態：VinVL [Zhang+,2021] Bottom-up attention （OpenImages datasetで訓練） 30/54

Slide 31

Slide 31 text

新しい流れ: Transformerによるpatchベース画像をパッチに区切って一から学習（ViLT [Kim+,2021]） • 利点：Faster R-CNNを捨てられるので処理が速い Model Comparison [Kim+,2021] ViLT [Kim+,2021] UNITER [Chen+,2020]: a region based V&L model (処理が重い) Pixel-BERT [Huang+,2020]: a grid-based V&L model (処理速度まあまあ速い) ViLT: modified from UNITER (特徴量抽出がないので速い) 31/54

Slide 32

Slide 32 text

余談：VQA Challenge2021の優勝モデル 2021年の優勝モデルは物体領域特徴とgrid特徴を両方使ってアンサンブルしている image is cited from "VQA Challenge 2021 Winner talk" https://drive.google.com/file/d/1KjVjz9cG0KFbEzQwckyDXwrh_63-dbBn/view VQA2021 Winner Accuracy: 79.78% bottom-up attention VinVL Big ensemble with SoTA models region and grid feature 32/54

Slide 33

Slide 33 text

画像と言語の統合の歴史画像と言語の統合方法はV&Lの本丸以下を紹介します： • 画像と言語の共有埋め込み空間（Visual semantic embedding）をつくる方法 • 注意機構を利用した画像と言語の統合方法 2015 2022 V&L pre-trained language models Visual semantic embeddings 2018 33/54

Slide 34

Slide 34 text

Visual semantic embedding (VSE) 有名なCLIPの元になった方法論対照学習で画像と言語の共通の潜在空間を学習する [Wu+, 2019] 画像言語共通の潜在空間相互に変換可能だと、検索・生成に使えて嬉しい埋め込む言語情報の単位は様々 • 物体ラベル [Frome+,2013] • 単語 [Kiros+,2014] • フレーズと文 [Wu+,2019] • （CLIPは雑多なテキスト） 34/54

Slide 35

Slide 35 text

VSEのための対照学習（黎明期） 1正例1負例をつくってTriplet lossで学習 ※負例はミニバッチから一つランダムに選ぶ ※対照学習とは？→正例負例を比べて訓練する手法 Triplet loss 正例ペア負例ペア 𝑣𝑗 𝑡𝑗 𝑡𝑘 ※𝑠はスコア関数（cosが多い） 𝑣𝑗 と近いほどloss小 𝑣𝑗 と遠いほどloss小 𝑡𝑗 𝑡𝑘 𝑣𝑗 学習後 ℒ𝑣,𝑡 = Σ𝑗 Σ𝑘 max 0, 𝛼 − 𝑠 𝑣𝑗 , 𝑡𝑗 + 𝑠(𝑣𝑗 , 𝑡𝑘 ) ℒ𝑡,𝑣 = Σ𝑗 Σ𝑘 max 0, 𝛼 − 𝑠 𝑡𝑗 , 𝑣𝑗 + 𝑠(𝑡𝑗 , 𝑣𝑘 ) ℒ𝑡𝑜𝑡𝑎𝑙 = ℒ𝑣,𝑡 + ℒ𝑡,𝑣 35/54

Slide 36

Slide 36 text

VSEのための対照学習（現在） 1正例N負例をつくってInfoNCE loss（の亜種）で学習 ※InfoNCE loss [Oord+,2018]については論文参照 ℒ𝑣,𝑡 = −𝔼 log exp 𝑠 𝑣, 𝑡𝑘 Σ exp 𝑠 𝑣, 𝑡𝑘 , ℒ𝑡,𝑣 = −𝔼 log exp 𝑠 𝑡, 𝑣𝑘 Σ exp 𝑠 𝑡, 𝑣𝑘 ℒ𝑡𝑜𝑡𝑎𝑙 = 1 2 (ℒ𝑣,𝑡 + ℒ𝑡,𝑣 ) 𝑡𝑗 𝑣𝑗 𝑡4 𝑡2 𝑡3 𝑡1 複数の負例と比べる方が性能が良い 36/54

Slide 37

Slide 37 text

このlossを使っているのがCLIP[Radford+,2021] VSEをTransformerベースで大規模に訓練すると、色々すごかったことが分かった[Radford+,2021] （実は技術的な面での新規性はない説がある） ViTかResNet transformer [CLS] 37/54

Slide 38

Slide 38 text

CLIPにおけるClass-free分類 𝑠𝑖𝑗 = 𝑠𝑐𝑜𝑟𝑒 𝐼𝑖 , 𝑇𝑗 = cos 𝐼, 𝑇 ⋅ exp 𝑡 softmax 𝑝11 𝐼 = exp 𝑠 𝐼1 , 𝑇1 Σ𝑗 𝑁 exp 𝑠 𝐼1 , 𝑇𝑗 ℒ𝐼 = −Σ𝑖 𝑁𝑦 𝑖 𝐼 𝑇 log 𝑝 𝑖 𝐼 𝑇 𝐼1 visual feature text feature 𝑇1 𝑇2 𝑇3 𝑠11 𝑠12 𝑠13 ⋯ 𝑇𝑁 ⋯ 𝑠1𝑁 1. similarity scoreの計算 𝑝11 𝐼 𝑝12 𝐼 𝑝13 𝐼 ⋯ 𝑝 15 𝐼 2. softmaxによる正規化 𝑝 1 (𝐼) 1 0 0 ⋯ 0 𝑦 1 (𝐼) target label (positive pair is known) 3. バッチサイズNの時のN値分類の問題としてlossが計算できる 38/54

Slide 39

Slide 39 text

CLIPにおけるClass-free分類 softmax ℒ𝑇 = −Σ𝑖 𝑁𝑦 𝑖 𝑇 log 𝑝 𝑖 𝑇 visual feature text feature 𝑇1 𝑠11 𝑠21 𝑠31 𝑠𝑁1 𝑝 1 (𝑇) 1 0 0 0 𝑦 1 (𝑇) テキストから見た画像のN値分類も同様にできる 𝐼1 𝐼2 𝐼3 𝐼𝑁 ⋯ 𝑝 11 𝑇 𝑝 21 𝑇 𝑝 31 𝑇 ⋯ 𝑝 𝑁1 𝑇 ⋯ ⋯ 合計のloss: ℒ𝑡𝑜𝑡𝑎𝑙 = ℒ𝐼 + ℒ𝑇 2 39/54

Slide 40

Slide 40 text

CLIPがすごいのは汎用性 Web上の400Mの画像テキストの組で訓練 Web上のあらゆる画像について汎用性を持つ 40/54

Slide 41

Slide 41 text

CLIPのゼロショット画像認識 • "There is a group of orange fish eggs on the table" • "There is a group of orange foods on the table" • "There is a group of yellow fish eggs on the table" 0.627 0.181 0.192 probability (fish eggsを改悪) 手作りテンプレ: "There is a group of [color] [food] on the table" (色を改悪) CLIP 入力画像手作り説明文を使った画像からの説明文検索予測確率の高い文のラベルを予測結果とする上の例は２種類の分類に対応 41/54

Slide 42

Slide 42 text

CLIPの面白い特徴：Typographic attack "There is a group of orange fish eggs on the table" "There is a group of yellow fish eggs on the table" "There is a group of blue fish eggs on the table" 0.005 0.833 0.162 probability CLIPは画像中のテキストに敏感（画像中にテキストが映っている画像が多い？）利用する時は注意する必要がある 42/54

Slide 43

Slide 43 text

CLIPの応用例：テキストによる画像生成基本的なアイデアはだいたい同じ 1. 画像生成モデル(StyleGANなど)の潜在変数zを初期化 2. zにノイズを加えて複数の新しいz’を作成 3. 複数のz’からそれぞれ画像を生成 4. CLIPで生成画像と入力テキストの類似度を計算 5. 評価の高いzを残して2以降を繰り返す [Galatolo+,2021] z 𝑧1 ′ 𝑧2 ′ 𝑧3 ′ add noise 画像生成器 image image image 0.627 0.181 0.192 CLIP text Q. backpropじゃだめなの？ A. ある程度最適解に近づくと停滞しやすい（経験談） 43/54

Slide 44

Slide 44 text

テキストからの画像生成の例 (using VQ-GAN) input text: "two judo players on TV." https://colab.research.google.com/drive/1ZAus_gn2RhTZWzOWUpPER NC0Q8OhZRTZ#scrollTo=ZdlpRFL8UAlW 44/54

Slide 45

Slide 45 text

注意機構を利用した画像と言語の統合方法注意機構（Attention）とは？「たくさんのベクトルの集合から、必要な情報に関連するベクトルを自動的に取捨選択する仕組み」 CV最前線ニュウモンVision and Languageより引用 + attention (weight) 重みづけして足す（内挿操作）たくさんのベクトルの集合（材料）完成品を得るためには重みづけをどう自動で決めると良い？出力（完成品） 45/54

Slide 46

Slide 46 text

Query, Key, ValueによるAttention計算 • Query：情報を引き出すための鍵 • Key：Valueにアクセスするための鍵穴 • Value：引っ張り出したい情報源 𝑄 𝐾 𝑉 𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 𝑄, 𝐾, 𝑉 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 𝑄𝑇𝐾 𝑑 ⋅ 𝑉 ※ 𝑑はスケーリング V&Lでよく出てくるのは以下の２種類 • Source-target attention：Queryが別の情報源から • Self-attention：Queryが同じ情報源から 46/54

Slide 47

Slide 47 text

V&Lでは、Transformer内部の画像と言語の相互作用をどう扱うかに２種類の流儀がある 1-stream型 Self-attention型 2-stream型 Source-target attention型 ※どちらが良いかは決着がついてない 47/54

Slide 48

Slide 48 text

VQA Challenge2021優勝手法のテクニック： Learning to Attend image is cited from "VQA Challenge 2021 Winner talk" https://drive.google.com/file/d/1KjVjz9cG0KFbEzQwckyDXwrh_63-dbBn/view 1-stream型＋モダリティごとに重みづけパラメータ𝜀1 , 𝜀2 を学習 ( 𝜀1 = 𝑀𝐿𝑃1 (ℎ𝐶𝐿𝑆 ), 𝜀2 = 𝑀𝐿𝑃2 (ℎ𝐶𝐿𝑆 ) ) ℎ𝐶𝐿𝑆 1-stream型から2-stream型にも変化できる手法 48/54

Slide 49

Slide 49 text

Vision & Language技術の近年の課題 49/54

Slide 50

Slide 50 text

バイアスの課題学習を大規模化したことでデータセットのフィルタリングが難しく、バイアスの影響がより顕著に・・・ OpenAIがtext-to-imageのモデルDALL-E2で生成の多様性を上げる施策をとったと報告した際、入力テキストに「黒人」や「女性」といったテキスト情報が入っていることが示唆される結果に・・・ https://labs.openai.com/s/PHVac3MM8FZE 6FxuDcuSR4aW https://labs.openai.com/s/4jmy13 AM7qO6cy58aACiytnL 50/54

Slide 51

Slide 51 text

倫理的に様々な課題もテキスト生成や画像生成の生成結果の品質が上がるに従い、不適切な生成結果や攻撃的な生成結果が人間に悪影響を与える可能性もある →商用利用に応用するのに難しさがある →現状は結局人間が頑張って例外処理のルールを書いているという話も・・・ 51/54

Slide 52

Slide 52 text

学習データのリーク Web上の大規模なデータで学習したモデルを特定の下流タスクで使用する場合、評価用のデータが学習に使われてないことを保証することが難しくなっている汎化は未知のデータを正しく予測できることを示す概念 • 未知のデータがほぼないという条件下ではどうモデルの良さを評価すれば良いのか？ 52/54

Slide 53

Slide 53 text

大規模化と扱いづらさ大規模モデルを学習するのには膨大な金銭的コストが必要引用【メタサーベイ】基盤モデル / Foundation Models： https://www.slideshare.net/cvpaperchallenge/foundation-models レンジは百万~数億データのフィルタリングや分散学習の知見も必須ただし、fine-tuning はGPU1枚でも可能（現実的選択肢）日本語モデルも基盤モデルからつくれる？ 53/54

Slide 54

Slide 54 text

まとめ近年のV&Lの動向 Transformer+大規模データ＋様々なタスク →基盤モデルとしてのV&Lモデルへ技術的に重要なポイント • Transformerに合わせた画像のトークン化 • 速度と精度の要求に合わせた画像特徴量抽出手法の確立 • 対照学習を利用した画像と言語の共有空間の学習方法の確立 • 注意機構による画像と言語の統合方法の成熟課題 • 大規模データゆえのバイアスへの対処のしにくさ • 大規模モデルの汎化性をどう評価するのが良いか？ • 学習のコストの高さから、新しいモデルの検討が既存の大規模モデルに依存せざるを得ない状況 54/54

Slide 55

Slide 55 text

NTTの雑談対話モデル(Blenderbot) V100で19,200GPU時間(400GPU×48時間) ABCIで約100万円 https://twitter.com/sei_shinagawa/status/14003977505 33955584/photo/1 Stable diffusion A100(40GB)で38,400,000GPU時間(256GPU×150,000時間) 市場価格で600,000ドル(8千万強)とのこと https://twitter.com/EMostaque/status/1563870674111 832066 GPT-3 460万ドル(約4億9000万円)とのこと（情報元不明）付録 55/54

Slide 56

Slide 56 text

文献情報 P.4 [Vinyals+, 2015] Oriol Vinyals, Alexander Toshev, Samy Bengio, and Dumitru Erhan. Show and tell: A neural image caption generator. CVPR 2015. [Agrawal+, 2016] Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C. Lawrence Zitnick, and Devi Parikh. VQA: visual question answering. ICCV2015. [Das+, 2018] Abhishek Das, Samyak Datta, Georgia Gkioxari, Stefan Lee, Devi Parikh, Dhruv Batra. Embodied Question Answering. CVPR2018. [Xu+, 2018] Tao Xu, Pengchuan Zhang, Qiuyuan Huang, Han Zhang, Zhe Gan, Xiaolei Huang, Xiaodong He. AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks. CVPR2018. [Bisk+, 2016] Yonatan Bisk, Deniz Yuret, Daniel Marcu. Natural Language Communication with Robots. NAACL2016. P.6 [Okada, 1980] Naoyuki Okada. Conceptual taxonomy of Japanese verbs for understanding natural language and picture patterns. COLING1980. [Hiyoshi+, 1994] Mayumi Hiyoshi and Hideo Shimazu. Drawing pictures with natural language and direct manipulation. COLING1994. 56/54

Slide 57

Slide 57 text

文献情報 P.16 [Bommasani+, 2021] Bommasani et al. On the Opportunities and Risks of Foundation Models. In arXiv [cs.LG]. arXiv. http://arxiv.org/abs/2108.07258 P.19 [Dosovitskiy+, 2021] Dosovitskiy, A. et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. in International Conference on Learning Representations (2021). P.20 [Ramesh+, 2021] Aditya Ramesh, et al. Zero-Shot Text-to-Image generation. arXiv preprint arXiv 2102.12092, 2021. P.24 [Oord+, 2017] Aaron van den Oord et al. Neural Discrete Representation Learning. NIPS2017. P.27 [Ren+,2017] Shaoqing Ren, et al. Faster R-CNN: Towards Real-Time object detection with region proposal networks. IEEE Trans. Pattern Anal. Mach. Intell., Vol. 39, No. 6, pp. 1137–1149, 2017. P.28 [Anderson+,2018] Peter Anderson, et al. Bottom-up and top-down attention for image captioning and visual question answering. In 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018. P.29 [Jiang+,2020] Huaizu Jiang, et al. In defense of grid features for visual question answering. In Proceedings of CVPR, 2020. P.30 [Zhang+,2021] Pengchuan Zhang, et al. VinVL: Making visual representations matter in vision-language models. CVPR. 2021. 57/54

Slide 58

Slide 58 text

文献情報 P.31 [Kim+,2021] Wonjae Kim, et al. ViLT: Vision-and-Language transformer without convolution or region supervision. ICML, 2021. [Chen+,2020] Yen-Chun Chen, et al. UNITER: universal image-text representation learning. In Proceedings of ECCV, Vol. 12375 of Lecture Notes in Computer Science, pp. 104–120, 2020. [Huang+,2020] Zhicheng Huang, et al. Pixel-BERT: Aligning image pixels with text by deep Multi-Modal transformers. arXiv preprint arXiv 2004.00849, 2020. P.34 [Frome+,2013] Andrea Frome, et al. DeViSE: A deep visual-semantic embedding model. NIPS, 2013. [Kiros+,2014] Ryan Kiros, et al. Unifying visual-semantic embeddings with multimodal neural language models. arXiv preprint arXiv:1411.2539, 2014. [Wu+,2019] Hao Wu, et al. Unified visual-semantic embeddings: Bridging vision and language with structured meaning representations. In Proceedings of CVPR, 2019. P.36 [Oord+,2018] van den Oord, A., Li, Y. & Vinyals, O. Representation Learning with Contrastive Predictive Coding. arXiv, 2018. 58/54

Slide 59

Slide 59 text

文献情報 P.37 [Radford+,2021] Alec Radford, et al. Learning transferable visual models from natural language supervision. In Proceedings of ICML, Vol. 139, pp. 8748–8763, 2021. P.43 [Galatolo+,2021] Galatolo, F. A., et al. Generating images from caption and vice versa via CLIP-Guided Generative Latent Space Search. arXiv [cs.NE] (2021) 59/54