2022.9.7 NAIST DSCサマーセミナー「Vision and Language技術の最新動向」

Vision & Language技術の最新動向 2022.09.07 品川政太朗奈良先端科学技術大学院大学

生息地：Vision and Language＋対話博士課程での研究：対話的に画像を編集するシステム科研費（若手）：自然言語に紐づいて構造化された表現に基づく画像生成基盤の確立経歴 2013年東北大学工学部卒業
2015年東北大学大学院博士前期課程修了 2020年奈良先端大博士後期課程修了同年11月から同大学助教品川政太朗（しながわせいたろう）と申します 2/54

Vision & Language 分野とは？ 3/54

• image-captioning: 目が見えない人の支援、監視中に起きたイベントを報告 • text-to-image, image-editing: 創作の支援、ロボット動作のシミュレーション • vision and
language navigation: （将来的に）ロボットに汎用的な作業をさせる Vision & Languageはどういう分野？（端的に言えば）画像と言語を組み合わせた問題設定を扱う分野 4/54

最近はテキストからの画像生成 (text-to-image)が大流行中引用：https://gigazine.net/news/20220901- midjourney-win-fine-arts-competition/ 拡散モデル(Diffusion model)＋大規模データセット訓練で多様かつ高品質な画像生成ができると話題に Midjourney:絵画系の画像生成が得意美術品の品評会で1位になるなど衝撃を与えている
日本でも多くの技術者・クリエイターの方々が注目中ねらい通りの画像を生成するための上手なテキスト入力ノウハウ（呪文）の探索が進んでいる模様・・・引用：https://twitter.com/fladdict/status/1564178679462105088 5/54

Vision & Language、実は古株 • 「Vision & Language」と呼ばれ始めたのは2015年 • 昔は「人工知能」と呼ばれていました [Okada,
COLING1980] Image-captioningの起源？（手描きの絵から説明文を生成） [Hiyoshi, COLING1994] Move this here. Text-to-imageの起源？（自然言語とキーボード、マウス入力を組合わせてイラストを描画） 6/54

人工知能研究の夢と初期の人工知能研究機械が自然言語を理解して、人間と協調して知的な作業をしてほしい・・・ SHRDLU [Winograd, 1972] 限定的な積み木の世界の範囲内ではとても賢く対話して作業ができるこれを実現するために、昔の人はルールを作りこんで頑張ったこの問題設定、まさしくV&L
7/54

ただ、そううまくはいかなかった・・・ぶっちゃけきつかった最大の原因はスケールしないこと • 環境内の物体の状態、自然言語の理解の仕方をすべてルールで書き下すのは非現実的（知識獲得のボトルネック） • そもそも実世界(画像)と記号(言語)の関係をどう紐づけたらいいのかわからない（記号接地問題） Winograd先生
Winograd先生もこの「人工知能」研究からはすぐ離れてしまいました現在のVision & Languageが注目されるポイント：深層学習を基盤とする、実世界(画像)と記号(言語)を上手に結び付ける方法論の確立と実証を担っている 8/54

Q. なぜ画像と言語か？ A. データが大量に手に入るので深層学習と相性が良い • 747M(7億超)の画像－英語テキスト • 不適切データも含まれるので研究用途のみに使うことを推奨している COYO-700M
• 400M(4億)の画像－英語テキスト • 多言語版のLAION-5B、美麗なサンプルのみを抽出したLAION-AESTHETICSもある LAION-400M https://github.com/kakaobrain/coyo-dataset https://laion.ai/ 最近の大規模データセットは、CommonCrawlという非営利組織がWeb上から集めた公開データを整形して作成ライセンスはCreative Commons、しかし・・・ • 画像はCCのもので絞っているらしいが、完全ではなく著作権にも注意 • 明らかな不適切データも含まれるので注意 9/54

分野ごとにも注目している焦点に特色が自然言語処理コンピュータビジョン（CV）ロボティクス言語獲得、言語創発画像説明文生成テキストからの画像生成画像付き質問応答 Vision
and Language Navigation 自然言語による物体操作ロボット対話画像理解にはラベルより柔軟な記号であるテキストを役立てたいよね実世界でコミュニケーションとれるロボットを実現したい言語理解には画像とか別の情報源も文脈に使えるといいよねマルチモーダル機械翻訳 Vision and Language Navigation 自然言語による物体操作 10/54

Vision & Language技術の発展と近年の動向【Transformersと基盤モデル】 11/54

V&L関連技術の歴史年表 2015 2022 画像特徴量抽出器画像と言語の統合自然言語処理 Faster
R-CNN bottom-up attention Transformer, BERT, GPT Vision Transformer V&L pre-trained language models RNN (LSTM, GRU) Memory networks Visual semantic embeddings 画像生成器 VAE, GAN VQ-VAE, dVAE diffusion model Pixel CNN 2018 近年のV&Lの技術も例に漏れずTransformer を基盤として発展している傾向 12/54

Transformerの登場で可能になったこと言語モデルの大規模なデータ処理が可能になった RNN(LSTM, GRU)は隠れ層の再帰的入力を繰り返す必要があり遅い →大規模化のボトルネック TransformerはAttention mask を内部に持つことで各時刻を
並列に訓練可能 →処理が高速なので大規模化がしやすい 13/54

大規模言語モデルの汎用性 GPT3をはじめ、大規模言語モデルは様々な知識ベース、タスク、データに対して汎用的に利用できる可能性を秘めている（下記の例はT5というモデルがベース） UnifiedSKG [Xie+,2022] 14/54

V&Lでも複数タスクを一つのTransformer モデルで解く流れが主流になってきている One For All [Wang, P+, 2022] V&Lの問題を解くためのスキルは共通している対応できるデータ、タスクを増やして汎用なモデルを
目指す方向性 https://github.com/OFA- Sys/OFA 15/54

これらのような汎用的なモデルを最近では基盤モデルと呼びます Foundation model（基盤モデル） [Bommasani+, 2021] 様々なデータで事前学習して様々なタスクに応用できる図は[Bommasani+, 2021] から引用
16/54

代表的なTransformerモデルは3種類 Transformer Enc Dec 𝐾, 𝑉 Dec Enc Decoderのみモデル（GPT系）
Encoderのみモデル（BERT、ViT系） Encoder-Decoderモデルもう全部系列として生成しようぜ Decoderは要らない分類ができたらいいこれが原点 17/54

各Transformerモデルの特徴 Encoder-Decoder型 (Vanilla Transformer) Decoder-only型 (GPT-1,2,3) Encoder-only型 (BERT, ViT) Enc
Dec 𝐾, 𝑉 • Encoderの出力がkey, valueとなる注意機構（ソース・ターゲット注意） • Decoderはトークンを一つずつ予測（自己回帰モデル） • Decoderはトークンを一つずつ予測（自己回帰モデル） • 赤トークンから予測すればEncoder- Decoder風にも使える(Prompting) Dec • 先頭のトークンでクラス分類を行う（画像と文のペア識別、画像認識） • 適当にマスクしたトークンの復元課題を解く（マスク付き言語モデリング） • 自己回帰モデルのような予測も可能 Enc 18/54

画像をTransformerで扱うには？ Transformerは入力をトークン単位の系列として扱う画像はどのようにトークン化すべきか？ ①物体特徴量をトークンとして扱う例：Faster R-CNNから抽出した物体特徴をトークンとして利用 ②grid状の特徴をトークンとして扱う ViLBERT [Lu+,2019] 利点：物体特徴をマスクして
ラベル予測する学習方法（自己教師あり学習）が使える Vision Transformer [Dosovitskiy+, 2021] 利点：物体特徴抽出器が不要埋め込みを離散化すれば自己教師あり学習も可能 19/54

テキストからの画像生成では画像埋め込みを離散化してトークン化している DALL-E[Ramesh+, 2021] はdVAE(discrete VAE)で画像トークンを離散化している input text (fixed)
visual tokens (generate) GPT-3 (decoder-only transformer) 20/54

dVAE (discrete VAE)の学習方法 1 ⋯ 0 𝑧𝑖𝑗 = Enc 入力
画像生成画像 Dec 潜在変数 𝑧 にGumbel-softmaxを適用して離散化する 𝑧~𝑞𝜙 𝑧 𝑥 ≈ 𝑝 𝑧 32 tokens 0 0 vocabulary size: 8192 𝑧 ∈ ℝ32×32×8192 Gumbel-softmax • VAEは適当な分布𝑝 𝑧 に潜在空間を押し込める正則化を行う • dVAEにおける𝑝 𝑧 は一様カテゴリ分布 ℒ = −𝔼𝑧~𝑞𝜙 𝑧|𝑥 log 𝑝𝜃 𝑥|𝑧 +𝛽𝐷𝐾𝐿 𝑞𝜙 𝑧|𝑥 , 𝑝 𝑧 21/54

Gumbel-softmax 1. Sample 𝑢1 , 𝑢2 , … , 𝑢𝐶
~Uniform 0,1 2. 𝑔 = − log − log 𝑢 （ただし, 𝑢 = 𝑢1 , 𝑢2 , … , 𝑢𝐶 ） 3. 𝑧 = softmax log 𝑞𝜙 𝑧|𝑥 +𝑔 𝜏 Gumbel-softmaxは一様カテゴリ分布に対する Reparametrization trick（誤差逆伝播時に計算グラフを保持する工夫） 22/54

訓練時には慎重に徐々に離散化する必要がある dVAEでは2つのハイパーパラメータがある • 正則化項の係数 𝛽: 0 → 0.66 • Gumbel
softmaxの温度パラメータ 𝜏: 1 → 1/16 𝛽: 0 → 0.66 𝜏: 1 → 1/16 23/54

VQ-VAEによる画像埋め込みの離散化 VQ-VAE [Oord+, 2017] VQ-VAEではあらかじめcode bookを利用する点が異なる 1 0 0 𝑒1
𝑒2 𝑒3 決定論的なサンプリング 𝑧𝑞 𝑥 ~ 𝑞 𝑧|𝑥 = argmin 𝑒 | 𝑧𝑒 𝑥 − 𝑒 | 𝑧𝑒 𝑥 Enc 入力画像 𝑧𝑞 𝑥 生成画像 Dec VQ-VAE [Oord+,2017] VQ-VAEとdVAEの違い • サンプリングの違い：VQ-VAEは決定論的、dVAEは確率的 • VQ-VAEでは徐々にではなく、最初から離散化される 24/54

Vision & Languageを支える要素技術 25/54

画像特徴量抽出器の歴史 V&Lの問題を解くには、画像に登場する物体と物体間の関係性を抽出することが有用（良い物体特徴量抽出器が必要） [Agrawal+, 2016] 例：「Q：口ひげは何でできてる？」を解くのに必要な情報は？ • 物体情報：「人の顔」「バナナ」 •
関係情報「バナナが口元の位置」特に、以下の課題解決に力が注がれてきた • 物体特徴量抽出器は処理が遅い • 物体特徴量抽出器が失敗すると後段の処理も失敗する 26/54

物体特徴量抽出の基礎技術 Faster R-CNN [Ren+,2017] 説明文 image- captioning region feature （固定次元）
• 処理速度 0.2 秒/枚 • YOLOとかは使われない（比較するのが面倒だから？） region feature Faster R-CNNとその派生を使うことが多い bounding box (bbox)候補抽出器 (9 type bbox / position) 予測確率が高い領域を採用領域を固定の次元にpooling 27/54

第一進化形態：Bottom-up attention Bottom-up attention [Anderson+,2018] • VQA Challenge 2017優勝手法 •
2018-2020頃のデファクト Faster R-CNNからの差分 • 物体の属性情報も予測するタスクを追加した • 例："green" grass • 属性情報も付随している Visual Genome (VG) dataset を利用 28/54

第二進化形態：back to the grid feature 「下流タスク（VQA）を学習する前提ならRegion Proposal Network無くても性能が出た」 [Jiang+,2020] 良く訓練されたFaster
R-CNNは、物体領域に区切らなくても既に良い特徴量抽出器！ bottom-up attention grid feature [Jiang+,2020] Region Proposal Networkを除く利点： • 下流タスク訓練後に最終的な性能が向上（物体領域抽出のミスが下流タスクの性能ボトルネックにならないため） • 処理速度が高速化される【VQA全体の処理速度】 • 0.02 [秒/枚] (grid feature) • 0.89 [秒/枚] (bottom-up) 29/54

VinVL's pre-training （4 large dataset）現在のデファクトとなるFaster R-CNN訓練手法 • VQA Challenge
2020の優勝手法 • 技術的新規性はないが、複数データセットをうまくブレンドして上手に訓練した点がウリ • 学習後にgrid featureを利用するのは第二形態と同じ第三進化形態：VinVL [Zhang+,2021] Bottom-up attention （OpenImages datasetで訓練） 30/54

新しい流れ: Transformerによるpatchベース画像をパッチに区切って一から学習（ViLT [Kim+,2021]） • 利点：Faster R-CNNを捨てられるので処理が速い Model Comparison [Kim+,2021]
ViLT [Kim+,2021] UNITER [Chen+,2020]: a region based V&L model (処理が重い) Pixel-BERT [Huang+,2020]: a grid-based V&L model (処理速度まあまあ速い) ViLT: modified from UNITER (特徴量抽出がないので速い) 31/54

余談：VQA Challenge2021の優勝モデル 2021年の優勝モデルは物体領域特徴とgrid特徴を両方使ってアンサンブルしている image is cited from "VQA Challenge
2021 Winner talk" https://drive.google.com/file/d/1KjVjz9cG0KFbEzQwckyDXwrh_63-dbBn/view VQA2021 Winner Accuracy: 79.78% bottom-up attention VinVL Big ensemble with SoTA models region and grid feature 32/54

画像と言語の統合の歴史画像と言語の統合方法はV&Lの本丸以下を紹介します： • 画像と言語の共有埋め込み空間（Visual semantic embedding）をつくる方法 • 注意機構を利用した画像と言語の統合方法 2015
2022 V&L pre-trained language models Visual semantic embeddings 2018 33/54

Visual semantic embedding (VSE) 有名なCLIPの元になった方法論対照学習で画像と言語の共通の潜在空間を学習する [Wu+, 2019] 画像言語
共通の潜在空間相互に変換可能だと、検索・生成に使えて嬉しい埋め込む言語情報の単位は様々 • 物体ラベル [Frome+,2013] • 単語 [Kiros+,2014] • フレーズと文 [Wu+,2019] • （CLIPは雑多なテキスト） 34/54

VSEのための対照学習（黎明期） 1正例1負例をつくってTriplet lossで学習 ※負例はミニバッチから一つランダムに選ぶ ※対照学習とは？→正例負例を比べて訓練する手法 Triplet loss 正例ペア負例ペア 𝑣𝑗
𝑡𝑗 𝑡𝑘 ※𝑠はスコア関数（cosが多い） 𝑣𝑗 と近いほどloss小 𝑣𝑗 と遠いほどloss小 𝑡𝑗 𝑡𝑘 𝑣𝑗 学習後 ℒ𝑣,𝑡 = Σ𝑗 Σ𝑘 max 0, 𝛼 − 𝑠 𝑣𝑗 , 𝑡𝑗 + 𝑠(𝑣𝑗 , 𝑡𝑘 ) ℒ𝑡,𝑣 = Σ𝑗 Σ𝑘 max 0, 𝛼 − 𝑠 𝑡𝑗 , 𝑣𝑗 + 𝑠(𝑡𝑗 , 𝑣𝑘 ) ℒ𝑡𝑜𝑡𝑎𝑙 = ℒ𝑣,𝑡 + ℒ𝑡,𝑣 35/54

VSEのための対照学習（現在） 1正例N負例をつくってInfoNCE loss（の亜種）で学習 ※InfoNCE loss [Oord+,2018]については論文参照 ℒ𝑣,𝑡 = −𝔼 log
exp 𝑠 𝑣, 𝑡𝑘 Σ exp 𝑠 𝑣, 𝑡𝑘 , ℒ𝑡,𝑣 = −𝔼 log exp 𝑠 𝑡, 𝑣𝑘 Σ exp 𝑠 𝑡, 𝑣𝑘 ℒ𝑡𝑜𝑡𝑎𝑙 = 1 2 (ℒ𝑣,𝑡 + ℒ𝑡,𝑣 ) 𝑡𝑗 𝑣𝑗 𝑡4 𝑡2 𝑡3 𝑡1 複数の負例と比べる方が性能が良い 36/54

このlossを使っているのがCLIP[Radford+,2021] VSEをTransformerベースで大規模に訓練すると、色々すごかったことが分かった[Radford+,2021] （実は技術的な面での新規性はない説がある） ViTかResNet transformer [CLS] 37/54

CLIPにおけるClass-free分類 𝑠𝑖𝑗 = 𝑠𝑐𝑜𝑟𝑒 𝐼𝑖 , 𝑇𝑗 = cos 𝐼,
𝑇 ⋅ exp 𝑡 softmax 𝑝11 𝐼 = exp 𝑠 𝐼1 , 𝑇1 Σ𝑗 𝑁 exp 𝑠 𝐼1 , 𝑇𝑗 ℒ𝐼 = −Σ𝑖 𝑁𝑦 𝑖 𝐼 𝑇 log 𝑝 𝑖 𝐼 𝑇 𝐼1 visual feature text feature 𝑇1 𝑇2 𝑇3 𝑠11 𝑠12 𝑠13 ⋯ 𝑇𝑁 ⋯ 𝑠1𝑁 1. similarity scoreの計算 𝑝11 𝐼 𝑝12 𝐼 𝑝13 𝐼 ⋯ 𝑝 15 𝐼 2. softmaxによる正規化 𝑝 1 (𝐼) 1 0 0 ⋯ 0 𝑦 1 (𝐼) target label (positive pair is known) 3. バッチサイズNの時のN値分類の問題としてlossが計算できる 38/54

CLIPにおけるClass-free分類 softmax ℒ𝑇 = −Σ𝑖 𝑁𝑦 𝑖 𝑇 log 𝑝
𝑖 𝑇 visual feature text feature 𝑇1 𝑠11 𝑠21 𝑠31 𝑠𝑁1 𝑝 1 (𝑇) 1 0 0 0 𝑦 1 (𝑇) テキストから見た画像のN値分類も同様にできる 𝐼1 𝐼2 𝐼3 𝐼𝑁 ⋯ 𝑝 11 𝑇 𝑝 21 𝑇 𝑝 31 𝑇 ⋯ 𝑝 𝑁1 𝑇 ⋯ ⋯ 合計のloss: ℒ𝑡𝑜𝑡𝑎𝑙 = ℒ𝐼 + ℒ𝑇 2 39/54

CLIPがすごいのは汎用性 Web上の400Mの画像テキストの組で訓練 Web上のあらゆる画像について汎用性を持つ 40/54

CLIPのゼロショット画像認識 • "There is a group of orange fish eggs
on the table" • "There is a group of orange foods on the table" • "There is a group of yellow fish eggs on the table" 0.627 0.181 0.192 probability (fish eggsを改悪) 手作りテンプレ: "There is a group of [color] [food] on the table" (色を改悪) CLIP 入力画像手作り説明文を使った画像からの説明文検索予測確率の高い文のラベルを予測結果とする上の例は２種類の分類に対応 41/54

CLIPの面白い特徴：Typographic attack "There is a group of orange fish eggs
on the table" "There is a group of yellow fish eggs on the table" "There is a group of blue fish eggs on the table" 0.005 0.833 0.162 probability CLIPは画像中のテキストに敏感（画像中にテキストが映っている画像が多い？）利用する時は注意する必要がある 42/54

CLIPの応用例：テキストによる画像生成基本的なアイデアはだいたい同じ 1. 画像生成モデル(StyleGANなど)の潜在変数zを初期化 2. zにノイズを加えて複数の新しいz’を作成 3. 複数のz’からそれぞれ画像を生成 4. CLIPで生成画像と入力テキストの類似度を計算
5. 評価の高いzを残して2以降を繰り返す [Galatolo+,2021] z 𝑧1 ′ 𝑧2 ′ 𝑧3 ′ add noise 画像生成器 image image image 0.627 0.181 0.192 CLIP text Q. backpropじゃだめなの？ A. ある程度最適解に近づくと停滞しやすい（経験談） 43/54

テキストからの画像生成の例 (using VQ-GAN) input text: "two judo players on TV."
https://colab.research.google.com/drive/1ZAus_gn2RhTZWzOWUpPER NC0Q8OhZRTZ#scrollTo=ZdlpRFL8UAlW 44/54

注意機構を利用した画像と言語の統合方法注意機構（Attention）とは？「たくさんのベクトルの集合から、必要な情報に関連するベクトルを自動的に取捨選択する仕組み」 CV最前線ニュウモンVision and Languageより引用 + attention (weight)
重みづけして足す（内挿操作）たくさんのベクトルの集合（材料）完成品を得るためには重みづけをどう自動で決めると良い？出力（完成品） 45/54

Query, Key, ValueによるAttention計算 • Query：情報を引き出すための鍵 • Key：Valueにアクセスするための鍵穴 • Value：引っ張り出したい情報源 𝑄
𝐾 𝑉 𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 𝑄, 𝐾, 𝑉 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 𝑄𝑇𝐾 𝑑 ⋅ 𝑉 ※ 𝑑はスケーリング V&Lでよく出てくるのは以下の２種類 • Source-target attention：Queryが別の情報源から • Self-attention：Queryが同じ情報源から 46/54

V&Lでは、Transformer内部の画像と言語の相互作用をどう扱うかに２種類の流儀がある 1-stream型 Self-attention型 2-stream型 Source-target attention型 ※どちらが良いかは決着がついてない 47/54

VQA Challenge2021優勝手法のテクニック： Learning to Attend image is cited from "VQA
Challenge 2021 Winner talk" https://drive.google.com/file/d/1KjVjz9cG0KFbEzQwckyDXwrh_63-dbBn/view 1-stream型＋モダリティごとに重みづけパラメータ𝜀1 , 𝜀2 を学習 ( 𝜀1 = 𝑀𝐿𝑃1 (ℎ𝐶𝐿𝑆 ), 𝜀2 = 𝑀𝐿𝑃2 (ℎ𝐶𝐿𝑆 ) ) ℎ𝐶𝐿𝑆 1-stream型から2-stream型にも変化できる手法 48/54

Vision & Language技術の近年の課題 49/54

バイアスの課題学習を大規模化したことでデータセットのフィルタリングが難しく、バイアスの影響がより顕著に・・・ OpenAIがtext-to-imageのモデルDALL-E2で生成の多様性を上げる施策をとったと報告した際、入力テキストに「黒人」や「女性」といったテキスト情報が入っていることが示唆される結果に・・・ https://labs.openai.com/s/PHVac3MM8FZE 6FxuDcuSR4aW https://labs.openai.com/s/4jmy13
AM7qO6cy58aACiytnL 50/54

倫理的に様々な課題もテキスト生成や画像生成の生成結果の品質が上がるに従い、不適切な生成結果や攻撃的な生成結果が人間に悪影響を与える可能性もある →商用利用に応用するのに難しさがある →現状は結局人間が頑張って例外処理のルールを書いているという話も・・・ 51/54

学習データのリーク Web上の大規模なデータで学習したモデルを特定の下流タスクで使用する場合、評価用のデータが学習に使われてないことを保証することが難しくなっている汎化は未知のデータを正しく予測できることを示す概念 • 未知のデータがほぼないという条件下ではどうモデルの良さを評価すれば良いのか？ 52/54

大規模化と扱いづらさ大規模モデルを学習するのには膨大な金銭的コストが必要引用【メタサーベイ】基盤モデル / Foundation Models： https://www.slideshare.net/cvpaperchallenge/foundation-models レンジは百万~数億データのフィルタリングや分散学習の知
見も必須ただし、fine-tuning はGPU1枚でも可能（現実的選択肢）日本語モデルも基盤モデルからつくれる？ 53/54

まとめ近年のV&Lの動向 Transformer+大規模データ＋様々なタスク →基盤モデルとしてのV&Lモデルへ技術的に重要なポイント • Transformerに合わせた画像のトークン化 • 速度と精度の要求に合わせた画像特徴量抽出手法の確立 •
対照学習を利用した画像と言語の共有空間の学習方法の確立 • 注意機構による画像と言語の統合方法の成熟課題 • 大規模データゆえのバイアスへの対処のしにくさ • 大規模モデルの汎化性をどう評価するのが良いか？ • 学習のコストの高さから、新しいモデルの検討が既存の大規模モデルに依存せざるを得ない状況 54/54

NTTの雑談対話モデル(Blenderbot) V100で19,200GPU時間(400GPU×48時間) ABCIで約100万円 https://twitter.com/sei_shinagawa/status/14003977505 33955584/photo/1 Stable diffusion A100(40GB)で38,400,000GPU時間(256GPU×150,000時間) 市場価格で600,000ドル(8千万強)とのこと https://twitter.com/EMostaque/status/1563870674111
832066 GPT-3 460万ドル(約4億9000万円)とのこと（情報元不明）付録 55/54

文献情報 P.4 [Vinyals+, 2015] Oriol Vinyals, Alexander Toshev, Samy Bengio,
and Dumitru Erhan. Show and tell: A neural image caption generator. CVPR 2015. [Agrawal+, 2016] Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C. Lawrence Zitnick, and Devi Parikh. VQA: visual question answering. ICCV2015. [Das+, 2018] Abhishek Das, Samyak Datta, Georgia Gkioxari, Stefan Lee, Devi Parikh, Dhruv Batra. Embodied Question Answering. CVPR2018. [Xu+, 2018] Tao Xu, Pengchuan Zhang, Qiuyuan Huang, Han Zhang, Zhe Gan, Xiaolei Huang, Xiaodong He. AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks. CVPR2018. [Bisk+, 2016] Yonatan Bisk, Deniz Yuret, Daniel Marcu. Natural Language Communication with Robots. NAACL2016. P.6 [Okada, 1980] Naoyuki Okada. Conceptual taxonomy of Japanese verbs for understanding natural language and picture patterns. COLING1980. [Hiyoshi+, 1994] Mayumi Hiyoshi and Hideo Shimazu. Drawing pictures with natural language and direct manipulation. COLING1994. 56/54

文献情報 P.16 [Bommasani+, 2021] Bommasani et al. On the Opportunities
and Risks of Foundation Models. In arXiv [cs.LG]. arXiv. http://arxiv.org/abs/2108.07258 P.19 [Dosovitskiy+, 2021] Dosovitskiy, A. et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. in International Conference on Learning Representations (2021). P.20 [Ramesh+, 2021] Aditya Ramesh, et al. Zero-Shot Text-to-Image generation. arXiv preprint arXiv 2102.12092, 2021. P.24 [Oord+, 2017] Aaron van den Oord et al. Neural Discrete Representation Learning. NIPS2017. P.27 [Ren+,2017] Shaoqing Ren, et al. Faster R-CNN: Towards Real-Time object detection with region proposal networks. IEEE Trans. Pattern Anal. Mach. Intell., Vol. 39, No. 6, pp. 1137–1149, 2017. P.28 [Anderson+,2018] Peter Anderson, et al. Bottom-up and top-down attention for image captioning and visual question answering. In 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018. P.29 [Jiang+,2020] Huaizu Jiang, et al. In defense of grid features for visual question answering. In Proceedings of CVPR, 2020. P.30 [Zhang+,2021] Pengchuan Zhang, et al. VinVL: Making visual representations matter in vision-language models. CVPR. 2021. 57/54

文献情報 P.31 [Kim+,2021] Wonjae Kim, et al. ViLT: Vision-and-Language transformer
without convolution or region supervision. ICML, 2021. [Chen+,2020] Yen-Chun Chen, et al. UNITER: universal image-text representation learning. In Proceedings of ECCV, Vol. 12375 of Lecture Notes in Computer Science, pp. 104–120, 2020. [Huang+,2020] Zhicheng Huang, et al. Pixel-BERT: Aligning image pixels with text by deep Multi-Modal transformers. arXiv preprint arXiv 2004.00849, 2020. P.34 [Frome+,2013] Andrea Frome, et al. DeViSE: A deep visual-semantic embedding model. NIPS, 2013. [Kiros+,2014] Ryan Kiros, et al. Unifying visual-semantic embeddings with multimodal neural language models. arXiv preprint arXiv:1411.2539, 2014. [Wu+,2019] Hao Wu, et al. Unified visual-semantic embeddings: Bridging vision and language with structured meaning representations. In Proceedings of CVPR, 2019. P.36 [Oord+,2018] van den Oord, A., Li, Y. & Vinyals, O. Representation Learning with Contrastive Predictive Coding. arXiv, 2018. 58/54

文献情報 P.37 [Radford+,2021] Alec Radford, et al. Learning transferable visual
models from natural language supervision. In Proceedings of ICML, Vol. 139, pp. 8748–8763, 2021. P.43 [Galatolo+,2021] Galatolo, F. A., et al. Generating images from caption and vice versa via CLIP-Guided Generative Latent Space Search. arXiv [cs.NE] (2021) 59/54

2022.9.7 NAIST DSCサマーセミナー「Vision and Language技術...

2022.9.7 NAIST DSCサマーセミナー「Vision and Language技術の最新動向」

More Decks by Seitaro Shinagawa

Other Decks in Technology

Featured

Transcript