Slide 1

Slide 1 text

Vision & Language技術の 最新動向 2022.09.07 品川 政太朗 奈良先端科学技術大学院大学

Slide 2

Slide 2 text

生息地:Vision and Language+対話 博士課程での研究: 対話的に画像を編集するシステム 科研費(若手):自然言語に紐づいて構 造化された表現に基づく画像生成基盤の 確立 経歴 2013年東北大学工学部卒業 2015年東北大学大学院博士前期課程修了 2020年奈良先端大博士後期課程修了 同年11月から同大学助教 品川 政太朗(しながわ せいたろう)と申します 2/54

Slide 3

Slide 3 text

Vision & Language 分野とは? 3/54

Slide 4

Slide 4 text

• image-captioning: 目が見えない人の支援、監視中に起きたイベントを報告 • text-to-image, image-editing: 創作の支援、ロボット動作のシミュレーション • vision and language navigation: (将来的に)ロボットに汎用的な作業をさせる Vision & Languageはどういう分野? (端的に言えば)画像と言語を組み合わせた問題設定を扱う分野 4/54

Slide 5

Slide 5 text

最近はテキストからの画像生成 (text-to-image)が大流行中 引用:https://gigazine.net/news/20220901- midjourney-win-fine-arts-competition/ 拡散モデル(Diffusion model)+大規模データセット訓練で 多様かつ高品質な画像生成ができると話題に Midjourney:絵画系の画像生成が得意 美術品の品評会で1位になるなど衝撃 を与えている 日本でも多くの技術者・クリエイター の方々が注目中 ねらい通りの画像を生成するための上 手なテキスト入力ノウハウ(呪文)の 探索が進んでいる模様・・・ 引用:https://twitter.com/fladdict/status/1564178679462105088 5/54

Slide 6

Slide 6 text

Vision & Language、実は古株 • 「Vision & Language」と呼ばれ始めたのは2015年 • 昔は「人工知能」と呼ばれていました [Okada, COLING1980] Image-captioningの起源? (手描きの絵から説明文を生成) [Hiyoshi, COLING1994] Move this here. Text-to-imageの起源? (自然言語とキーボード、マウス入力を組合わ せてイラストを描画) 6/54

Slide 7

Slide 7 text

人工知能研究の夢と初期の人工知能研究 機械が自然言語を理解して、人間と協調して知的な作業をし てほしい・・・ SHRDLU [Winograd, 1972] 限定的な積み木の世界の範囲内ではと ても賢く対話して作業ができる これを実現するために、昔の人はルールを作りこんで頑張った この問題設定、まさしくV&L 7/54

Slide 8

Slide 8 text

ただ、そううまくはいかなかった・・・ ぶっちゃけきつかった 最大の原因はスケールしないこと • 環境内の物体の状態、自然言語の理解の仕方をすべてルール で書き下すのは非現実的(知識獲得のボトルネック) • そもそも実世界(画像)と記号(言語)の関係をどう紐づけたら いいのかわからない(記号接地問題) Winograd先生 Winograd先生もこの「人工知能」研究からはすぐ離れてしまいました 現在のVision & Languageが注目されるポイント: 深層学習を基盤とする、実世界(画像)と記号(言語)を 上手に結び付ける方法論の確立と実証を担っている 8/54

Slide 9

Slide 9 text

Q. なぜ画像と言語か? A. データが大量に手に入るので深層学習と相性が良い • 747M(7億超)の画像-英語テキスト • 不適切データも含まれるので研究用途の みに使うことを推奨している COYO-700M • 400M(4億)の画像-英語テキスト • 多言語版のLAION-5B、美麗なサンプルの みを抽出したLAION-AESTHETICSもある LAION-400M https://github.com/kakaobrain/coyo-dataset https://laion.ai/ 最近の大規模データセットは、CommonCrawlという非営利組織がWeb上から集 めた公開データを整形して作成 ライセンスはCreative Commons、しかし・・・ • 画像はCCのもので絞っているらしいが、完全ではなく著作権にも注意 • 明らかな不適切データも含まれるので注意 9/54

Slide 10

Slide 10 text

分野ごとにも注目している焦点に特色が 自然言語処理 コンピュータビジョン (CV) ロボティクス 言語獲得、言語創発 画像説明文生成 テキストからの画像生成 画像付き質問応答 Vision and Language Navigation 自然言語による物体操作 ロボット対話 画像理解にはラベルより柔軟 な記号であるテキストを役立 てたいよね 実世界でコミュニケー ションとれるロボット を実現したい 言語理解には画像とか別の情報源 も文脈に使えるといいよね マルチモーダル機械翻訳 Vision and Language Navigation 自然言語による物体操作 10/54

Slide 11

Slide 11 text

Vision & Language技術 の発展と近年の動向 【Transformersと基盤モデル】 11/54

Slide 12

Slide 12 text

V&L関連技術の歴史年表 2015 2022 画像特徴量 抽出器 画像と言語 の統合 自然言語 処理 Faster R-CNN bottom-up attention Transformer, BERT, GPT Vision Transformer V&L pre-trained language models RNN (LSTM, GRU) Memory networks Visual semantic embeddings 画像生成器 VAE, GAN VQ-VAE, dVAE diffusion model Pixel CNN 2018 近年のV&Lの技術も例に漏れずTransformer を基盤として発展している傾向 12/54

Slide 13

Slide 13 text

Transformerの登場で可能になったこと 言語モデルの大規模なデータ処理が可能になった RNN(LSTM, GRU)は隠れ層 の再帰的入力を繰り返す必要 があり遅い →大規模化のボトルネック TransformerはAttention mask を内部に持つことで各時刻を 並列に訓練可能 →処理が高速なので大規模化が しやすい 13/54

Slide 14

Slide 14 text

大規模言語モデルの汎用性 GPT3をはじめ、大規模言語モデルは様々な知識ベース、タスク、 データに対して汎用的に利用できる可能性を秘めている (下記の例はT5というモデルがベース) UnifiedSKG [Xie+,2022] 14/54

Slide 15

Slide 15 text

V&Lでも複数タスクを一つのTransformer モデルで解く流れが主流になってきている One For All [Wang, P+, 2022] V&Lの問題を解くためのスキルは共通している 対応できるデータ、タスクを増やして汎用なモデルを 目指す方向性 https://github.com/OFA- Sys/OFA 15/54

Slide 16

Slide 16 text

これらのような汎用的なモデルを 最近では基盤モデルと呼びます Foundation model(基盤モデル) [Bommasani+, 2021] 様々なデータで事前学習して様々なタスクに応用できる 図は[Bommasani+, 2021] から引用 16/54

Slide 17

Slide 17 text

代表的なTransformerモデルは3種類 Transformer Enc Dec 𝐾, 𝑉 Dec Enc Decoderのみモデル (GPT系) Encoderのみモデル (BERT、ViT系) Encoder-Decoderモデル もう全部系列として 生成しようぜ Decoderは要らない 分類ができたらいい これが原点 17/54

Slide 18

Slide 18 text

各Transformerモデルの特徴 Encoder-Decoder型 (Vanilla Transformer) Decoder-only型 (GPT-1,2,3) Encoder-only型 (BERT, ViT) Enc Dec 𝐾, 𝑉 • Encoderの出力がkey, valueとなる 注意機構(ソース・ターゲット注意) • Decoderはトークンを一つずつ予測 (自己回帰モデル) • Decoderはトークンを一つずつ予測 (自己回帰モデル) • 赤トークンから予測すればEncoder- Decoder風にも使える(Prompting) Dec • 先頭のトークンでクラス分類を行う (画像と文のペア識別、画像認識) • 適当にマスクしたトークンの復元課題 を解く(マスク付き言語モデリング) • 自己回帰モデルのような予測も可能 Enc 18/54

Slide 19

Slide 19 text

画像をTransformerで扱うには? Transformerは入力をトークン単位の系列として扱う 画像はどのようにトークン化すべきか? ①物体特徴量をトークンとして扱う 例:Faster R-CNNから抽出した物体特徴をトークンとして利用 ②grid状の特徴をトークンとして扱う ViLBERT [Lu+,2019] 利点:物体特徴をマスクして ラベル予測する学習方法(自 己教師あり学習)が使える Vision Transformer [Dosovitskiy+, 2021] 利点:物体特徴抽出器が不要 埋め込みを離散化すれば自己 教師あり学習も可能 19/54

Slide 20

Slide 20 text

テキストからの画像生成では画像埋め込みを 離散化してトークン化している DALL-E[Ramesh+, 2021] はdVAE(discrete VAE)で画像トー クンを離散化している input text (fixed) visual tokens (generate) GPT-3 (decoder-only transformer) 20/54

Slide 21

Slide 21 text

dVAE (discrete VAE)の学習方法 1 ⋯ 0 𝑧𝑖𝑗 = Enc 入力 画像 生成 画像 Dec 潜在変数 𝑧 にGumbel-softmaxを適用して離散化する 𝑧~𝑞𝜙 𝑧 𝑥 ≈ 𝑝 𝑧 32 tokens 0 0 vocabulary size: 8192 𝑧 ∈ ℝ32×32×8192 Gumbel-softmax • VAEは適当な分布𝑝 𝑧 に潜在空間を押し込める正則化を行う • dVAEにおける𝑝 𝑧 は一様カテゴリ分布 ℒ = −𝔼𝑧~𝑞𝜙 𝑧|𝑥 log 𝑝𝜃 𝑥|𝑧 +𝛽𝐷𝐾𝐿 𝑞𝜙 𝑧|𝑥 , 𝑝 𝑧 21/54

Slide 22

Slide 22 text

Gumbel-softmax 1. Sample 𝑢1 , 𝑢2 , … , 𝑢𝐶 ~Uniform 0,1 2. 𝑔 = − log − log 𝑢 (ただし, 𝑢 = 𝑢1 , 𝑢2 , … , 𝑢𝐶 ) 3. 𝑧 = softmax log 𝑞𝜙 𝑧|𝑥 +𝑔 𝜏 Gumbel-softmaxは一様カテゴリ分布に対する Reparametrization trick(誤差逆伝播時に計算グラフを保持 する工夫) 22/54

Slide 23

Slide 23 text

訓練時には慎重に徐々に離散化する必要がある dVAEでは2つのハイパーパラメータがある • 正則化項の係数 𝛽: 0 → 0.66 • Gumbel softmaxの温度パラメータ 𝜏: 1 → 1/16 𝛽: 0 → 0.66 𝜏: 1 → 1/16 23/54

Slide 24

Slide 24 text

VQ-VAEによる画像埋め込みの離散化 VQ-VAE [Oord+, 2017] VQ-VAEではあらかじめcode bookを利用する点が異なる 1 0 0 𝑒1 𝑒2 𝑒3 決定論的なサンプリング 𝑧𝑞 𝑥 ~ 𝑞 𝑧|𝑥 = argmin 𝑒 | 𝑧𝑒 𝑥 − 𝑒 | 𝑧𝑒 𝑥 Enc 入力 画像 𝑧𝑞 𝑥 生成 画像 Dec VQ-VAE [Oord+,2017] VQ-VAEとdVAEの違い • サンプリングの違い:VQ-VAEは決定論的、dVAEは確率的 • VQ-VAEでは徐々にではなく、最初から離散化される 24/54

Slide 25

Slide 25 text

Vision & Languageを 支える要素技術 25/54

Slide 26

Slide 26 text

画像特徴量抽出器の歴史 V&Lの問題を解くには、画像に登場する物体と物体間の関係 性を抽出することが有用(良い物体特徴量抽出器が必要) [Agrawal+, 2016] 例:「Q:口ひげは何でできてる?」 を解くのに必要な情報は? • 物体情報:「人の顔」「バナナ」 • 関係情報「バナナが口元の位置」 特に、以下の課題解決に力が注がれてきた • 物体特徴量抽出器は処理が遅い • 物体特徴量抽出器が失敗すると後段の処理も失敗する 26/54

Slide 27

Slide 27 text

物体特徴量抽出の基礎技術 Faster R-CNN [Ren+,2017] 説明文 image- captioning region feature (固定次元) • 処理速度 0.2 秒/枚 • YOLOとかは使われない(比 較するのが面倒だから?) region feature Faster R-CNNとその派生を使うことが多い bounding box (bbox)候補抽出器 (9 type bbox / position) 予測確率が高い領域を採用 領域を固定の次元にpooling 27/54

Slide 28

Slide 28 text

第一進化形態:Bottom-up attention Bottom-up attention [Anderson+,2018] • VQA Challenge 2017優勝手法 • 2018-2020頃のデファクト Faster R-CNNからの差分 • 物体の属性情報も予測するタス クを追加した • 例:"green" grass • 属性情報も付随している Visual Genome (VG) dataset を利用 28/54

Slide 29

Slide 29 text

第二進化形態:back to the grid feature 「下流タスク(VQA)を学習する前提ならRegion Proposal Network無くても性能が出た」 [Jiang+,2020] 良く訓練されたFaster R-CNNは、 物体領域に区切らなくても既に良い特徴量抽出器! bottom-up attention grid feature [Jiang+,2020] Region Proposal Networkを除く利点: • 下流タスク訓練後に最終的な性能が向 上(物体領域抽出のミスが下流タスク の性能ボトルネックにならないため) • 処理速度が高速化される 【VQA全体の処理速度】 • 0.02 [秒/枚] (grid feature) • 0.89 [秒/枚] (bottom-up) 29/54

Slide 30

Slide 30 text

VinVL's pre-training (4 large dataset) 現在のデファクトとなるFaster R-CNN訓練手法 • VQA Challenge 2020の優勝手法 • 技術的新規性はないが、複数データセットをうまくブレンド して上手に訓練した点がウリ • 学習後にgrid featureを利用するのは第二形態と同じ 第三進化形態:VinVL [Zhang+,2021] Bottom-up attention (OpenImages datasetで訓練) 30/54

Slide 31

Slide 31 text

新しい流れ: Transformerによるpatchベース 画像をパッチに区切って一から学習(ViLT [Kim+,2021]) • 利点:Faster R-CNNを捨てられるので処理が速い Model Comparison [Kim+,2021] ViLT [Kim+,2021] UNITER [Chen+,2020]: a region based V&L model (処理が重い) Pixel-BERT [Huang+,2020]: a grid-based V&L model (処理速度まあまあ速い) ViLT: modified from UNITER (特徴量抽出がないので速い) 31/54

Slide 32

Slide 32 text

余談:VQA Challenge2021の優勝モデル 2021年の優勝モデルは物体領域特徴とgrid特徴を両方使って アンサンブルしている image is cited from "VQA Challenge 2021 Winner talk" https://drive.google.com/file/d/1KjVjz9cG0KFbEzQwckyDXwrh_63-dbBn/view VQA2021 Winner Accuracy: 79.78% bottom-up attention VinVL Big ensemble with SoTA models region and grid feature 32/54

Slide 33

Slide 33 text

画像と言語の統合の歴史 画像と言語の統合方法はV&Lの本丸 以下を紹介します: • 画像と言語の共有埋め込み空間(Visual semantic embedding)をつくる方法 • 注意機構を利用した画像と言語の統合方法 2015 2022 V&L pre-trained language models Visual semantic embeddings 2018 33/54

Slide 34

Slide 34 text

Visual semantic embedding (VSE) 有名なCLIPの元になった方法論 対照学習で画像と言語の共通の潜在空間を学習する [Wu+, 2019] 画像 言語 共通の 潜在空間 相互に変換可能だと、検索・生成に使えて嬉しい 埋め込む言語情報の単位は様々 • 物体ラベル [Frome+,2013] • 単語 [Kiros+,2014] • フレーズと文 [Wu+,2019] • (CLIPは雑多なテキスト) 34/54

Slide 35

Slide 35 text

VSEのための対照学習(黎明期) 1正例1負例をつくってTriplet lossで学習 ※負例はミニバッチから一つランダムに選ぶ ※対照学習とは?→正例負例を比べて訓練する手法 Triplet loss 正例ペア 負例ペア 𝑣𝑗 𝑡𝑗 𝑡𝑘 ※𝑠はスコア関数(cosが多い) 𝑣𝑗 と近いほどloss小 𝑣𝑗 と遠いほどloss小 𝑡𝑗 𝑡𝑘 𝑣𝑗 学習後 ℒ𝑣,𝑡 = Σ𝑗 Σ𝑘 max 0, 𝛼 − 𝑠 𝑣𝑗 , 𝑡𝑗 + 𝑠(𝑣𝑗 , 𝑡𝑘 ) ℒ𝑡,𝑣 = Σ𝑗 Σ𝑘 max 0, 𝛼 − 𝑠 𝑡𝑗 , 𝑣𝑗 + 𝑠(𝑡𝑗 , 𝑣𝑘 ) ℒ𝑡𝑜𝑡𝑎𝑙 = ℒ𝑣,𝑡 + ℒ𝑡,𝑣 35/54

Slide 36

Slide 36 text

VSEのための対照学習(現在) 1正例N負例をつくってInfoNCE loss(の亜種)で学習 ※InfoNCE loss [Oord+,2018]については論文参照 ℒ𝑣,𝑡 = −𝔼 log exp 𝑠 𝑣, 𝑡𝑘 Σ exp 𝑠 𝑣, 𝑡𝑘 , ℒ𝑡,𝑣 = −𝔼 log exp 𝑠 𝑡, 𝑣𝑘 Σ exp 𝑠 𝑡, 𝑣𝑘 ℒ𝑡𝑜𝑡𝑎𝑙 = 1 2 (ℒ𝑣,𝑡 + ℒ𝑡,𝑣 ) 𝑡𝑗 𝑣𝑗 𝑡4 𝑡2 𝑡3 𝑡1 複数の負例と比べ る方が性能が良い 36/54

Slide 37

Slide 37 text

このlossを使っているのがCLIP[Radford+,2021] VSEをTransformerベースで大規模に訓練すると、色々 すごかったことが分かった[Radford+,2021] (実は技術的な面での新規性はない説がある) ViTかResNet transformer [CLS] 37/54

Slide 38

Slide 38 text

CLIPにおけるClass-free分類 𝑠𝑖𝑗 = 𝑠𝑐𝑜𝑟𝑒 𝐼𝑖 , 𝑇𝑗 = cos 𝐼, 𝑇 ⋅ exp 𝑡 softmax 𝑝11 𝐼 = exp 𝑠 𝐼1 , 𝑇1 Σ𝑗 𝑁 exp 𝑠 𝐼1 , 𝑇𝑗 ℒ𝐼 = −Σ𝑖 𝑁𝑦 𝑖 𝐼 𝑇 log 𝑝 𝑖 𝐼 𝑇 𝐼1 visual feature text feature 𝑇1 𝑇2 𝑇3 𝑠11 𝑠12 𝑠13 ⋯ 𝑇𝑁 ⋯ 𝑠1𝑁 1. similarity scoreの計算 𝑝11 𝐼 𝑝12 𝐼 𝑝13 𝐼 ⋯ 𝑝 15 𝐼 2. softmaxによる正規化 𝑝 1 (𝐼) 1 0 0 ⋯ 0 𝑦 1 (𝐼) target label (positive pair is known) 3. バッチサイズNの時のN値分類の問題としてlossが計算できる 38/54

Slide 39

Slide 39 text

CLIPにおけるClass-free分類 softmax ℒ𝑇 = −Σ𝑖 𝑁𝑦 𝑖 𝑇 log 𝑝 𝑖 𝑇 visual feature text feature 𝑇1 𝑠11 𝑠21 𝑠31 𝑠𝑁1 𝑝 1 (𝑇) 1 0 0 0 𝑦 1 (𝑇) テキストから見た画像のN値分類も同様にできる 𝐼1 𝐼2 𝐼3 𝐼𝑁 ⋯ 𝑝 11 𝑇 𝑝 21 𝑇 𝑝 31 𝑇 ⋯ 𝑝 𝑁1 𝑇 ⋯ ⋯ 合計のloss: ℒ𝑡𝑜𝑡𝑎𝑙 = ℒ𝐼 + ℒ𝑇 2 39/54

Slide 40

Slide 40 text

CLIPがすごいのは汎用性 Web上の400Mの画像テキストの組で訓練 Web上のあらゆる画像について汎用性を持つ 40/54

Slide 41

Slide 41 text

CLIPのゼロショット画像認識 • "There is a group of orange fish eggs on the table" • "There is a group of orange foods on the table" • "There is a group of yellow fish eggs on the table" 0.627 0.181 0.192 probability (fish eggsを改悪) 手作りテンプレ: "There is a group of [color] [food] on the table" (色を改悪) CLIP 入力画像 手作り説明文を使った画像からの説明文検索 予測確率の高い文のラベルを予 測結果とする 上の例は2種類の分類に対応 41/54

Slide 42

Slide 42 text

CLIPの面白い特徴:Typographic attack "There is a group of orange fish eggs on the table" "There is a group of yellow fish eggs on the table" "There is a group of blue fish eggs on the table" 0.005 0.833 0.162 probability CLIPは画像中のテキストに敏感(画像中にテキストが 映っている画像が多い?) 利用する時は注意する必要がある 42/54

Slide 43

Slide 43 text

CLIPの応用例:テキストによる画像生成 基本的なアイデアはだいたい同じ 1. 画像生成モデル(StyleGANなど)の潜在変数zを初期化 2. zにノイズを加えて複数の新しいz’を作成 3. 複数のz’からそれぞれ画像を生成 4. CLIPで生成画像と入力テキストの類似度を計算 5. 評価の高いzを残して2以降を繰り返す [Galatolo+,2021] z 𝑧1 ′ 𝑧2 ′ 𝑧3 ′ add noise 画像 生成器 image image image 0.627 0.181 0.192 CLIP text Q. backpropじゃだめなの? A. ある程度最適解に近づくと停滞しやすい(経験談) 43/54

Slide 44

Slide 44 text

テキストからの画像生成の例 (using VQ-GAN) input text: "two judo players on TV." https://colab.research.google.com/drive/1ZAus_gn2RhTZWzOWUpPER NC0Q8OhZRTZ#scrollTo=ZdlpRFL8UAlW 44/54

Slide 45

Slide 45 text

注意機構を利用した画像と言語の統合方法 注意機構(Attention)とは? 「たくさんのベクトルの集合から、必要な情報に関連する ベクトルを自動的に取捨選択する仕組み」 CV最前線ニュウモンVision and Languageより引用 + attention (weight) 重みづけして足す (内挿操作) たくさんのベクトル の集合(材料) 完成品を得るためには重みづけ をどう自動で決めると良い? 出力 (完成品) 45/54

Slide 46

Slide 46 text

Query, Key, ValueによるAttention計算 • Query:情報を引き出すための鍵 • Key:Valueにアクセスするための鍵穴 • Value:引っ張り出したい情報源 𝑄 𝐾 𝑉 𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 𝑄, 𝐾, 𝑉 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 𝑄𝑇𝐾 𝑑 ⋅ 𝑉 ※ 𝑑はスケーリング V&Lでよく出てくるのは以下の2種類 • Source-target attention:Queryが別の情報源から • Self-attention:Queryが同じ情報源から 46/54

Slide 47

Slide 47 text

V&Lでは、Transformer内部の画像と言語の相互 作用をどう扱うかに2種類の流儀がある 1-stream型 Self-attention型 2-stream型 Source-target attention型 ※どちらが良いかは決着がついてない 47/54

Slide 48

Slide 48 text

VQA Challenge2021優勝手法のテクニック: Learning to Attend image is cited from "VQA Challenge 2021 Winner talk" https://drive.google.com/file/d/1KjVjz9cG0KFbEzQwckyDXwrh_63-dbBn/view 1-stream型+モダリティごとに重みづけパラメータ𝜀1 , 𝜀2 を学 習 ( 𝜀1 = 𝑀𝐿𝑃1 (ℎ𝐶𝐿𝑆 ), 𝜀2 = 𝑀𝐿𝑃2 (ℎ𝐶𝐿𝑆 ) ) ℎ𝐶𝐿𝑆 1-stream型から2-stream型にも変化できる手法 48/54

Slide 49

Slide 49 text

Vision & Language技術 の近年の課題 49/54

Slide 50

Slide 50 text

バイアスの課題 学習を大規模化したことでデータセットのフィルタリングが 難しく、バイアスの影響がより顕著に・・・ OpenAIがtext-to-imageのモデルDALL-E2で生成の多様性を 上げる施策をとったと報告した際、入力テキストに「黒人」 や「女性」といったテキスト情報が入っていることが示唆さ れる結果に・・・ https://labs.openai.com/s/PHVac3MM8FZE 6FxuDcuSR4aW https://labs.openai.com/s/4jmy13 AM7qO6cy58aACiytnL 50/54

Slide 51

Slide 51 text

倫理的に様々な課題も テキスト生成や画像生成の生成結果の品質が上がるに従い、 不適切な生成結果や攻撃的な生成結果が人間に悪影響を与え る可能性もある →商用利用に応用するのに難しさがある →現状は結局人間が頑張って例外処理のルールを書いている という話も・・・ 51/54

Slide 52

Slide 52 text

学習データのリーク Web上の大規模なデータで学習したモデルを特定の下流 タスクで使用する場合、評価用のデータが学習に使われ てないことを保証することが難しくなっている 汎化は未知のデータを正しく予測できることを示す概念 • 未知のデータがほぼないという条件下ではどうモデルの良 さを評価すれば良いのか? 52/54

Slide 53

Slide 53 text

大規模化と扱いづらさ 大規模モデルを学習するのには膨大な金銭的コストが必要 引用【メタサーベイ】基盤モデル / Foundation Models: https://www.slideshare.net/cvpaperchallenge/foundation-models レンジは百万~数億 データのフィルタリ ングや分散学習の知 見も必須 ただし、fine-tuning はGPU1枚でも可能 (現実的選択肢) 日本語モデルも基盤モデ ルからつくれる? 53/54

Slide 54

Slide 54 text

まとめ 近年のV&Lの動向 Transformer+大規模データ+様々なタスク →基盤モデルとしてのV&Lモデルへ 技術的に重要なポイント • Transformerに合わせた画像のトークン化 • 速度と精度の要求に合わせた画像特徴量抽出手法の確立 • 対照学習を利用した画像と言語の共有空間の学習方法の確立 • 注意機構による画像と言語の統合方法の成熟 課題 • 大規模データゆえのバイアスへの対処のしにくさ • 大規模モデルの汎化性をどう評価するのが良いか? • 学習のコストの高さから、新しいモデルの検討が既存の大規 模モデルに依存せざるを得ない状況 54/54

Slide 55

Slide 55 text

NTTの雑談対話モデル(Blenderbot) V100で19,200GPU時間(400GPU×48時間) ABCIで約100万円 https://twitter.com/sei_shinagawa/status/14003977505 33955584/photo/1 Stable diffusion A100(40GB)で38,400,000GPU時間(256GPU×150,000時間) 市場価格で600,000ドル(8千万強)とのこと https://twitter.com/EMostaque/status/1563870674111 832066 GPT-3 460万ドル(約4億9000万円)とのこと(情報元不明) 付録 55/54

Slide 56

Slide 56 text

文献情報 P.4 [Vinyals+, 2015] Oriol Vinyals, Alexander Toshev, Samy Bengio, and Dumitru Erhan. Show and tell: A neural image caption generator. CVPR 2015. [Agrawal+, 2016] Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C. Lawrence Zitnick, and Devi Parikh. VQA: visual question answering. ICCV2015. [Das+, 2018] Abhishek Das, Samyak Datta, Georgia Gkioxari, Stefan Lee, Devi Parikh, Dhruv Batra. Embodied Question Answering. CVPR2018. [Xu+, 2018] Tao Xu, Pengchuan Zhang, Qiuyuan Huang, Han Zhang, Zhe Gan, Xiaolei Huang, Xiaodong He. AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks. CVPR2018. [Bisk+, 2016] Yonatan Bisk, Deniz Yuret, Daniel Marcu. Natural Language Communication with Robots. NAACL2016. P.6 [Okada, 1980] Naoyuki Okada. Conceptual taxonomy of Japanese verbs for understanding natural language and picture patterns. COLING1980. [Hiyoshi+, 1994] Mayumi Hiyoshi and Hideo Shimazu. Drawing pictures with natural language and direct manipulation. COLING1994. 56/54

Slide 57

Slide 57 text

文献情報 P.16 [Bommasani+, 2021] Bommasani et al. On the Opportunities and Risks of Foundation Models. In arXiv [cs.LG]. arXiv. http://arxiv.org/abs/2108.07258 P.19 [Dosovitskiy+, 2021] Dosovitskiy, A. et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. in International Conference on Learning Representations (2021). P.20 [Ramesh+, 2021] Aditya Ramesh, et al. Zero-Shot Text-to-Image generation. arXiv preprint arXiv 2102.12092, 2021. P.24 [Oord+, 2017] Aaron van den Oord et al. Neural Discrete Representation Learning. NIPS2017. P.27 [Ren+,2017] Shaoqing Ren, et al. Faster R-CNN: Towards Real-Time object detection with region proposal networks. IEEE Trans. Pattern Anal. Mach. Intell., Vol. 39, No. 6, pp. 1137–1149, 2017. P.28 [Anderson+,2018] Peter Anderson, et al. Bottom-up and top-down attention for image captioning and visual question answering. In 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018. P.29 [Jiang+,2020] Huaizu Jiang, et al. In defense of grid features for visual question answering. In Proceedings of CVPR, 2020. P.30 [Zhang+,2021] Pengchuan Zhang, et al. VinVL: Making visual representations matter in vision-language models. CVPR. 2021. 57/54

Slide 58

Slide 58 text

文献情報 P.31 [Kim+,2021] Wonjae Kim, et al. ViLT: Vision-and-Language transformer without convolution or region supervision. ICML, 2021. [Chen+,2020] Yen-Chun Chen, et al. UNITER: universal image-text representation learning. In Proceedings of ECCV, Vol. 12375 of Lecture Notes in Computer Science, pp. 104–120, 2020. [Huang+,2020] Zhicheng Huang, et al. Pixel-BERT: Aligning image pixels with text by deep Multi-Modal transformers. arXiv preprint arXiv 2004.00849, 2020. P.34 [Frome+,2013] Andrea Frome, et al. DeViSE: A deep visual-semantic embedding model. NIPS, 2013. [Kiros+,2014] Ryan Kiros, et al. Unifying visual-semantic embeddings with multimodal neural language models. arXiv preprint arXiv:1411.2539, 2014. [Wu+,2019] Hao Wu, et al. Unified visual-semantic embeddings: Bridging vision and language with structured meaning representations. In Proceedings of CVPR, 2019. P.36 [Oord+,2018] van den Oord, A., Li, Y. & Vinyals, O. Representation Learning with Contrastive Predictive Coding. arXiv, 2018. 58/54

Slide 59

Slide 59 text

文献情報 P.37 [Radford+,2021] Alec Radford, et al. Learning transferable visual models from natural language supervision. In Proceedings of ICML, Vol. 139, pp. 8748–8763, 2021. P.43 [Galatolo+,2021] Galatolo, F. A., et al. Generating images from caption and vice versa via CLIP-Guided Generative Latent Space Search. arXiv [cs.NE] (2021) 59/54