3 ⾃⼰紹介 経歴 • 2017.10 ‒ 2021.09 特別研究員@理研AIP • 2018.10 ‒ 現在 助教@東北⼤ (最近)関⼼のある研究分野 • Vision and Language NAS + 画像分類 [GECCOʼ17 (Best paper)] NAS+画像復元 [ICMLʼ18, CVPRʼ19] GT-1: a child is brushing her hair in the mirror GT-2: a little girl is brushing GT-1: an ele to far from a GT-2: an ele GT-2: A cat is sleeping on a skateboard. M2: a kitten laying on the floor next to a skateboard GRIT: a cat laying on a skateboard on the floor GT-2: A small standing next to M2: an elephan two birds in the GRIT: a baby e walking in a fie GT-1: a kitchen with a refrigerator next to a sink. GT-2: a red bucket sits in a sink next to an open refrigerator M2: an open refrigerator with the door open in a kitchen GRIT: a kitchen with a sink and an open refrigerator GT-1: a woman luggage past an GT-2: a woman suitcase past a f M2: a person rid down a street w GRIT: a person suitcase next to GT-1: a small teddy bear is wedged into an opening in a car dashboard GT-1: horses ra track with jocke GT-2: a group o BHSPVQPGKPDLF POB BMJUUMFHJSMCSVTIJOHIFSIBJS XJUIBCSVTI V&L [ECCVʼ20, IJCAIʼ21, ECCVʼ22]
• 名前の通り,「画像」と「⾔語」を扱う研究分野 • 具体例:Visual Question Answering(VQA) 4 Vision and Languageとは? Q.Where is the child sitting? A. fridge VQA v2, https://visualqa.org/
• ついに,テキストと「画像」の⼊⼒が可能に • つまり,V&Lの問題を解ける 8 GPT-4の登場 [OpenAI, 2023] The unusual thing about this image is that a man is ironing clothes on an ironing board attached to the roof of a moving taxi. GPT-4 以降,22pageまでの図はhttps://openai.com/research/gpt-4 から引⽤
• 画像からだけではわからない知識が獲得されている • こういった知識は標準的なV&L⽤のデータセットだけでは獲得できない 20 個⼈的な所感 Panel 1: A smartphone with a VGA connector (a large, blue, 15-pin connector typically used for computer monitors) plugged into its charging port. • この画像だけからでは,VGAが 15-pinのケーブルであることは 判断できない • VGAがPCモニター⽤のものとして 使⽤されているという知識も
• 画像からだけではわからない知識が獲得されている • こういった知識は標準的なV&L⽤のデータセットだけでは獲得できない 21 個⼈的な所感 • 宇宙から地球を⾒たときの世界地図に 関する知識が表現できている • ⽇本がないのをつっこんで欲しいけど... This meme is a joke that combines two unrelated things: pictures of the earth from space and chicken nuggets.
• OCRの性能も⾼い • 最も⼀般的な⽅法は,OCRモデル+V&L⽤モデルのような組み合わせ • 単⼀のTransformerモデルで両者を表現できているとすれば有⽤ 22 個⼈的な所感 • OCRの性能も⾼い • 多⾔語に対応 Panel 2: The package for the "Lightning Cable" adapter with a picture of a VGA connector on it.
動画説明⽂の⽣成タスク [Rohrbach+, IJCVʼ17] 31 Large Scale Movie Description Challenge (LSMDC) Someone, back in elf guise, is trying to calm the kids. Someone grabs a vodka bottle standing open on the counter and liberally pours some on the hand. [Rohrbach+, IJCVʼ17] から引⽤
• いわゆる下記のような⼀般的なAGIの定義を意味しているわけではない • 完全である • ⼈間ができるあらゆることができる など • この論⽂内では,1994年に52名の⼼理学者が定義した知能のことを指す[*] • a very general mental capability that, among other things, involves the ability to reason, plan, solve problems, think abstractly, comprehend complex ideas, learn quickly and learn from experience • だが,そもそもAGIの定義⾃体が難しいとも⾔及している • この論⽂の趣旨は「GPT-4はどんなことができて,どんなことができないか」 を共有すること 47 タイトルに「AGI」が⼊っているが [*] Linda S Gottfredson. Mainstream science on intelligence: An editorial with 52 signatories, history, and bibliography, 1997
• プロンプト • “Produce javascript code which generates random images in the style of the painter Kandinsky” • アートとプログラミングという異なる分野の能⼒を適切に使いこなしている ことがわかる 50 例:アートを出⼒するコード⽣成 Composition 8, art by Wassily Kandinsky GPT-4 chatGPT
• ものすごい簡単な演算も普通に間違える • [0,9]の数字をランダムに4つサンプルして,下記のような積和計算をさせると, 58%しか正答できなかった • [10, 19]で試すと,正答率は16% • このようなタイプの問題に対しては,途中結果の保持がうまくできない • “Letʼs think step by step to solve the expression, write down all the intermediate the steps, and only then produce the final solution.” のようなプロンプトで改善可能ではある 62 演算に関しては特に苦⼿ 演算問題に対しては,ワーキングメモリが ものすごく⼩さくなる?
• 実はV&Lの研究ではいくつか提案されている • 典型的なのは,OKVQA(Outside Knowledge VQA)[Marino+, CVPRʼ19] [Schewenk+, 2022] のための⼿法 69 LLMをVQAモデルに組み込む [Schewenk+, A-OKVQA, 2022] Q. What does the man who sits have trouble doing? A. Walking ⾞椅⼦を利⽤している⼈は歩くことが 困難であるという知識が必要
• GPT-3がもっている知識を [質問⽂,物体,画像キャプション,例⽰] で抽出 • 同時に,CLIPを⽤いてWikidataからも情報を検索 71 GPT-3を利⽤したOK-VQA [Gui+, NACCLʼ22] 物体検出 CLIP Transformer Encoder Transformer Decoder (15 画像キャプ ション⽣成 Q.What does the man who sits have trouble doing? A. walk