SSII2023 [OS1] GPT-4とVision-and-Languageの未来

GPT-4と Vision-and-Languageの未来 2023.6.14 ⻄⽥京介（NTT⼈間情報研究所）

⾃⼰紹介︓⻄⽥京介 2 2009年 NTT⼊社．2023年より上席特別研究員． 2016年より⾃然⾔語処理を専⾨にし，機械読解（質問応答）を研究． 2020年頃からVision-and-Language，特に視覚的機械読解に着⼿．現在はNTT研究所における⼤規模⾔語モデルの研究開発を統括． Answer. $37,732 機械読解（〜’19）
視覚的機械読解（’20〜） Answer. 77.3% What percentage is roman catholic in cape verde? Microsoft MARCO Rank 1 COTOHA サービスイン NLPʼ18-19 受賞 InfographicsVQA Rank 2 AAAI-21,23 NLPʼ20-23 受賞

1. GPT-4の概要と主に⾔語能⼒に関する評価 2. GPT-4のV&Lタスクにおける評価・動作例 3. ChatGPT/GPT-4周辺のさらなる発展 4. おわりに︓まとめと今後の展望 3 ⽬次

4 GPT-4の概要と主に⾔語能⼒に関する評価

（タスクの指⽰）このプログラムの誤りを直して汎⽤⼈⼯知能が遠い夢では無くなる >こちらは「Transformer」という深層学習モデルを提案した論⽂です。 Transformerは、seq2seq（順⽅向から順⽅向への変換）タスクや⾃然⾔語処理タスクなど
に．．．（情報の検索） “attention is all you need” 論⽂の要約を教えて（コンテンツの⽣成）〜〜〜に関する学術論⽂を書いて Google検索に変わる新たな情報検索の体験 AIが⼈に変わり任意の⾔語タスクを遂⾏ AIのトップ会議ICMLは⾔語モデルによる論⽂の執筆を禁⽌ > 修正したコードになります． ChatGPTの執筆した論⽂要旨の1/3を専⾨家が⾒破れず 5 • ChatGPT [OpenAI, 2022/11] の成功により，様々な⾃然⾔語処理タスクを「特化した学習無し」に解けることが実証された • GPT-4 [OpenAI, 2023/3/14] ではChatGPTをさらに上回り，⼈レベルの⾔語理解・⽣成能⼒を持つ

• GPT-3 [Brown+, 2020/03], GPT-3.5（InstructGPT [Ouyang+, 2022/01] / ChatGPT [OpenAI,
2023/11] ）の後継として発表された⼤規模マルチモーダルモデル – ⼊⼒に画像とテキストを受け取り，テキストを出⼒する • モデルのパラメータ数や構造，学習データ・⽅法などの詳細は未公開 • MicrosoftはGPT-4が ”sparks of AGI” を⽰したと主張 [Bubbek+, 2023/03/22] 6 GPT-4 [OpenAI, 2023/3/14] https://arxiv.org/abs/2303.08774/ User: Below is part of the InstuctGPT paper. Could you read and summarize it to me? GPT-4: The InstructGPT paper focuses on training large language models to follow instructions with human feedback. … User: Could you explain the process described in Figure 2? GPT-4: Figure 2 in the InstructGPT paper illustrates the three steps of their method: 1. Supervised fine-tuning (SFT): … 2. Reward model (RM) training: … 3. Reinforcement learning using Proximal Policy Optimization (PPO): … These three steps are iteratively performed to train the InstructGPT model, which aims to generate outputs that align better with human preferences and follow instructions more effectively.

7 InstructGPTの作り⽅（GPT-4の2段階前⾝） LLM 0. Webから⼤量のテキストを収集して LLMを学習 1. 指⽰に対して望ましい応答を作成して
教師あり学習(SFT) 2. モデル出⼒の⽐較データを作成し報酬モデル(RM)を学習 3. 報酬モデル(RM)を⽤いてPPOを⽤いた強化学習により更新繰り返し

1. MBE︓4択の選択問題．ひっかけ問題が多い 2. MEE︓論述式．やや⻑めの問題⽂に関して3~4問の⼩問 3. MPT︓論述式．必要な知識は問題⽂に全て記載されているの全形式に関して，GPT-4はzero-shotにて合格点．特にMBEで⾼スコア • 法律の専⾨家である著者らが，まだ⼈間の確認は必要としつつも，⻑年待望んでいた”
legal force multiplier”が遂に実現した，と考えている 8 GPT-4が司法試験をパス [Katz(Illinois Tech)+, 2023/04] 学⽣の平均スコア合格ライン GPT-4 ChatGPT

• 社会的な意思決定判断を含むテキストシナリオをラベリングしたところ， GPT-4はクラウドワーカよりも熟練者に近い判定ができた • 57万件のアノテーションに掛かる費⽤50万ドル，2万時間を⼤幅に削減 9 クラウドワーカ以上の能⼒ [Pan(UCB)+, 2023/04/06] 熟練者3⼈の多数決を正解と
した時，GPT-4はクラウドワーカ3⼈の多数決を16/18個のカテゴリで上回る

• 少量シードを基にLLMにデータを作成させるself-instruct [Wang+, 2022/12/20] をGPT-4で実施．LLaMA 7B [Touvron+, 2023/02] がChatGPTレベルに成⻑ •
評価も⼈の代わりにGPT-4に⾏わせる⼿法が受け⼊れられ始めている 10 GPT-4によるデータ増強・評価 [Peng(Microsoft)+, 2023/04/6] ChatGPTの91〜94%程度まで向上（評価︓GPT-4）指⽰・応答ペア応答スコア（強化学習⽤）

11 技術的に気になる点: GPT-4のcontext⻑ • GPT-4は最⼤32kまでcontextを扱えるようになった • “A Transformer-style model”とGPT-4論⽂にはあるが，この⻑さの系列を扱うためにどのような⼯夫（特にアテンション）がされているのか︖
https://platform.openai.com/docs/models/gpt-4

12 もしかして︓ALiBi [Press(U Washington & FAIR)+, August 2021] • MPT
[MosaicML, May 5, 2023] にて採⽤された ”Attention with Linear Biases” • Query-key アテンションスコアに距離に応じたペナルティを加算する https://arxiv.org/abs/2108.12409 mはhead毎に固定されたスカラ値 ALiBiは“TRAIN SHORT, TEST LONG”のコンセプトを実現︓ 左はcontext⻑512で学習し，テストでは16kを越えてもなお問題なく動作している

13 GPT-4のV&Lタスクにおける評価・動作例

• 各種ベンチマークにてzero-shotで⾼い性能を実現している • 特にインフォグラフィック，チャート，ダイアグラムなどに関するQAで強い（⼀⽅で⼈間レベルには到達していないデータが多い） 14 GPT-4のVQAベンチマーク結果 [OpenAI, 2023/03/14] Human
80.78% 85.01% N/A N/A 98.1%* 98.0%* 89.61% N/A *ブログからの修正 70.5%* (DePlot) 90.1%* (BAIDU-DI) *疑問有 A: 4-shot, CoT prompting

15 GPT-4による視覚⾔語理解例 [OpenAI, 2023/3/14] この画像は、「Lightning Cable」アダプターの3つのパネルが描かれたパッケージを⽰しています。パネル1︓スマートフォンにVGAコネクタ（コンピュータモニターに使⽤される⼀般的な⼤きな⻘い 15ピンのコネクタ）が充電ポートに接続されていま
す。パネル2︓「Lightning Cable」アダプターのパッケージで、VGAコネクタの画像が描かれています。パネル3︓VGAコネクタのクローズアップで、先端には⼩さなLightningコネクタ（iPhoneやその他のApple デバイスの充電に使⽤される）があります。この画像のユーモアは、⼤きくて時代遅れのVGAコネクタを⼩さな現代的なスマートフォンの充電ポートに接続するという不合理さから来ています。 https://arxiv.org/abs/2303.08774 ※ 回答をGPT-4で翻訳 What is funny about this image? Describe it panel by panel.

16 GPT-4による視覚⾔語理解例 [OpenAI, 2023/3/14] ジョージアと⻄アジアの1⽇あたりの平均⾁摂取量の合計を求めるには、以下の⼿順に従います︓ ジョージアの1⽇あたりの平均⾁摂取量を特定する。⻄アジアの1⽇あたりの平均⾁摂取量を特定する。⼿順1と2から得られた値を加算する。⼿順1︓提供されたチャートから、ジョージアの1⽇あ
たりの平均⾁摂取量が1⼈当たり79.84グラムであることがわかります。⼿順2︓チャートから、⻄アジアの1⽇あたりの平均⾁摂取量が1⼈当たり69.62グラムであることがわかります。⼿順3︓⼿順1と2から得られた値を加算する。 79.84 g （ジョージア）+ 69.62 g（⻄アジア）= 149.46 g したがって、ジョージアと⻄アジアの1⽇あたりの平均⾁摂取量の合計は、1⼈当たり149.46グラムです。 ※ 回答をGPT-4で翻訳 What is the sum of average daily meat consumption for Georgia and Western Asia? Provide a step-by-step reasoning before providing your answer. ※ 画像を発表⽤にトリミング https://arxiv.org/abs/2303.08774

17 GPT-4による視覚⾔語理解例 [OpenAI, 2023/3/14] ※ 回答をGPT-4で翻訳（上・下の添字は⻄⽥が最後に実施） Answer question I.1.a.
Think step-by-step. https://arxiv.org/abs/2303.08774 問題 I.1.a に答えるために、導電バーの各点での温度 T(x) を、座標 x で特徴付けられたものとして表現する必要があります。与えられた条件は T(0) = T0 および T(L) = Tb です。定常状態の場合、バー内の⼀次元熱伝導の熱⽅程式は次のようになります。 d2T/dx2 = 0 ⼀度積分すると、次のようになります。dT/dx = C1 ⼆度⽬の積分︓ T(x) = C1 x + C2 定数 C1 と C2 を決定するために、境界条件を使⽤します。 T(0) = T0、これにより C2 = T0 が得られます。 T(L) = Tb、これにより C1 = (Tb − T0)/L が得られます。最終的に、T(x) の式は次のようになります。 T(x) = (Tb − T0) ∗ (x/L) + T0 これは、導電バーに沿った線形の温度プロファイルを表し、傾きは (Tb − T0)/L です。

18 技術的に気になる点: 画像のトークン化 1. ⽂書画像を扱うには⾼解像度で画像を⼊⼒しなければならないが，どの辺りまで扱えるようにしているのか︖ – OCR不要の⽂書理解モデルDonut [Kim(NAVER), ECCV22]
は2560x1920を扱う 2. 画像のトークン化（離散表現 or embedding）は別に事前学習を⾏うのか，それともend-to-endで⾏うのか︖ https://arxiv.org/abs/2302.14045 参考︓ KOSMOS-1 (Microsoft) [Huang+, 2023/02] ここが離散トークン or embedding? 何トークンぐらい︖

19 参考︓NTTにおける視覚的読解 [NTT, R&Dフォーラム’22] Q. 製造番号は︖ A. 583D6A ビンのラベルのような歪んだテキスト
カラフルなパンフレット⼿書きで⽀払種別を選択している伝票 Q. 何払の伝票ですか︖ A. 元払 Q. 技術史料館のホームページはどこ︖ A. https://hct.lab.gvm-jp.groupis-ex.ntt/ • ⽇本語⽂書から基盤モデルを事前学習した後に，QAデータによりファインチューニング．現在，実⽤化に向けて取り組み中 • これは⽂書画像専⾨なので，GPT-4のように汎⽤性を持たせるのが課題

• 複数枚の画像集合 (プレゼン資料) に跨る質問応答データセットを提案 • 演算が必要な回答に対して，演算過程（算術式）が提供されている • GPT-4がグラフ等の理解を数値演算も含めて成功しているのは驚異的 20 参考︓SlideVQA
[Tanaka(NTT)+, AAAI’23, NLP’23優秀賞＆⾔語資源賞] (12%のジャーナリストが居る地域 (=West) とEastのcompetition mediaの%差分は︖) https://arxiv.org/abs/2301.04883 https://github.com/nttmdlab-nlp/SlideVQA

21 GPT-4によるお絵描き例 [Bubbek(Microsoft)+, 2023/3/22] https://arxiv.org/abs/2303.12712 Draw a unicorn in TiKZ.
GPT-4の⽣成例（⻄⽥再現） GPT-4による⽣成例（初期版→学習進⾏）

22 GPT-4によるお絵描き例 [Bubbek(Microsoft)+, 2023/3/22] https://arxiv.org/abs/2303.12712 Produce Javascript code that creates
a random graphical image that looks like a painting of Kandinsky GPT-4の⽣成例（⻄⽥再現版）本物（Kandinskyの作品） GPT-4の⽣成例（論⽂）

23 ChatGPT/GPT-4周辺のさらなる発展

24 オープンソースLLMの発展 https://arxiv.org/abs/2303.18223 • 特にLLaMA [Touvron(Meta)+, 2023/02] 以降，オープンに使えるLLMの公開が進み，ChatGPTやGPT-4のようなモデルの研究開発が進んできた

25 ChatGPT Plugins [OpenAI, 2023/3/23] • インターネットを介した最新情報へのアクセスや数値計算など， ChatGPTが「道具」を使って⾃⾝の不得意な部分を補えるようになった https://openai.com/blog/chatgpt-plugins

26 ChatGPT Plugins [OpenAI, 2023/3/23] • インターネットを介した最新情報へのアクセスや数値計算など， ChatGPTが「道具」を使って⾃⾝の不得意な部分を補えるようになった • 現状は⾔語中⼼だが，今後Visionも連携していくのは確実と⾔える

27 • LLMのパワーをMicrosoft 365に統合することを発表 • 『⾔葉を地球上で最も強⼒な⽣産性向上ツールに変えます。』 https://blogs.windows.com/japan/2023/03/28/introducing-microsoft-365-copilot-a-whole-new-way-to-work/ Co-pilot 365 [Microsoft,
2023/03/16]

28 • LLMをさらにWindowsに統合することを発表 • Windowsの設定や，⽂書の要約，アプリの実⾏などPCを⾔葉で操作 • Windowsという「世界」をLLMが理解し，⾏動し始めた Windows Co-pilot [Microsoft,
2023/05/24] https://www.youtube.com/watch?v=FCfwc-NNo30

29 AutoGPT [Toran Bruce Richards, OSS, 2023/3/30〜] ユーザの⼊⼒した”Goals”の例 1. Do
market research for different headphones on the market today 2. Get the top 5 headphones and list their pros and cons 3. Include the price for each one and save the analysis 4. Once you are done, terminate 実⾏結果 1. Google検索を”top 5 headphones 2023”で実施 2. 検索結果1位のページにアクセスして欲しい情報が無かったと認識 3. Google検索を”top 5 headphones 2023 with pros and cons”で再度実施 4. 検索結果1位のページにアクセスして欲しい情報を発⾒ 5. 正規表現でページから情報抽出しようとするが失敗 6. BeautifulSoupに切り替えて抽出 7. 抽出結果をファイル保存 • 最終ゴールを与えられると，GPT-4が⾃律的に必要なサブタスクに分解．ネットやその他ツールを使ってプランを修正しながらゴールを達成する

30 AutoGPT [Toran Bruce Richards, OSS, 2023/3/30〜] • 現在⽤意されている「コマンド」の⼀覧．外部APIおよび外部ニューラルモデルを利⽤する
• PCを使って⼈＋AIが出来ることが⾃動化されていくパッケージ autogpt.commands 実⾏内容 improve_code LLMにてコードを改善 audio_text Huggingfaceモデルによる⾳声認識 image_gen Huggingfaceモデルなどによる画像⽣成 execute_code Pythonコードやシェル実⾏ file_operations 各種ファイル操作 git_operations Gitからのクローン google_search Google検索 twitter Tweet投稿 web_selenium URLとクエリを受け取って，ページのテキストをクエリ依存要約．

• 視覚的なinstruction-tuningデータをCOCOのキャプションとバウンディングボックスからGPT-4を使って⽣成 • このデータを⽤いて，GPT-4ライクなモデルを学習 31 LLaVA [Liu (U. Wisconsin–Madison)+,
April 17, 2023] （テキストのみの）GPT-4を使って⽣成 Visual Instruction Tuning dataset IUUQTBSYJWPSHBCT

• LLaMAとCLIP [Radford+, 2021/01] の画像エンコーダから構成 • CLIPのグリッド特徴量を視覚的なトークンとしてマルチモーダルな系列をモデリング⽤いて，GPT-4ライクなモデルを学習 32 LLaVA
[Liu (U. Wisconsin–Madison)+, 2023/04/17] $-*1`THSJEGFBUVSFT <3BEGPSE +BOVBSZ> 8IBUJTVOVTVBMBCPVU UIJTJNBHF 5IF VOVTVBM BTQFDUPG UIJTJNBHF JTBNBO JSPOJOHʜ --B." IUUQTBSYJWPSHBCT

• BLIP-2の画像エンコーダ [Li(Salesforce)+, 2023/01] ，Vicuna [UCB, CMU, Stanford, MBZUAI,
and UCSD, 2023/03] を組み合わせてGPT-4ライクなモデルを低コストに作成 • 良いモデルをどう組み合わせ，どう学習するか︖が⼤事になってきた 33 MiniGPT-4 [Zhu(King Abdullah U)+, 2023/04/20] https://arxiv.org/abs/2304.10592 Vicuna: LLaMAをChatGPTのログでファインチューニング BLIP-2: 画像エンコーダとLLMを固定してアダプタを学習 ※MiniGPTではLLM以外を使う

34 おわりに︓今後の展望

• GPT-4は⼈レベルの汎⽤的な⾃然⾔語処理能⼒を⾝に付け，さらに視覚と⾔語の融合理解もかなりのレベルに到達した（ように⾒える） • 今後は，⾔語と視覚という中⼼的なモーダルを軸に，AIが⼈と同じ⼊出⼒インタフェースを持って（⾝体性を獲得し），⼈と同じ世界・空間を共有して協調的に⾏動できるAI，へ向かった研究が重要となる 35 Vision-and-Languageのこれから知覚
⾏動認知世界⼊出⼒インタフェース⼊⼒出⼒⼊⼒出⼒「⼈がAIに合わせる」から，「AIが⼈に合わせられる」へ

36 Voyager [Wang(NVIDIA, Caltech)+, 2023/05/23] • GPT-4/3.5によりMinecraftをプレイするAgent（Visionは利⽤無） – The first
LLM-powered embodied lifelong learning agent in Minecraft • 世界を探索しながら，現状に合致したコードをLLMが⽣成して⾏動し，スキルとして保存して再利⽤ https://arxiv.org/abs/2305.16291

37 Pix2Act [Shaw(DeepMind)+,2023/05/31] • スクリーンショット画像から，⾃然⾔語の指⽰に従って⾏動（マウスやキー⼊⼒）を⽣成 • PC/ブラウザというdigital worldにおける⾝体性の獲得に通ずる ViT
T5 https://arxiv.org/abs/2306.00245

38 ImageBind [Girdhar(Meta)+, 2023/05/9] • 画像を軸としてテキスト，Depth，⾳，温度，加速度などを⼀つの空間に埋め込む • ペアデータが存在しないモーダル間も結付（Emergent Alignment）
https://arxiv.org/abs/2305.05665

• BLIP-2の画像エンコーダと⾔語モデルに，さらにImageBind の⾳声エンコーダも組み合わせて動画を理解 39 Video-LLaMA [Zhang(Alibaba)+, 2023/06/6]
BLIP-2 Vicuna / LLaMA ImageBind https://arxiv.org/abs/2306.02858

• その先にはロボットとLLMが繋がっていく • Webに変わる事前学習⽤のデータ・環境を⽤意できるか︖ • GPT-4が持つプランニング能⼒（世界モデル）は実世界でも通⽤するのか︖ • あらゆる環境で⼈と⾃然に協調可能なAIロボットを作れるか︖ • これからPC上で⼈を対話的にアシスタントするAIが普及していく
• 多くのソフトウェアが，LLMから操作して貰いやすくするためにAPIを備えるようになる • PC上での⾝体性（マウスやキーボードの操作，OSという世界のモデル化）の獲得はひとつの挑戦的課題になる • GPT-4は⼈レベルの汎⽤的な⾃然⾔語処理能⼒を⾝につけた • 視覚との融合理解については，おそらくまだ⼈のレベルには達していないが，かなり近いレベルまで到達したように⾒える • LLMがマルチモーダルのハブとして視覚以外の理解・⽣成にも同様のアプローチで広がっていくだろう 40 まとめと今後の展望

1. OpenAI, Introducing ChatGPT. Available at https://openai.com/blog/chatgpt, November 30, 2022
2. OpenAI: GPT-4 Technical Report. CoRR abs/2303.08774 (2023) 3. Tom B. Brown et al.: Language Models are Few-Shot Learners. NeurIPS 2020 / CoRR abs/2005.14165 (2020) 4. Long Ouyang et al.: Training language models to follow instructions with human feedback. CoRR abs/2203.02155 (2022) 5. Sébastien Bubeck et al.: Sparks of Artificial General Intelligence: Early experiments with GPT-4. CoRR abs/2303.12712 (2023) 6. Daniel Martin Katz+, GPT-4 Passes the Bar Exam. http://dx.doi.org/10.2139/ssrn.4389233, March 15, 2023 7. Alexander Pan et al.: Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the MACHIAVELLI Benchmark. CoRR abs/2304.03279 (2023) 8. Baolin Peng et al.: Instruction Tuning with GPT-4. CoRR abs/2304.03277 (2023) 9. Yizhong Wang et al.: Self-Instruct: Aligning Language Model with Self Generated Instructions. CoRR abs/2212.10560 (2022) 10. Ofir Press et al: Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation. ICLR 2022 11. MosaicML, Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs, https://www.mosaicml.com/blog/mpt-7b 12. Geewook Kim et al.: OCR-Free Document Understanding Transformer. ECCV (28) 2022: 498-517 13. Shaohan Huang et al.: Language Is Not All You Need: Aligning Perception with Language Models. CoRR abs/2302.14045 (2023) 14. Wayne Xin Zhao et al.: A Survey of Large Language Models. CoRR abs/2303.18223 (2023) 15. Hugo Touvron et al.: LLaMA: Open and Efficient Foundation Language Models. CoRR abs/2302.13971 (2023) 16. OpenAI: ChatGPT plugins. https://openai.com/blog/chatgpt-plugins, March 23, 2023. 17. Ryota Tanaka et al.: SlideVQA: A Dataset for Document Visual Question Answering on Multiple Images. AAAI 2023. 18. ⽥中涼太 et al., SlideVQA: 複数の⽂書画像に対する質問応答, NLP 2023. 19. Microsoft: Introducing Microsoft 365 Copilot – your copilot for work. https://blogs.microsoft.com/blog/2023/03/16/introducing-microsoft-365- copilot-your-copilot-for-work/, March 16, 2023. 20. Microsoft: Bringing the power of AI to Windows 11 – unlocking a new era of productivity for customers and developers with Windows Copilot and Dev Home, https://blogs.windows.com/windowsdeveloper/2023/05/23/bringing-the-power-of-ai-to-windows-11-unlocking-a-new-era-of- productivity-for-customers-and-developers-with-windows-copilot-and-dev-home/, May 23, 2023. 21. Auto-GPT. https://github.com/Significant-Gravitas/Auto-GPT 22. Haotian Liu et al.: Visual Instruction Tuning. CoRR abs/2304.08485 (2023) 23. Alec Radford et al.: Learning Transferable Visual Models From Natural Language Supervision. ICML 2021: 8748-8763 24. Deyao Zhu et al.: MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models. CoRR abs/2304.10592 (2023) 25. Junnan Li et al.: BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. CoRR abs/2301.12597 (2023) 26. UC Berkeley, CMU, Stanford, MBZUAI, and UC San Diego: Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality, https://vicuna.lmsys.org/, 2023/03/19 27. Guanzhi Wang et al.: Voyager: An Open-Ended Embodied Agent with Large Language Models. CoRR abs/2305.16291 28. Peter Shaw et al.: From Pixels to UI Actions: Learning to Follow Instructions via Graphical User Interfaces. CoRR abs/2306.00245 (2023) 29. Rohit Girdhar et al.: ImageBind: One Embedding Space To Bind Them All. CoRR abs/2305.05665 (2023) 30. Hang Zhang et al.: Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding. CoRR abs/2306.02858 (2023) 41 参考⽂献

SSII2023 [OS1] GPT-4とVision-and-Languageの未来

SSII2023 [OS1] GPT-4とVision-and-Languageの未来

画像センシングシンポジウム PRO

More Decks by 画像センシングシンポジウム

Other Decks in Science

Featured

Transcript

GPT-4と Vision-and-Languageの未来 2023.6.14 ⻄⽥京介（NTT⼈間情報研究所）

1. GPT-4の概要と主に⾔語能⼒に関する評価 2. GPT-4のV&Lタスクにおける評価・動作例 3. ChatGPT/GPT-4周辺のさらなる発展 4. おわりに︓まとめと今後の展望 3 ⽬次

4 GPT-4の概要と主に⾔語能⼒に関する評価

• GPT-3 [Brown+, 2020/03], GPT-3.5（InstructGPT [Ouyang+, 2022/01] / ChatGPT [OpenAI,

7 InstructGPTの作り⽅（GPT-4の2段階前⾝） LLM 0. Webから⼤量のテキストを収集して LLMを学習 1. 指⽰に対して望ましい応答を作成して

• 少量シードを基にLLMにデータを作成させるself-instruct [Wang+, 2022/12/20] をGPT-4で実施．LLaMA 7B [Touvron+, 2023/02] がChatGPTレベルに成⻑ •

11 技術的に気になる点: GPT-4のcontext⻑ • GPT-4は最⼤32kまでcontextを扱えるようになった • “A Transformer-style model”とGPT-4論⽂にはあるが，この⻑さの系列を扱うためにどのような⼯夫（特にアテンション）がされているのか︖

12 もしかして︓ALiBi [Press(U Washington & FAIR)+, August 2021] • MPT

13 GPT-4のV&Lタスクにおける評価・動作例

17 GPT-4による視覚⾔語理解例 [OpenAI, 2023/3/14] ※ 回答をGPT-4で翻訳（上・下の添字は⻄⽥が最後に実施） Answer question I.1.a.

18 技術的に気になる点: 画像のトークン化 1. ⽂書画像を扱うには⾼解像度で画像を⼊⼒しなければならないが，どの辺りまで扱えるようにしているのか︖ – OCR不要の⽂書理解モデルDonut [Kim(NAVER), ECCV22]

19 参考︓NTTにおける視覚的読解 [NTT, R&Dフォーラム’22] Q. 製造番号は︖ A. 583D6A ビンのラベルのような歪んだテキスト

21 GPT-4によるお絵描き例 [Bubbek(Microsoft)+, 2023/3/22] https://arxiv.org/abs/2303.12712 Draw a unicorn in TiKZ.

22 GPT-4によるお絵描き例 [Bubbek(Microsoft)+, 2023/3/22] https://arxiv.org/abs/2303.12712 Produce Javascript code that creates

23 ChatGPT/GPT-4周辺のさらなる発展

24 オープンソースLLMの発展 https://arxiv.org/abs/2303.18223 • 特にLLaMA [Touvron(Meta)+, 2023/02] 以降，オープンに使えるLLMの公開が進み，ChatGPTやGPT-4のようなモデルの研究開発が進んできた

25 ChatGPT Plugins [OpenAI, 2023/3/23] • インターネットを介した最新情報へのアクセスや数値計算など， ChatGPTが「道具」を使って⾃⾝の不得意な部分を補えるようになった https://openai.com/blog/chatgpt-plugins

27 • LLMのパワーをMicrosoft 365に統合することを発表 • 『⾔葉を地球上で最も強⼒な⽣産性向上ツールに変えます。』 https://blogs.windows.com/japan/2023/03/28/introducing-microsoft-365-copilot-a-whole-new-way-to-work/ Co-pilot 365 [Microsoft,

28 • LLMをさらにWindowsに統合することを発表 • Windowsの設定や，⽂書の要約，アプリの実⾏などPCを⾔葉で操作 • Windowsという「世界」をLLMが理解し，⾏動し始めた Windows Co-pilot [Microsoft,

29 AutoGPT [Toran Bruce Richards, OSS, 2023/3/30〜] ユーザの⼊⼒した”Goals”の例 1. Do

30 AutoGPT [Toran Bruce Richards, OSS, 2023/3/30〜] • 現在⽤意されている「コマンド」の⼀覧．外部APIおよび外部ニューラルモデルを利⽤する

• 視覚的なinstruction-tuningデータをCOCOのキャプションとバウンディングボックスからGPT-4を使って⽣成 • このデータを⽤いて，GPT-4ライクなモデルを学習 31 LLaVA [Liu (U. Wisconsin–Madison)+,

• LLaMAとCLIP [Radford+, 2021/01] の画像エンコーダから構成 • CLIPのグリッド特徴量を視覚的なトークンとしてマルチモーダルな系列をモデリング⽤いて，GPT-4ライクなモデルを学習 32 LLaVA

• BLIP-2の画像エンコーダ [Li(Salesforce)+, 2023/01] ，Vicuna [UCB, CMU, Stanford, MBZUAI,

34 おわりに︓今後の展望

36 Voyager [Wang(NVIDIA, Caltech)+, 2023/05/23] • GPT-4/3.5によりMinecraftをプレイするAgent（Visionは利⽤無） – The first

37 Pix2Act [Shaw(DeepMind)+,2023/05/31] • スクリーンショット画像から，⾃然⾔語の指⽰に従って⾏動（マウスやキー⼊⼒）を⽣成 • PC/ブラウザというdigital worldにおける⾝体性の獲得に通ずる ViT

38 ImageBind [Girdhar(Meta)+, 2023/05/9] • 画像を軸としてテキスト，Depth，⾳，温度，加速度などを⼀つの空間に埋め込む • ペアデータが存在しないモーダル間も結付（Emergent Alignment）

• BLIP-2の画像エンコーダと⾔語モデルに，さらにImageBind の⾳声エンコーダも組み合わせて動画を理解 39 Video-LLaMA [Zhang(Alibaba)+, 2023/06/6]

1. OpenAI, Introducing ChatGPT. Available at https://openai.com/blog/chatgpt, November 30, 2022