Slide 1

Slide 1 text

GPT-4と Vision-and-Languageの未来 2023.6.14 ⻄⽥ 京介 (NTT⼈間情報研究所)

Slide 2

Slide 2 text

⾃⼰紹介︓⻄⽥京介 2 2009年 NTT⼊社.2023年より上席特別研究員. 2016年より⾃然⾔語処理を専⾨にし,機械読解(質問応答)を研究. 2020年頃からVision-and-Language,特に視覚的機械読解に着⼿. 現在はNTT研究所における⼤規模⾔語モデルの研究開発を統括. Answer. $37,732 機械読解(〜’19) 視覚的機械読解(’20〜) Answer. 77.3% What percentage is roman catholic in cape verde? Microsoft MARCO Rank 1 COTOHA サービスイン NLPʼ18-19 受賞 InfographicsVQA Rank 2 AAAI-21,23 NLPʼ20-23 受賞

Slide 3

Slide 3 text

1. GPT-4の概要と主に⾔語能⼒に関する評価 2. GPT-4のV&Lタスクにおける評価・動作例 3. ChatGPT/GPT-4周辺のさらなる発展 4. おわりに︓まとめと今後の展望 3 ⽬次

Slide 4

Slide 4 text

4 GPT-4の概要と 主に⾔語能⼒に関する評価

Slide 5

Slide 5 text

(タスクの指⽰) このプログラムの 誤りを直して 汎⽤⼈⼯知能が遠い夢では無くなる >こちらは「Transformer」と いう深層学習モデルを提案し た論⽂です。 Transformerは、seq2seq(順⽅ 向から順⽅向への変換)タス クや⾃然⾔語処理タスクなど に... (情報の検索) “attention is all you need” 論⽂の要約を教えて (コンテンツの⽣成) 〜〜〜に関する 学術論⽂を書いて Google検索に変わる 新たな情報検索の体験 AIが⼈に変わり任意の ⾔語タスクを遂⾏ AIのトップ会議ICMLは ⾔語モデルによる論⽂の 執筆を禁⽌ > 修正したコードになります. ChatGPTの執筆した論⽂要旨 の1/3を専⾨家が⾒破れず 5 • ChatGPT [OpenAI, 2022/11] の成功により,様々な⾃然⾔語処理タスクを 「特化した学習無し」に解けることが実証された • GPT-4 [OpenAI, 2023/3/14] ではChatGPTをさらに上回り,⼈レベルの⾔語 理解・⽣成能⼒を持つ

Slide 6

Slide 6 text

• GPT-3 [Brown+, 2020/03], GPT-3.5(InstructGPT [Ouyang+, 2022/01] / ChatGPT [OpenAI, 2023/11] )の後継として発表された⼤規模マルチモーダルモデル – ⼊⼒に画像とテキストを受け取り,テキストを出⼒する • モデルのパラメータ数や構造,学習データ・⽅法などの詳細は未公開 • MicrosoftはGPT-4が ”sparks of AGI” を⽰したと主張 [Bubbek+, 2023/03/22] 6 GPT-4 [OpenAI, 2023/3/14] https://arxiv.org/abs/2303.08774/ User: Below is part of the InstuctGPT paper. Could you read and summarize it to me? GPT-4: The InstructGPT paper focuses on training large language models to follow instructions with human feedback. … User: Could you explain the process described in Figure 2? GPT-4: Figure 2 in the InstructGPT paper illustrates the three steps of their method: 1. Supervised fine-tuning (SFT): … 2. Reward model (RM) training: … 3. Reinforcement learning using Proximal Policy Optimization (PPO): … These three steps are iteratively performed to train the InstructGPT model, which aims to generate outputs that align better with human preferences and follow instructions more effectively.

Slide 7

Slide 7 text

7 InstructGPTの作り⽅(GPT-4の2段階前⾝) LLM 0. Webから⼤量の テキストを収集して LLMを学習 1. 指⽰に対して望ま しい応答を作成して 教師あり学習(SFT) 2. モデル出⼒の⽐較 データを作成し報酬 モデル(RM)を学習 3. 報酬モデル(RM)を ⽤いてPPOを⽤いた 強化学習により更新 繰り返し

Slide 8

Slide 8 text

1. MBE︓4択の選択問題.ひっかけ問題が多い 2. MEE︓論述式.やや⻑めの問題⽂に関して3~4問の⼩問 3. MPT︓論述式.必要な知識は問題⽂に全て記載されている の全形式に関して,GPT-4はzero-shotにて合格点.特にMBEで⾼スコア • 法律の専⾨家である著者らが,まだ⼈間の確認は必要としつつも,⻑年 待望んでいた” legal force multiplier”が遂に実現した,と考えている 8 GPT-4が司法試験をパス [Katz(Illinois Tech)+, 2023/04] 学⽣の 平均スコア 合格ライン GPT-4 ChatGPT

Slide 9

Slide 9 text

• 社会的な意思決定判断を含むテキストシナリオをラベリングしたところ, GPT-4はクラウドワーカよりも熟練者に近い判定ができた • 57万件のアノテーションに掛かる費⽤50万ドル,2万時間を⼤幅に削減 9 クラウドワーカ以上の能⼒ [Pan(UCB)+, 2023/04/06] 熟練者3⼈の多数決を正解と した時,GPT-4はクラウド ワーカ3⼈の多数決を16/18個 のカテゴリで上回る

Slide 10

Slide 10 text

• 少量シードを基にLLMにデータを作成させるself-instruct [Wang+, 2022/12/20] をGPT-4で実施.LLaMA 7B [Touvron+, 2023/02] がChatGPTレベルに成⻑ • 評価も⼈の代わりにGPT-4に⾏わせる⼿法が受け⼊れられ始めている 10 GPT-4によるデータ増強・評価 [Peng(Microsoft)+, 2023/04/6] ChatGPTの91〜94%程度 まで向上(評価︓GPT-4) 指⽰・応答ペア 応答スコア(強化学習⽤)

Slide 11

Slide 11 text

11 技術的に気になる点: GPT-4のcontext⻑ • GPT-4は最⼤32kまでcontextを扱えるようになった • “A Transformer-style model”とGPT-4論⽂にはあるが,この⻑さの系列を 扱うためにどのような⼯夫(特にアテンション)がされているのか︖ https://platform.openai.com/docs/models/gpt-4

Slide 12

Slide 12 text

12 もしかして︓ALiBi [Press(U Washington & FAIR)+, August 2021] • MPT [MosaicML, May 5, 2023] にて採⽤された ”Attention with Linear Biases” • Query-key アテンションスコアに距離に応じたペナルティを加算する https://arxiv.org/abs/2108.12409 mはhead毎に固定されたスカラ値 ALiBiは“TRAIN SHORT, TEST LONG”のコンセプトを実現︓ 左はcontext⻑512で学習し, テストでは16kを越えてもなお 問題なく動作している

Slide 13

Slide 13 text

13 GPT-4のV&Lタスクにおける 評価・動作例

Slide 14

Slide 14 text

• 各種ベンチマークにてzero-shotで⾼い性能を実現している • 特にインフォグラフィック,チャート,ダイアグラムなどに関するQAで 強い(⼀⽅で⼈間レベルには到達していないデータが多い) 14 GPT-4のVQAベンチマーク結果 [OpenAI, 2023/03/14] Human 80.78% 85.01% N/A N/A 98.1%* 98.0%* 89.61% N/A *ブログからの修正 70.5%* (DePlot) 90.1%* (BAIDU-DI) *疑問有 A: 4-shot, CoT prompting

Slide 15

Slide 15 text

15 GPT-4による視覚⾔語理解例 [OpenAI, 2023/3/14] この画像は、「Lightning Cable」アダプターの3つの パネルが描かれたパッケージを⽰しています。 パネル1︓スマートフォンにVGAコネクタ(コン ピュータモニターに使⽤される⼀般的な⼤きな⻘い 15ピンのコネクタ)が充電ポートに接続されていま す。 パネル2︓「Lightning Cable」アダプターのパッケー ジで、VGAコネクタの画像が描かれています。 パネル3︓VGAコネクタのクローズアップで、先端に は⼩さなLightningコネクタ(iPhoneやその他のApple デバイスの充電に使⽤される)があります。 この画像のユーモアは、⼤きくて時代遅れのVGAコ ネクタを⼩さな現代的なスマートフォンの充電ポー トに接続するという不合理さから来ています。 https://arxiv.org/abs/2303.08774 ※ 回答をGPT-4で翻訳 What is funny about this image? Describe it panel by panel.

Slide 16

Slide 16 text

16 GPT-4による視覚⾔語理解例 [OpenAI, 2023/3/14] ジョージアと⻄アジアの1⽇あたりの平均⾁摂取量の 合計を求めるには、以下の⼿順に従います︓ ジョージアの1⽇あたりの平均⾁摂取量を特定する。 ⻄アジアの1⽇あたりの平均⾁摂取量を特定する。 ⼿順1と2から得られた値を加算する。 ⼿順1︓提供されたチャートから、ジョージアの1⽇あ たりの平均⾁摂取量が1⼈当たり79.84グラムであるこ とがわかります。 ⼿順2︓チャートから、⻄アジアの1⽇あたりの平均⾁ 摂取量が1⼈当たり69.62グラムであることがわかりま す。 ⼿順3︓⼿順1と2から得られた値を加算する。 79.84 g (ジョージア)+ 69.62 g(⻄アジア)= 149.46 g したがって、ジョージアと⻄アジアの1⽇あたりの平 均⾁摂取量の合計は、1⼈当たり149.46グラムです。 ※ 回答をGPT-4で翻訳 What is the sum of average daily meat consumption for Georgia and Western Asia? Provide a step-by-step reasoning before providing your answer. ※ 画像を発表⽤にトリミング https://arxiv.org/abs/2303.08774

Slide 17

Slide 17 text

17 GPT-4による視覚⾔語理解例 [OpenAI, 2023/3/14] ※ 回答をGPT-4で翻訳(上・下の添字は⻄⽥が 最後に実施) Answer question I.1.a. Think step-by-step. https://arxiv.org/abs/2303.08774 問題 I.1.a に答えるために、導電バーの各点での温度 T(x) を、座標 x で特徴付けられたものとして表現する必 要があります。与えられた条件は T(0) = T0 および T(L) = Tb です。 定常状態の場合、バー内の⼀次元熱伝導の熱⽅程式は 次のようになります。 d2T/dx2 = 0 ⼀度積分すると、次のようになります。dT/dx = C1 ⼆度⽬の積分︓ T(x) = C1 x + C2 定数 C1 と C2 を決定するために、境界条件を使⽤します。 T(0) = T0、これにより C2 = T0 が得られます。 T(L) = Tb、これにより C1 = (Tb − T0)/L が得られます。 最終的に、T(x) の式は次のようになります。 T(x) = (Tb − T0) ∗ (x/L) + T0 これは、導電バーに沿った線形の温度プロファイルを 表し、傾きは (Tb − T0)/L です。

Slide 18

Slide 18 text

18 技術的に気になる点: 画像のトークン化 1. ⽂書画像を扱うには⾼解像度で画像を⼊⼒しなければならないが,どの 辺りまで扱えるようにしているのか︖ – OCR不要の⽂書理解モデルDonut [Kim(NAVER), ECCV22] は2560x1920を扱う 2. 画像のトークン化(離散表現 or embedding)は別に事前学習を⾏うの か,それともend-to-endで⾏うのか︖ https://arxiv.org/abs/2302.14045 参考︓ KOSMOS-1 (Microsoft) [Huang+, 2023/02] ここが離散トークン or embedding? 何トークンぐらい︖

Slide 19

Slide 19 text

19 参考︓NTTにおける視覚的読解 [NTT, R&Dフォーラム’22] Q. 製造番号は︖ A. 583D6A ビンのラベルのような 歪んだテキスト カラフルなパンフレット ⼿書きで⽀払種別を選択している伝票 Q. 何払の伝票ですか︖ A. 元払 Q. 技術史料館のホームページはどこ︖ A. https://hct.lab.gvm-jp.groupis-ex.ntt/ • ⽇本語⽂書から基盤モデルを事前学習した後に,QAデータによりファイ ンチューニング.現在,実⽤化に向けて取り組み中 • これは⽂書画像専⾨なので,GPT-4のように汎⽤性を持たせるのが課題

Slide 20

Slide 20 text

• 複数枚の画像集合 (プレゼン資料) に跨る質問応答データセットを提案 • 演算が必要な回答に対して,演算過程(算術式)が提供されている • GPT-4がグラフ等の理解を数値演算も含めて成功しているのは驚異的 20 参考︓SlideVQA [Tanaka(NTT)+, AAAI’23, NLP’23優秀賞&⾔語資源賞] (12%のジャーナリストが居る地域 (=West) とEastのcompetition mediaの%差分は︖) https://arxiv.org/abs/2301.04883 https://github.com/nttmdlab-nlp/SlideVQA

Slide 21

Slide 21 text

21 GPT-4によるお絵描き例 [Bubbek(Microsoft)+, 2023/3/22] https://arxiv.org/abs/2303.12712 Draw a unicorn in TiKZ. GPT-4の⽣成例 (⻄⽥再現) GPT-4による⽣成例 (初期版→学習進⾏)

Slide 22

Slide 22 text

22 GPT-4によるお絵描き例 [Bubbek(Microsoft)+, 2023/3/22] https://arxiv.org/abs/2303.12712 Produce Javascript code that creates a random graphical image that looks like a painting of Kandinsky GPT-4の⽣成例 (⻄⽥再現版) 本物(Kandinskyの作品) GPT-4の⽣成例(論⽂)

Slide 23

Slide 23 text

23 ChatGPT/GPT-4周辺の さらなる発展

Slide 24

Slide 24 text

24 オープンソースLLMの発展 https://arxiv.org/abs/2303.18223 • 特にLLaMA [Touvron(Meta)+, 2023/02] 以降,オープンに使えるLLMの公開が 進み,ChatGPTやGPT-4のようなモデルの研究開発が進んできた

Slide 25

Slide 25 text

25 ChatGPT Plugins [OpenAI, 2023/3/23] • インターネットを介した最新情報へのアクセスや数値計算など, ChatGPTが「道具」を使って⾃⾝の不得意な部分を補えるようになった https://openai.com/blog/chatgpt-plugins

Slide 26

Slide 26 text

26 ChatGPT Plugins [OpenAI, 2023/3/23] • インターネットを介した最新情報へのアクセスや数値計算など, ChatGPTが「道具」を使って⾃⾝の不得意な部分を補えるようになった • 現状は⾔語中⼼だが,今後Visionも連携していくのは確実と⾔える

Slide 27

Slide 27 text

27 • LLMのパワーをMicrosoft 365に統合することを発表 • 『⾔葉を地球上で最も強⼒な⽣産性向上ツールに変えます。』 https://blogs.windows.com/japan/2023/03/28/introducing-microsoft-365-copilot-a-whole-new-way-to-work/ Co-pilot 365 [Microsoft, 2023/03/16]

Slide 28

Slide 28 text

28 • LLMをさらにWindowsに統合することを発表 • Windowsの設定や,⽂書の要約,アプリの実⾏などPCを⾔葉で操作 • Windowsという「世界」をLLMが理解し,⾏動し始めた Windows Co-pilot [Microsoft, 2023/05/24] https://www.youtube.com/watch?v=FCfwc-NNo30

Slide 29

Slide 29 text

29 AutoGPT [Toran Bruce Richards, OSS, 2023/3/30〜] ユーザの⼊⼒した”Goals”の例 1. Do market research for different headphones on the market today 2. Get the top 5 headphones and list their pros and cons 3. Include the price for each one and save the analysis 4. Once you are done, terminate 実⾏結果 1. Google検索を”top 5 headphones 2023”で実施 2. 検索結果1位のページにアクセスして欲しい情報が無かったと認識 3. Google検索を”top 5 headphones 2023 with pros and cons”で再度実施 4. 検索結果1位のページにアクセスして欲しい情報を発⾒ 5. 正規表現でページから情報抽出しようとするが失敗 6. BeautifulSoupに切り替えて抽出 7. 抽出結果をファイル保存 • 最終ゴールを与えられると,GPT-4が⾃律的に必要なサブタスクに分解. ネットやその他ツールを使ってプランを修正しながらゴールを達成する

Slide 30

Slide 30 text

30 AutoGPT [Toran Bruce Richards, OSS, 2023/3/30〜] • 現在⽤意されている「コマンド」の⼀覧.外部APIおよび外部ニューラル モデルを利⽤する • PCを使って⼈+AIが出来ることが⾃動化されていく パッケージ autogpt.commands 実⾏内容 improve_code LLMにてコードを改善 audio_text Huggingfaceモデル による⾳声認識 image_gen Huggingfaceモデルなどによる画像⽣成 execute_code Pythonコードやシェル実⾏ file_operations 各種ファイル操作 git_operations Gitからのクローン google_search Google検索 twitter Tweet投稿 web_selenium URLとクエリを受け取って,ページのテキストをクエ リ依存要約.

Slide 31

Slide 31 text

• 視覚的なinstruction-tuningデータをCOCOのキャプションとバウンディ ングボックスからGPT-4を使って⽣成 • このデータを⽤いて,GPT-4ライクなモデルを学習 31 LLaVA [Liu (U. Wisconsin–Madison)+, April 17, 2023] (テキストのみの)GPT-4を使って⽣成 Visual Instruction Tuning dataset IUUQTBSYJWPSHBCT

Slide 32

Slide 32 text

• LLaMAとCLIP [Radford+, 2021/01] の画像エンコーダから構成 • CLIPのグリッド特徴量を視覚的なトークンとしてマルチモーダルな系列 をモデリング⽤いて,GPT-4ライクなモデルを学習 32 LLaVA [Liu (U. Wisconsin–Madison)+, 2023/04/17] $-*1`THSJEGFBUVSFT <3BEGPSE +BOVBSZ> 8IBUJTVOVTVBMBCPVU UIJTJNBHF 5IF VOVTVBM BTQFDUPG UIJTJNBHF JTBNBO JSPOJOHʜ --B." IUUQTBSYJWPSHBCT

Slide 33

Slide 33 text

• BLIP-2の 画像エンコーダ [Li(Salesforce)+, 2023/01] ,Vicuna [UCB, CMU, Stanford, MBZUAI, and UCSD, 2023/03] を組み合わせてGPT-4ライクなモデルを低コストに作成 • 良いモデルをどう組み合わせ,どう学習するか︖が⼤事になってきた 33 MiniGPT-4 [Zhu(King Abdullah U)+, 2023/04/20] https://arxiv.org/abs/2304.10592 Vicuna: LLaMAをChatGPTのログで ファインチューニング BLIP-2: 画像エンコーダとLLMを 固定してアダプタを学習 ※MiniGPTではLLM以外を使う

Slide 34

Slide 34 text

34 おわりに︓今後の展望

Slide 35

Slide 35 text

• GPT-4は⼈レベルの汎⽤的な⾃然⾔語処理能⼒を⾝に付け,さらに視覚 と⾔語の融合理解もかなりのレベルに到達した(ように⾒える) • 今後は,⾔語と視覚という中⼼的なモーダルを軸に,AIが⼈と同じ⼊出 ⼒インタフェースを持って(⾝体性を獲得し),⼈と同じ世界・空間を 共有して協調的に⾏動できるAI,へ向かった研究が重要となる 35 Vision-and-Languageのこれから 知覚 ⾏動 認知 世界 ⼊出⼒ インタフェース ⼊⼒ 出⼒ ⼊⼒ 出⼒ 「⼈がAIに合わせる」から, 「AIが⼈に合わせられる」へ

Slide 36

Slide 36 text

36 Voyager [Wang(NVIDIA, Caltech)+, 2023/05/23] • GPT-4/3.5によりMinecraftをプレイするAgent(Visionは利⽤無) – The first LLM-powered embodied lifelong learning agent in Minecraft • 世界を探索しながら,現状に合致したコードをLLMが⽣成して⾏動し, スキルとして保存して再利⽤ https://arxiv.org/abs/2305.16291

Slide 37

Slide 37 text

37 Pix2Act [Shaw(DeepMind)+,2023/05/31] • スクリーンショット画像から,⾃然⾔語の指⽰に従って⾏動(マウスや キー⼊⼒)を⽣成 • PC/ブラウザというdigital worldにおける⾝体性の獲得に通ずる ViT T5 https://arxiv.org/abs/2306.00245

Slide 38

Slide 38 text

38 ImageBind [Girdhar(Meta)+, 2023/05/9] • 画像を軸としてテキスト,Depth,⾳,温度,加速度などを⼀つの空間 に埋め込む • ペアデータが存在しないモーダル間も結付(Emergent Alignment) https://arxiv.org/abs/2305.05665

Slide 39

Slide 39 text

• BLIP-2の 画像エンコーダ と⾔語モデルに,さらにImageBind の⾳声エン コーダも組み合わせて動画を理解 39 Video-LLaMA [Zhang(Alibaba)+, 2023/06/6] BLIP-2 Vicuna / LLaMA ImageBind https://arxiv.org/abs/2306.02858

Slide 40

Slide 40 text

• その先にはロボットとLLMが繋がっていく • Webに変わる事前学習⽤のデータ・環境を⽤意できるか︖ • GPT-4が持つプランニング能⼒(世界モデル)は実世界でも通⽤するのか︖ • あらゆる環境で⼈と⾃然に協調可能なAIロボットを作れるか︖ • これからPC上で⼈を対話的にアシスタントするAIが普及していく • 多くのソフトウェアが,LLMから操作して貰いやすくするためにAPIを備え るようになる • PC上での⾝体性(マウスやキーボードの操作,OSという世界のモデル化) の獲得はひとつの挑戦的課題になる • GPT-4は⼈レベルの汎⽤的な⾃然⾔語処理能⼒を⾝につけた • 視覚との融合理解については,おそらくまだ⼈のレベルには達していないが, かなり近いレベルまで到達したように⾒える • LLMがマルチモーダルのハブとして視覚以外の理解・⽣成にも同様のアプ ローチで広がっていくだろう 40 まとめと今後の展望

Slide 41

Slide 41 text

1. OpenAI, Introducing ChatGPT. Available at https://openai.com/blog/chatgpt, November 30, 2022 2. OpenAI: GPT-4 Technical Report. CoRR abs/2303.08774 (2023) 3. Tom B. Brown et al.: Language Models are Few-Shot Learners. NeurIPS 2020 / CoRR abs/2005.14165 (2020) 4. Long Ouyang et al.: Training language models to follow instructions with human feedback. CoRR abs/2203.02155 (2022) 5. Sébastien Bubeck et al.: Sparks of Artificial General Intelligence: Early experiments with GPT-4. CoRR abs/2303.12712 (2023) 6. Daniel Martin Katz+, GPT-4 Passes the Bar Exam. http://dx.doi.org/10.2139/ssrn.4389233, March 15, 2023 7. Alexander Pan et al.: Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the MACHIAVELLI Benchmark. CoRR abs/2304.03279 (2023) 8. Baolin Peng et al.: Instruction Tuning with GPT-4. CoRR abs/2304.03277 (2023) 9. Yizhong Wang et al.: Self-Instruct: Aligning Language Model with Self Generated Instructions. CoRR abs/2212.10560 (2022) 10. Ofir Press et al: Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation. ICLR 2022 11. MosaicML, Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs, https://www.mosaicml.com/blog/mpt-7b 12. Geewook Kim et al.: OCR-Free Document Understanding Transformer. ECCV (28) 2022: 498-517 13. Shaohan Huang et al.: Language Is Not All You Need: Aligning Perception with Language Models. CoRR abs/2302.14045 (2023) 14. Wayne Xin Zhao et al.: A Survey of Large Language Models. CoRR abs/2303.18223 (2023) 15. Hugo Touvron et al.: LLaMA: Open and Efficient Foundation Language Models. CoRR abs/2302.13971 (2023) 16. OpenAI: ChatGPT plugins. https://openai.com/blog/chatgpt-plugins, March 23, 2023. 17. Ryota Tanaka et al.: SlideVQA: A Dataset for Document Visual Question Answering on Multiple Images. AAAI 2023. 18. ⽥中涼太 et al., SlideVQA: 複数の⽂書画像に対する質問応答, NLP 2023. 19. Microsoft: Introducing Microsoft 365 Copilot – your copilot for work. https://blogs.microsoft.com/blog/2023/03/16/introducing-microsoft-365- copilot-your-copilot-for-work/, March 16, 2023. 20. Microsoft: Bringing the power of AI to Windows 11 – unlocking a new era of productivity for customers and developers with Windows Copilot and Dev Home, https://blogs.windows.com/windowsdeveloper/2023/05/23/bringing-the-power-of-ai-to-windows-11-unlocking-a-new-era-of- productivity-for-customers-and-developers-with-windows-copilot-and-dev-home/, May 23, 2023. 21. Auto-GPT. https://github.com/Significant-Gravitas/Auto-GPT 22. Haotian Liu et al.: Visual Instruction Tuning. CoRR abs/2304.08485 (2023) 23. Alec Radford et al.: Learning Transferable Visual Models From Natural Language Supervision. ICML 2021: 8748-8763 24. Deyao Zhu et al.: MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models. CoRR abs/2304.10592 (2023) 25. Junnan Li et al.: BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. CoRR abs/2301.12597 (2023) 26. UC Berkeley, CMU, Stanford, MBZUAI, and UC San Diego: Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality, https://vicuna.lmsys.org/, 2023/03/19 27. Guanzhi Wang et al.: Voyager: An Open-Ended Embodied Agent with Large Language Models. CoRR abs/2305.16291 28. Peter Shaw et al.: From Pixels to UI Actions: Learning to Follow Instructions via Graphical User Interfaces. CoRR abs/2306.00245 (2023) 29. Rohit Girdhar et al.: ImageBind: One Embedding Space To Bind Them All. CoRR abs/2305.05665 (2023) 30. Hang Zhang et al.: Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding. CoRR abs/2306.02858 (2023) 41 参考⽂献