$30 off During Our Annual Pro Sale. View Details »

SSII2023 [OS1] GPT-4とVision-and-Languageの未来

SSII2023 [OS1] GPT-4とVision-and-Languageの未来

⻄⽥京介(NTT⼈間情報研究所)

More Decks by 画像センシングシンポジウム

Other Decks in Science

Transcript

  1. GPT-4と
    Vision-and-Languageの未来
    2023.6.14
    ⻄⽥ 京介
    (NTT⼈間情報研究所)

    View Slide

  2. ⾃⼰紹介︓⻄⽥京介
    2
    2009年 NTT⼊社.2023年より上席特別研究員.
    2016年より⾃然⾔語処理を専⾨にし,機械読解(質問応答)を研究.
    2020年頃からVision-and-Language,特に視覚的機械読解に着⼿.
    現在はNTT研究所における⼤規模⾔語モデルの研究開発を統括.
    Answer. $37,732
    機械読解(〜’19) 視覚的機械読解(’20〜)
    Answer. 77.3%
    What percentage is roman
    catholic in cape verde?
    Microsoft
    MARCO
    Rank 1
    COTOHA
    サービスイン
    NLPʼ18-19
    受賞
    InfographicsVQA
    Rank 2
    AAAI-21,23
    NLPʼ20-23
    受賞

    View Slide

  3. 1. GPT-4の概要と主に⾔語能⼒に関する評価
    2. GPT-4のV&Lタスクにおける評価・動作例
    3. ChatGPT/GPT-4周辺のさらなる発展
    4. おわりに︓まとめと今後の展望
    3
    ⽬次

    View Slide

  4. 4
    GPT-4の概要と
    主に⾔語能⼒に関する評価

    View Slide

  5. (タスクの指⽰)
    このプログラムの
    誤りを直して
    汎⽤⼈⼯知能が遠い夢では無くなる
    >こちらは「Transformer」と
    いう深層学習モデルを提案し
    た論⽂です。
    Transformerは、seq2seq(順⽅
    向から順⽅向への変換)タス
    クや⾃然⾔語処理タスクなど
    に...
    (情報の検索)
    “attention is all you need”
    論⽂の要約を教えて
    (コンテンツの⽣成)
    〜〜〜に関する
    学術論⽂を書いて
    Google検索に変わる
    新たな情報検索の体験
    AIが⼈に変わり任意の
    ⾔語タスクを遂⾏
    AIのトップ会議ICMLは
    ⾔語モデルによる論⽂の
    執筆を禁⽌
    > 修正したコードになります.
    ChatGPTの執筆した論⽂要旨
    の1/3を専⾨家が⾒破れず
    5
    • ChatGPT [OpenAI, 2022/11] の成功により,様々な⾃然⾔語処理タスクを
    「特化した学習無し」に解けることが実証された
    • GPT-4 [OpenAI, 2023/3/14] ではChatGPTをさらに上回り,⼈レベルの⾔語
    理解・⽣成能⼒を持つ

    View Slide

  6. • GPT-3 [Brown+, 2020/03], GPT-3.5(InstructGPT [Ouyang+, 2022/01] / ChatGPT
    [OpenAI, 2023/11] )の後継として発表された⼤規模マルチモーダルモデル
    – ⼊⼒に画像とテキストを受け取り,テキストを出⼒する
    • モデルのパラメータ数や構造,学習データ・⽅法などの詳細は未公開
    • MicrosoftはGPT-4が ”sparks of AGI” を⽰したと主張 [Bubbek+, 2023/03/22]
    6
    GPT-4 [OpenAI, 2023/3/14]
    https://arxiv.org/abs/2303.08774/
    User: Below is part of the InstuctGPT paper.
    Could you read and summarize it to me?
    GPT-4: The InstructGPT paper focuses on
    training large language models to follow
    instructions with human feedback. …
    User: Could you explain the process
    described in Figure 2?
    GPT-4: Figure 2 in the InstructGPT paper
    illustrates the three steps of their method:
    1. Supervised fine-tuning (SFT): …
    2. Reward model (RM) training: …
    3. Reinforcement learning using Proximal
    Policy Optimization (PPO): …
    These three steps are iteratively performed
    to train the InstructGPT model, which aims
    to generate outputs that align better with
    human preferences and follow instructions
    more effectively.

    View Slide

  7. 7
    InstructGPTの作り⽅(GPT-4の2段階前⾝)
    LLM
    0. Webから⼤量の
    テキストを収集して
    LLMを学習
    1. 指⽰に対して望ま
    しい応答を作成して
    教師あり学習(SFT)
    2. モデル出⼒の⽐較
    データを作成し報酬
    モデル(RM)を学習
    3. 報酬モデル(RM)を
    ⽤いてPPOを⽤いた
    強化学習により更新
    繰り返し

    View Slide

  8. 1. MBE︓4択の選択問題.ひっかけ問題が多い
    2. MEE︓論述式.やや⻑めの問題⽂に関して3~4問の⼩問
    3. MPT︓論述式.必要な知識は問題⽂に全て記載されている
    の全形式に関して,GPT-4はzero-shotにて合格点.特にMBEで⾼スコア
    • 法律の専⾨家である著者らが,まだ⼈間の確認は必要としつつも,⻑年
    待望んでいた” legal force multiplier”が遂に実現した,と考えている
    8
    GPT-4が司法試験をパス [Katz(Illinois Tech)+, 2023/04]
    学⽣の
    平均スコア
    合格ライン
    GPT-4
    ChatGPT

    View Slide

  9. • 社会的な意思決定判断を含むテキストシナリオをラベリングしたところ,
    GPT-4はクラウドワーカよりも熟練者に近い判定ができた
    • 57万件のアノテーションに掛かる費⽤50万ドル,2万時間を⼤幅に削減
    9
    クラウドワーカ以上の能⼒ [Pan(UCB)+, 2023/04/06]
    熟練者3⼈の多数決を正解と
    した時,GPT-4はクラウド
    ワーカ3⼈の多数決を16/18個
    のカテゴリで上回る

    View Slide

  10. • 少量シードを基にLLMにデータを作成させるself-instruct [Wang+, 2022/12/20]
    をGPT-4で実施.LLaMA 7B [Touvron+, 2023/02] がChatGPTレベルに成⻑
    • 評価も⼈の代わりにGPT-4に⾏わせる⼿法が受け⼊れられ始めている
    10
    GPT-4によるデータ増強・評価 [Peng(Microsoft)+, 2023/04/6]
    ChatGPTの91〜94%程度
    まで向上(評価︓GPT-4)
    指⽰・応答ペア
    応答スコア(強化学習⽤)

    View Slide

  11. 11
    技術的に気になる点: GPT-4のcontext⻑
    • GPT-4は最⼤32kまでcontextを扱えるようになった
    • “A Transformer-style model”とGPT-4論⽂にはあるが,この⻑さの系列を
    扱うためにどのような⼯夫(特にアテンション)がされているのか︖
    https://platform.openai.com/docs/models/gpt-4

    View Slide

  12. 12
    もしかして︓ALiBi [Press(U Washington & FAIR)+, August 2021]
    • MPT [MosaicML, May 5, 2023] にて採⽤された ”Attention with Linear Biases”
    • Query-key アテンションスコアに距離に応じたペナルティを加算する
    https://arxiv.org/abs/2108.12409
    mはhead毎に固定されたスカラ値
    ALiBiは“TRAIN SHORT, TEST
    LONG”のコンセプトを実現︓
    左はcontext⻑512で学習し,
    テストでは16kを越えてもなお
    問題なく動作している

    View Slide

  13. 13
    GPT-4のV&Lタスクにおける
    評価・動作例

    View Slide

  14. • 各種ベンチマークにてzero-shotで⾼い性能を実現している
    • 特にインフォグラフィック,チャート,ダイアグラムなどに関するQAで
    強い(⼀⽅で⼈間レベルには到達していないデータが多い)
    14
    GPT-4のVQAベンチマーク結果 [OpenAI, 2023/03/14]
    Human
    80.78%
    85.01%
    N/A
    N/A
    98.1%*
    98.0%*
    89.61%
    N/A
    *ブログからの修正
    70.5%*
    (DePlot)
    90.1%*
    (BAIDU-DI)
    *疑問有
    A: 4-shot, CoT prompting

    View Slide

  15. 15
    GPT-4による視覚⾔語理解例 [OpenAI, 2023/3/14]
    この画像は、「Lightning Cable」アダプターの3つの
    パネルが描かれたパッケージを⽰しています。
    パネル1︓スマートフォンにVGAコネクタ(コン
    ピュータモニターに使⽤される⼀般的な⼤きな⻘い
    15ピンのコネクタ)が充電ポートに接続されていま
    す。
    パネル2︓「Lightning Cable」アダプターのパッケー
    ジで、VGAコネクタの画像が描かれています。
    パネル3︓VGAコネクタのクローズアップで、先端に
    は⼩さなLightningコネクタ(iPhoneやその他のApple
    デバイスの充電に使⽤される)があります。
    この画像のユーモアは、⼤きくて時代遅れのVGAコ
    ネクタを⼩さな現代的なスマートフォンの充電ポー
    トに接続するという不合理さから来ています。
    https://arxiv.org/abs/2303.08774
    ※ 回答をGPT-4で翻訳
    What is funny about this image? Describe it panel by panel.

    View Slide

  16. 16
    GPT-4による視覚⾔語理解例 [OpenAI, 2023/3/14]
    ジョージアと⻄アジアの1⽇あたりの平均⾁摂取量の
    合計を求めるには、以下の⼿順に従います︓
    ジョージアの1⽇あたりの平均⾁摂取量を特定する。
    ⻄アジアの1⽇あたりの平均⾁摂取量を特定する。
    ⼿順1と2から得られた値を加算する。
    ⼿順1︓提供されたチャートから、ジョージアの1⽇あ
    たりの平均⾁摂取量が1⼈当たり79.84グラムであるこ
    とがわかります。
    ⼿順2︓チャートから、⻄アジアの1⽇あたりの平均⾁
    摂取量が1⼈当たり69.62グラムであることがわかりま
    す。
    ⼿順3︓⼿順1と2から得られた値を加算する。 79.84 g
    (ジョージア)+ 69.62 g(⻄アジア)= 149.46 g
    したがって、ジョージアと⻄アジアの1⽇あたりの平
    均⾁摂取量の合計は、1⼈当たり149.46グラムです。
    ※ 回答をGPT-4で翻訳
    What is the sum of average daily meat consumption for Georgia and Western Asia?
    Provide a step-by-step reasoning before providing your answer.
    ※ 画像を発表⽤にトリミング
    https://arxiv.org/abs/2303.08774

    View Slide

  17. 17
    GPT-4による視覚⾔語理解例 [OpenAI, 2023/3/14]
    ※ 回答をGPT-4で翻訳(上・下の添字は⻄⽥が
    最後に実施)
    Answer question I.1.a. Think step-by-step.
    https://arxiv.org/abs/2303.08774
    問題 I.1.a に答えるために、導電バーの各点での温度
    T(x) を、座標 x で特徴付けられたものとして表現する必
    要があります。与えられた条件は T(0) = T0 および T(L) =
    Tb です。
    定常状態の場合、バー内の⼀次元熱伝導の熱⽅程式は
    次のようになります。 d2T/dx2 = 0
    ⼀度積分すると、次のようになります。dT/dx = C1
    ⼆度⽬の積分︓ T(x) = C1
    x + C2
    定数 C1
    と C2
    を決定するために、境界条件を使⽤します。
    T(0) = T0、これにより C2
    = T0 が得られます。
    T(L) = Tb、これにより C1
    = (Tb − T0)/L が得られます。
    最終的に、T(x) の式は次のようになります。
    T(x) = (Tb − T0) ∗ (x/L) + T0
    これは、導電バーに沿った線形の温度プロファイルを
    表し、傾きは (Tb − T0)/L です。

    View Slide

  18. 18
    技術的に気になる点: 画像のトークン化
    1. ⽂書画像を扱うには⾼解像度で画像を⼊⼒しなければならないが,どの
    辺りまで扱えるようにしているのか︖
    – OCR不要の⽂書理解モデルDonut [Kim(NAVER), ECCV22] は2560x1920を扱う
    2. 画像のトークン化(離散表現 or embedding)は別に事前学習を⾏うの
    か,それともend-to-endで⾏うのか︖
    https://arxiv.org/abs/2302.14045
    参考︓
    KOSMOS-1 (Microsoft)
    [Huang+, 2023/02]
    ここが離散トークン or embedding?
    何トークンぐらい︖

    View Slide

  19. 19
    参考︓NTTにおける視覚的読解 [NTT, R&Dフォーラム’22]
    Q. 製造番号は︖
    A. 583D6A
    ビンのラベルのような
    歪んだテキスト
    カラフルなパンフレット
    ⼿書きで⽀払種別を選択している伝票
    Q. 何払の伝票ですか︖
    A. 元払
    Q. 技術史料館のホームページはどこ︖
    A. https://hct.lab.gvm-jp.groupis-ex.ntt/
    • ⽇本語⽂書から基盤モデルを事前学習した後に,QAデータによりファイ
    ンチューニング.現在,実⽤化に向けて取り組み中
    • これは⽂書画像専⾨なので,GPT-4のように汎⽤性を持たせるのが課題

    View Slide

  20. • 複数枚の画像集合 (プレゼン資料) に跨る質問応答データセットを提案
    • 演算が必要な回答に対して,演算過程(算術式)が提供されている
    • GPT-4がグラフ等の理解を数値演算も含めて成功しているのは驚異的
    20
    参考︓SlideVQA [Tanaka(NTT)+, AAAI’23, NLP’23優秀賞&⾔語資源賞]
    (12%のジャーナリストが居る地域 (=West) とEastのcompetition mediaの%差分は︖)
    https://arxiv.org/abs/2301.04883 https://github.com/nttmdlab-nlp/SlideVQA

    View Slide

  21. 21
    GPT-4によるお絵描き例 [Bubbek(Microsoft)+, 2023/3/22]
    https://arxiv.org/abs/2303.12712
    Draw a unicorn in TiKZ.
    GPT-4の⽣成例
    (⻄⽥再現)
    GPT-4による⽣成例
    (初期版→学習進⾏)

    View Slide

  22. 22
    GPT-4によるお絵描き例 [Bubbek(Microsoft)+, 2023/3/22]
    https://arxiv.org/abs/2303.12712
    Produce Javascript code that creates a random graphical image that looks like
    a painting of Kandinsky
    GPT-4の⽣成例
    (⻄⽥再現版)
    本物(Kandinskyの作品) GPT-4の⽣成例(論⽂)

    View Slide

  23. 23
    ChatGPT/GPT-4周辺の
    さらなる発展

    View Slide

  24. 24
    オープンソースLLMの発展
    https://arxiv.org/abs/2303.18223
    • 特にLLaMA [Touvron(Meta)+, 2023/02] 以降,オープンに使えるLLMの公開が
    進み,ChatGPTやGPT-4のようなモデルの研究開発が進んできた

    View Slide

  25. 25
    ChatGPT Plugins [OpenAI, 2023/3/23]
    • インターネットを介した最新情報へのアクセスや数値計算など,
    ChatGPTが「道具」を使って⾃⾝の不得意な部分を補えるようになった
    https://openai.com/blog/chatgpt-plugins

    View Slide

  26. 26
    ChatGPT Plugins [OpenAI, 2023/3/23]
    • インターネットを介した最新情報へのアクセスや数値計算など,
    ChatGPTが「道具」を使って⾃⾝の不得意な部分を補えるようになった
    • 現状は⾔語中⼼だが,今後Visionも連携していくのは確実と⾔える

    View Slide

  27. 27
    • LLMのパワーをMicrosoft 365に統合することを発表
    • 『⾔葉を地球上で最も強⼒な⽣産性向上ツールに変えます。』
    https://blogs.windows.com/japan/2023/03/28/introducing-microsoft-365-copilot-a-whole-new-way-to-work/
    Co-pilot 365 [Microsoft, 2023/03/16]

    View Slide

  28. 28
    • LLMをさらにWindowsに統合することを発表
    • Windowsの設定や,⽂書の要約,アプリの実⾏などPCを⾔葉で操作
    • Windowsという「世界」をLLMが理解し,⾏動し始めた
    Windows Co-pilot [Microsoft, 2023/05/24]
    https://www.youtube.com/watch?v=FCfwc-NNo30

    View Slide

  29. 29
    AutoGPT [Toran Bruce Richards, OSS, 2023/3/30〜]
    ユーザの⼊⼒した”Goals”の例
    1. Do market research for different headphones on the market today
    2. Get the top 5 headphones and list their pros and cons
    3. Include the price for each one and save the analysis
    4. Once you are done, terminate
    実⾏結果
    1. Google検索を”top 5 headphones 2023”で実施
    2. 検索結果1位のページにアクセスして欲しい情報が無かったと認識
    3. Google検索を”top 5 headphones 2023 with pros and cons”で再度実施
    4. 検索結果1位のページにアクセスして欲しい情報を発⾒
    5. 正規表現でページから情報抽出しようとするが失敗
    6. BeautifulSoupに切り替えて抽出
    7. 抽出結果をファイル保存
    • 最終ゴールを与えられると,GPT-4が⾃律的に必要なサブタスクに分解.
    ネットやその他ツールを使ってプランを修正しながらゴールを達成する

    View Slide

  30. 30
    AutoGPT [Toran Bruce Richards, OSS, 2023/3/30〜]
    • 現在⽤意されている「コマンド」の⼀覧.外部APIおよび外部ニューラル
    モデルを利⽤する
    • PCを使って⼈+AIが出来ることが⾃動化されていく
    パッケージ
    autogpt.commands
    実⾏内容
    improve_code LLMにてコードを改善
    audio_text Huggingfaceモデル
    による⾳声認識
    image_gen Huggingfaceモデルなどによる画像⽣成
    execute_code Pythonコードやシェル実⾏
    file_operations 各種ファイル操作
    git_operations Gitからのクローン
    google_search Google検索
    twitter Tweet投稿
    web_selenium URLとクエリを受け取って,ページのテキストをクエ
    リ依存要約.

    View Slide

  31. • 視覚的なinstruction-tuningデータをCOCOのキャプションとバウンディ
    ングボックスからGPT-4を使って⽣成
    • このデータを⽤いて,GPT-4ライクなモデルを学習
    31
    LLaVA [Liu (U. Wisconsin–Madison)+, April 17, 2023]
    (テキストのみの)GPT-4を使って⽣成
    Visual
    Instruction Tuning
    dataset
    IUUQTBSYJWPSHBCT

    View Slide

  32. • LLaMAとCLIP [Radford+, 2021/01] の画像エンコーダから構成
    • CLIPのグリッド特徴量を視覚的なトークンとしてマルチモーダルな系列
    をモデリング⽤いて,GPT-4ライクなモデルを学習
    32
    LLaVA [Liu (U. Wisconsin–Madison)+, 2023/04/17]
    $-*1`THSJEGFBUVSFT
    <3BEGPSE +BOVBSZ>
    8IBUJTVOVTVBMBCPVU
    UIJTJNBHF
    5IF
    VOVTVBM
    BTQFDUPG
    UIJTJNBHF
    JTBNBO
    JSPOJOHʜ
    --B."
    IUUQTBSYJWPSHBCT

    View Slide

  33. • BLIP-2の 画像エンコーダ [Li(Salesforce)+, 2023/01] ,Vicuna [UCB, CMU, Stanford, MBZUAI,
    and UCSD, 2023/03] を組み合わせてGPT-4ライクなモデルを低コストに作成
    • 良いモデルをどう組み合わせ,どう学習するか︖が⼤事になってきた
    33
    MiniGPT-4 [Zhu(King Abdullah U)+, 2023/04/20]
    https://arxiv.org/abs/2304.10592
    Vicuna:
    LLaMAをChatGPTのログで
    ファインチューニング
    BLIP-2:
    画像エンコーダとLLMを
    固定してアダプタを学習
    ※MiniGPTではLLM以外を使う

    View Slide

  34. 34
    おわりに︓今後の展望

    View Slide

  35. • GPT-4は⼈レベルの汎⽤的な⾃然⾔語処理能⼒を⾝に付け,さらに視覚
    と⾔語の融合理解もかなりのレベルに到達した(ように⾒える)
    • 今後は,⾔語と視覚という中⼼的なモーダルを軸に,AIが⼈と同じ⼊出
    ⼒インタフェースを持って(⾝体性を獲得し),⼈と同じ世界・空間を
    共有して協調的に⾏動できるAI,へ向かった研究が重要となる
    35
    Vision-and-Languageのこれから
    知覚
    ⾏動
    認知
    世界
    ⼊出⼒
    インタフェース
    ⼊⼒ 出⼒
    ⼊⼒
    出⼒
    「⼈がAIに合わせる」から,
    「AIが⼈に合わせられる」へ

    View Slide

  36. 36
    Voyager [Wang(NVIDIA, Caltech)+, 2023/05/23]
    • GPT-4/3.5によりMinecraftをプレイするAgent(Visionは利⽤無)
    – The first LLM-powered embodied lifelong learning agent in Minecraft
    • 世界を探索しながら,現状に合致したコードをLLMが⽣成して⾏動し,
    スキルとして保存して再利⽤
    https://arxiv.org/abs/2305.16291

    View Slide

  37. 37
    Pix2Act [Shaw(DeepMind)+,2023/05/31]
    • スクリーンショット画像から,⾃然⾔語の指⽰に従って⾏動(マウスや
    キー⼊⼒)を⽣成
    • PC/ブラウザというdigital worldにおける⾝体性の獲得に通ずる
    ViT
    T5
    https://arxiv.org/abs/2306.00245

    View Slide

  38. 38
    ImageBind [Girdhar(Meta)+, 2023/05/9]
    • 画像を軸としてテキスト,Depth,⾳,温度,加速度などを⼀つの空間
    に埋め込む
    • ペアデータが存在しないモーダル間も結付(Emergent Alignment)
    https://arxiv.org/abs/2305.05665

    View Slide

  39. • BLIP-2の 画像エンコーダ と⾔語モデルに,さらにImageBind の⾳声エン
    コーダも組み合わせて動画を理解
    39
    Video-LLaMA [Zhang(Alibaba)+, 2023/06/6]
    BLIP-2
    Vicuna / LLaMA
    ImageBind
    https://arxiv.org/abs/2306.02858

    View Slide

  40. • その先にはロボットとLLMが繋がっていく
    • Webに変わる事前学習⽤のデータ・環境を⽤意できるか︖
    • GPT-4が持つプランニング能⼒(世界モデル)は実世界でも通⽤するのか︖
    • あらゆる環境で⼈と⾃然に協調可能なAIロボットを作れるか︖
    • これからPC上で⼈を対話的にアシスタントするAIが普及していく
    • 多くのソフトウェアが,LLMから操作して貰いやすくするためにAPIを備え
    るようになる
    • PC上での⾝体性(マウスやキーボードの操作,OSという世界のモデル化)
    の獲得はひとつの挑戦的課題になる
    • GPT-4は⼈レベルの汎⽤的な⾃然⾔語処理能⼒を⾝につけた
    • 視覚との融合理解については,おそらくまだ⼈のレベルには達していないが,
    かなり近いレベルまで到達したように⾒える
    • LLMがマルチモーダルのハブとして視覚以外の理解・⽣成にも同様のアプ
    ローチで広がっていくだろう
    40
    まとめと今後の展望

    View Slide

  41. 1. OpenAI, Introducing ChatGPT. Available at https://openai.com/blog/chatgpt, November 30, 2022
    2. OpenAI: GPT-4 Technical Report. CoRR abs/2303.08774 (2023)
    3. Tom B. Brown et al.: Language Models are Few-Shot Learners. NeurIPS 2020 / CoRR abs/2005.14165 (2020)
    4. Long Ouyang et al.: Training language models to follow instructions with human feedback. CoRR abs/2203.02155 (2022)
    5. Sébastien Bubeck et al.: Sparks of Artificial General Intelligence: Early experiments with GPT-4. CoRR abs/2303.12712 (2023)
    6. Daniel Martin Katz+, GPT-4 Passes the Bar Exam. http://dx.doi.org/10.2139/ssrn.4389233, March 15, 2023
    7. Alexander Pan et al.: Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the MACHIAVELLI
    Benchmark. CoRR abs/2304.03279 (2023)
    8. Baolin Peng et al.: Instruction Tuning with GPT-4. CoRR abs/2304.03277 (2023)
    9. Yizhong Wang et al.: Self-Instruct: Aligning Language Model with Self Generated Instructions. CoRR abs/2212.10560 (2022)
    10. Ofir Press et al: Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation. ICLR 2022
    11. MosaicML, Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs, https://www.mosaicml.com/blog/mpt-7b
    12. Geewook Kim et al.: OCR-Free Document Understanding Transformer. ECCV (28) 2022: 498-517
    13. Shaohan Huang et al.: Language Is Not All You Need: Aligning Perception with Language Models. CoRR abs/2302.14045 (2023)
    14. Wayne Xin Zhao et al.: A Survey of Large Language Models. CoRR abs/2303.18223 (2023)
    15. Hugo Touvron et al.: LLaMA: Open and Efficient Foundation Language Models. CoRR abs/2302.13971 (2023)
    16. OpenAI: ChatGPT plugins. https://openai.com/blog/chatgpt-plugins, March 23, 2023.
    17. Ryota Tanaka et al.: SlideVQA: A Dataset for Document Visual Question Answering on Multiple Images. AAAI 2023.
    18. ⽥中涼太 et al., SlideVQA: 複数の⽂書画像に対する質問応答, NLP 2023.
    19. Microsoft: Introducing Microsoft 365 Copilot – your copilot for work. https://blogs.microsoft.com/blog/2023/03/16/introducing-microsoft-365-
    copilot-your-copilot-for-work/, March 16, 2023.
    20. Microsoft: Bringing the power of AI to Windows 11 – unlocking a new era of productivity for customers and developers with Windows Copilot and
    Dev Home, https://blogs.windows.com/windowsdeveloper/2023/05/23/bringing-the-power-of-ai-to-windows-11-unlocking-a-new-era-of-
    productivity-for-customers-and-developers-with-windows-copilot-and-dev-home/, May 23, 2023.
    21. Auto-GPT. https://github.com/Significant-Gravitas/Auto-GPT
    22. Haotian Liu et al.: Visual Instruction Tuning. CoRR abs/2304.08485 (2023)
    23. Alec Radford et al.: Learning Transferable Visual Models From Natural Language Supervision. ICML 2021: 8748-8763
    24. Deyao Zhu et al.: MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models. CoRR abs/2304.10592 (2023)
    25. Junnan Li et al.: BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. CoRR
    abs/2301.12597 (2023)
    26. UC Berkeley, CMU, Stanford, MBZUAI, and UC San Diego: Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality,
    https://vicuna.lmsys.org/, 2023/03/19
    27. Guanzhi Wang et al.: Voyager: An Open-Ended Embodied Agent with Large Language Models. CoRR abs/2305.16291
    28. Peter Shaw et al.: From Pixels to UI Actions: Learning to Follow Instructions via Graphical User Interfaces. CoRR abs/2306.00245 (2023)
    29. Rohit Girdhar et al.: ImageBind: One Embedding Space To Bind Them All. CoRR abs/2305.05665 (2023)
    30. Hang Zhang et al.: Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding. CoRR abs/2306.02858 (2023)
    41
    参考⽂献

    View Slide