Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Vision and Languageの現状と展望(GPT-4)

Vision and Languageの現状と展望(GPT-4)

2023年3月27日時点でのVision and Languageの現状と展望(GPT-4)

Masanori Suganuma

March 27, 2023
Tweet

More Decks by Masanori Suganuma

Other Decks in Research

Transcript

  1. Vision and Languageの現状と展望
    2023.03.24 (Fri.)
    東北⼤学 菅沼 雅徳
    CMSAIコロキウム

    View Slide

  2. Vision and Languageの現状と展望
    GPT-4の現状と展望
    2023.03.24 (Fri.)
    東北⼤学 菅沼 雅徳
    CMSAIコロキウム

    View Slide

  3. 3
    ⾃⼰紹介
    経歴
    • 2017.10 ‒ 2021.09 特別研究員@理研AIP
    • 2018.10 ‒ 現在 助教@東北⼤
    (最近)関⼼のある研究分野
    • Vision and Language
    NAS + 画像分類
    [GECCOʼ17 (Best paper)]
    NAS+画像復元
    [ICMLʼ18, CVPRʼ19]
    GT-1: a child is brushing her
    hair in the mirror
    GT-2: a little girl is brushing
    GT-1: an ele
    to far from a
    GT-2: an ele
    GT-2: A cat is sleeping on a
    skateboard.
    M2: a kitten laying on the floor
    next to a skateboard
    GRIT: a cat laying on a
    skateboard on the floor
    GT-2: A small
    standing next to
    M2: an elephan
    two birds in the
    GRIT: a baby e
    walking in a fie
    GT-1: a kitchen with a
    refrigerator next to a sink.
    GT-2: a red bucket sits in a sink
    next to an open refrigerator
    M2: an open refrigerator with the
    door open in a kitchen
    GRIT: a kitchen with a sink and
    an open refrigerator
    GT-1: a woman
    luggage past an
    GT-2: a woman
    suitcase past a f
    M2: a person rid
    down a street w
    GRIT: a person
    suitcase next to
    GT-1: a small teddy bear is
    wedged into an opening in a car
    dashboard
    GT-1: horses ra
    track with jocke
    GT-2: a group o
    BHSPVQPGKPDLF
    POB
    BMJUUMFHJSMCSVTIJOHIFSIBJS
    XJUIBCSVTI
    V&L
    [ECCVʼ20, IJCAIʼ21, ECCVʼ22]

    View Slide

  4. • 名前の通り,「画像」と「⾔語」を扱う研究分野
    • 具体例:Visual Question Answering(VQA)
    4
    Vision and Languageとは?
    Q.Where is the child sitting?
    A. fridge
    VQA v2, https://visualqa.org/

    View Slide

  5. • 名前の通り,「画像」と「⾔語」を扱う研究分野
    5
    Vision and Language: VQA
    Q.What does the man who
    sits have trouble doing?
    A. Walking
    [Schewenk+, A-OKVQA, 2022]

    View Slide

  6. 6
    Vision and Language:Text-to-image generation
    “An astronaut riding a horse in a photorealistic style”
    DALL-E 2 [Ramesh+, 2022]

    View Slide

  7. 7
    Vision and Language:Text-to-image generation
    “a shiba inu wearing a beret and black turtleneck”
    DALL-E 2 [Ramesh+, 2022]

    View Slide

  8. • ついに,テキストと「画像」の⼊⼒が可能に
    • つまり,V&Lの問題を解ける
    8
    GPT-4の登場 [OpenAI, 2023]
    The unusual thing about this
    image is that a man is
    ironing clothes on an ironing
    board attached to the roof
    of a moving taxi.
    GPT-4
    以降,22pageまでの図はhttps://openai.com/research/gpt-4 から引⽤

    View Slide

  9. 9
    GPT-4の衝撃 [OpenAI+, 2023]
    [OpenAI, 2023]
    Human
    ͜ͷࣸਅͷ͓΋͠Ζ͍ͱ͜Ζ͸
    ͳΜͰ͔͢ʁ
    ύωϧ͝ͱʹઆ໌ͯ͠Լ͍͞ɽ
    ͜ͷը૾͸ɺʮϥΠτχϯάέʔϒϧʯ
    ΞμϓλͷύοέʔδΛ͓ࣔͯ͠Γɺ
    ͭͷύωϧ͕͋Γ·͢ɻ

    View Slide

  10. 10
    GPT-4の衝撃 [OpenAI+, 2023]
    [OpenAI, 2023]
    ύωϧɿ
    εϚʔτϑΥϯͷॆిϙʔτʹ઀ଓ
    ͞Εͨ7("ίωΫλʢେ͖ͯ͘੨৭
    ͷϐϯίωΫλͰɺ௨ৗ͸ίϯ
    ϐϡʔλϞχλʔ༻ʣ͕ඳ͔Ε͍ͯ
    ·͢ɻ
    ※ GPT-4の英語による回答を
    GPT-4で⽇本語に翻訳しています

    View Slide

  11. 11
    GPT-4の衝撃 [OpenAI+, 2023]
    [OpenAI, 2023]
    ύωϧɿ
    ʮϥΠτχϯάέʔϒϧʯΞμϓλͷ
    ύοέʔδͰɺ7("ίωΫλͷը૾͕
    ඳ͔Ε͍ͯ·͢ɻ

    View Slide

  12. 12
    GPT-4の衝撃 [OpenAI+, 2023]
    [OpenAI, 2023]
    ύωϧɿ
    খ͞ͳϥΠτχϯάίωΫλ
    ʢJ1IPOF΍ଞͷ"QQMFσόΠεͷ
    ॆి༻ʣ͕ઌ୺ʹ෇͍ͨ7("
    ίωΫλͷΫϩʔζΞοϓɻ

    View Slide

  13. 13
    GPT-4の衝撃 [OpenAI+, 2023]
    [OpenAI, 2023]
    ͜ͷը૾ͷ͓΋͠Ζ͍ͱ͜Ζ͸ɺ
    େ͖ͯ͘ݹ͍7("ίωΫλΛখ͘͞
    ͯϞμϯͳεϚʔτϑΥϯͷॆి
    ϙʔτʹ઀ଓ͢Δͱ͍͏ߥ౜ແܤ͞
    ͔Βདྷ͍ͯ·͢ɻ

    View Slide

  14. 14
    GPT-4は⾼精度に画像理解ができる
    )VNBOɿ
    $BOZPVFYQMBJOUIJTNFNF
    ࣌ંɺӉ஦͔Βݟͨ஍ٿͷࣸਅΛோΊ
    ͯɺͦͷશͯͷඒ͠͞ʹڻ୰͠·͢ɻ

    View Slide

  15. 15
    GPT-4は⾼精度に画像理解ができる
    ͜ͷϛʔϜ͸ɺӉ஦͔Βݟͨ
    ஍ٿͷࣸਅͱνΩϯφήοτ
    ͱ͍͏ͭͷແؔ܎ͳ΋ͷΛ
    ૊Έ߹Θͤͨ৑ஊͰ͢ɻ
    ࣌ંɺӉ஦͔Βݟͨ஍ٿͷࣸਅΛோΊ
    ͯɺͦͷશͯͷඒ͠͞ʹڻ୰͠·͢ɻ

    View Slide

  16. 16
    GPT-4は⾼精度に画像理解ができる
    ϛʔϜͷςΩετ͸ɺԼͷը૾͕
    Ӊ஦͔Βݟͨඒ͍͠஍ٿͷࣸਅͰ
    ͋Δ͜ͱΛ͍ࣔࠦͯ͠·͢ɻ
    ࣌ંɺӉ஦͔Βݟͨ஍ٿͷࣸਅΛோΊ
    ͯɺͦͷશͯͷඒ͠͞ʹڻ୰͠·͢ɻ

    View Slide

  17. 17
    GPT-4は⾼精度に画像理解ができる
    ͔͠͠ɺ࣮ࡍͷը૾͸ɺੈք஍ਤ
    Λ΅Μ΍Γͱ໛฿͢ΔΑ͏ʹ഑ஔ
    ͞ΕͨνΩϯφήοτͰ͢ɻ
    ࣌ંɺӉ஦͔Βݟͨ஍ٿͷࣸਅΛோΊ
    ͯɺͦͷશͯͷඒ͠͞ʹڻ୰͠·͢ɻ

    View Slide

  18. 18
    GPT-4は⾼精度に画像理解ができる
    ͜ͷϛʔϜͷϢʔϞϥε͞͸ɺ
    ςΩετͱը૾ͷ༧૝֎ͷฒஔ
    ͔Βདྷ͍ͯ·͢ɻςΩετ͸
    ஍ٿͷ૖େͳը૾ͷظ଴Λઃఆ
    ͠·͕͢ɺ࣮ࡍͷը૾͸ฏຌͰ
    അࣛ͛ͨ΋ͷͰ͢ɻ
    ࣌ંɺӉ஦͔Βݟͨ஍ٿͷࣸਅΛோΊ
    ͯɺͦͷશͯͷඒ͠͞ʹڻ୰͠·͢ɻ

    View Slide

  19. 19
    GPT-4によるV&L

    View Slide

  20. • 画像からだけではわからない知識が獲得されている
    • こういった知識は標準的なV&L⽤のデータセットだけでは獲得できない
    20
    個⼈的な所感
    Panel 1: A smartphone with a VGA
    connector (a large, blue, 15-pin connector
    typically used for computer monitors)
    plugged into its charging port.
    • この画像だけからでは,VGAが
    15-pinのケーブルであることは
    判断できない
    • VGAがPCモニター⽤のものとして
    使⽤されているという知識も

    View Slide

  21. • 画像からだけではわからない知識が獲得されている
    • こういった知識は標準的なV&L⽤のデータセットだけでは獲得できない
    21
    個⼈的な所感
    • 宇宙から地球を⾒たときの世界地図に
    関する知識が表現できている
    • ⽇本がないのをつっこんで欲しいけど...
    This meme is a joke that combines
    two unrelated things: pictures of the
    earth from space and chicken nuggets.

    View Slide

  22. • OCRの性能も⾼い
    • 最も⼀般的な⽅法は,OCRモデル+V&L⽤モデルのような組み合わせ
    • 単⼀のTransformerモデルで両者を表現できているとすれば有⽤
    22
    個⼈的な所感
    • OCRの性能も⾼い
    • 多⾔語に対応
    Panel 2: The package for the
    "Lightning Cable" adapter with a
    picture of a VGA connector on it.

    View Slide

  23. 23
    個⼈的な所感
    • OCRの性能も⾼い
    • 多⾔語に対応
    • OCRの性能も⾼い
    • 最も⼀般的な⽅法は,OCRモデル+V&L⽤モデルのような組み合わせ
    • 単⼀のTransformerモデルで両者を表現できているとすれば有⽤

    View Slide

  24. • 画像認識の精度も優れている
    • いわゆる分布外サンプル(通常のデータセットから⾒ると)にも対応できている
    24
    個⼈的な所感
    User:
    Can you explain why this is funny. Think about it step-by-step.

    View Slide

  25. • ほとんどのタスクで既存研究よりも⾼精度
    • しかも,特定タスク上でのファインチューニング不要
    25
    GPT-4のV&Lベンチマーク上での定量評価結果
    https://openai.com/research/gpt-4 から引⽤

    View Slide

  26. 逆にどのようなタスクで劣っているのか?
    26
    GPT-4のV&Lベンチマーク上での定量評価結果
    https://openai.com/research/gpt-4 から引⽤

    View Slide

  27. • 最も標準的なVQAベンチマーク
    • 基本的に,「Yes/No, 5W1H」に関する質疑応答
    27
    VQAv2 [Goyal+, CVPRʼ17]
    [Goyal+, CVPRʼ17]から引⽤

    View Slide

  28. • ⼈間による精度が約81%程度
    • 最近のV&Lモデルでも80%-84%の精度
    28
    VQAv2はそこまで難しいタスクではない(はず)
    [Chen+, arXiv:2209.06794] から引⽤

    View Slide

  29. • 最近のV&LモデルはVQAのデータセットを⽤いてファインチューニング
    • また,1000 or 3000の回答候補から回答を1つ選択=クラス分類として定式化
    29
    ただし
    [Chen+, arXiv:2209.06794] から引⽤
    VQAデータセット上で
    ファインチューニング
    クラス分類として解く

    View Slide

  30. 逆にどのようなタスクで劣っているのか?
    30
    GPT-4のV&Lベンチマーク上での定量評価結果
    https://openai.com/research/gpt-4 から引⽤

    View Slide

  31. 動画説明⽂の⽣成タスク [Rohrbach+, IJCVʼ17]
    31
    Large Scale Movie Description Challenge (LSMDC)
    Someone, back in elf guise, is trying to calm
    the kids.
    Someone grabs a vodka bottle standing open
    on the counter and liberally pours some on the
    hand.
    [Rohrbach+, IJCVʼ17] から引⽤

    View Slide

  32. • VQAv2やLSMDCは「画像理解」の能⼒がより試される
    • もし,few-shotやFTでもGPT-4の性能が向上しない場合は,
    画像認識部分が既存研究よりも劣っている可能性もあり
    • ただし,画像⼊⼒に対応可能なモデルは現状未公開のため検証不可
    32
    GPT-4の画像認識能⼒は?

    View Slide

  33. • 詳細は不明
    • ⾔語モデルで事前学習+強化学習でファインチューニング
    33
    GPT-4のアーキテクチャは?
    [OpenAI, 2023]から引⽤

    View Slide

  34. • ⼊⼒は「テキスト」のみ,もしくは「テキスト+画像」
    • 出⼒は「テキスト」のみ
    34
    GPT-4のアーキテクチャは?
    [OpenAI, 2023]から引⽤

    View Slide

  35. とりあえず考えうる候補は3つ
    35
    GPT-4のアーキテクチャは? (※勝⼿な予想)
    Encoder Decoder
    DBQUJPO
    Encoder-Decoder型
    • Encoder部分で画像情報と
    テキスト情報を結合して⼊⼒
    • PaLI [Chen+, arXiv:2209.06794]
    ViT
    Decoder
    ViT
    DBQUJPO
    Decoder型
    • ViTで抽出した画像特徴と
    テキスト情報をDecoderへ
    ⼊⼒
    • GIT [Wang+, arXiv:22015.14100]
    ViT
    Text
    encoder
    Decoder
    DBQUJPO
    • Decoder部分で画像情報を⼊⼒
    • CoCa [Yu+, TMLRʼ22]
    Separate型

    View Slide

  36. • ViTからの出⼒ベクトル系列をテキスト(キャプション)に結合して,
    Transformer Encoder/Decoderに⼊⼒
    • ViTは4Bのモデルで,JFT-3B上で事前学習
    • Transformer Encoder/DecoderはmT5-XXLを使⽤ [Xue+, 2021]
    36
    Encoder-Decoder型:PaLI [Chen+, arXiv:2209.06794]
    Encoder
    "CBCZTJUUJOHPOUIFGSJEHF
    ViT Tokenization &
    word embedding
    <#04>
    "
    Decoder
    Atten

    View Slide

  37. 37
    Transformer Encoder / ViT
    Encoderは下記の基本素⼦から構成される
    • 単語・位置埋め込み
    • ⾃⼰注意機構(Self Attention)
    • 層正規化(Layer normalization)
    • フィードフォワード層(FFN)
    • 残差結合(Residual connection) Word/Position
    embedding
    Self Attention
    Layer norm
    FFN
    𝑋
    Layer norm
    × 𝐿
    𝑵⼊⼒𝑵出⼒の特徴変換器

    View Slide

  38. 38
    Transformer Decoder
    Decoderは下記の基本素⼦から構成される
    • ⾃⼰注意機構(Self Attention)
    • 層正規化(Layer normalization)
    • クロス注意機構(Cross Attention)
    • フィードフォワード層(FFN)
    • 残差結合(Residual connection)
    Layer norm
    Layer norm
    × 𝐿
    Self Attention
    Layer norm
    Cross
    Attention
    FFN
    𝑄
    𝐾, 𝑉
    𝑵⼊⼒𝟏出⼒の⽣成器

    View Slide

  39. • 著者ら(Google)が独⾃にWebから収集したデータセット:WebLI
    • 約10Bの画像・alt-textペアをフィルタリングし,約1Bのデータを学習に利⽤
    • GCP Vision APIを⽤いてOCRも実施し,学習に利⽤
    • 上記に加えて,物体検出⽤のデータセットやVQA⽤のデータセットも利⽤
    • データセットサイズは0.6B程度
    39
    PaLI:学習データ
    https://github.com/google-research/google-research/blob/master/pali/webli_data_card.pdf から引⽤

    View Slide

  40. 下記の8つのタスクを⾔語モデルの枠組みで解く
    • Span corruption on text-only data
    • Split-captioning
    • Image Captioning
    • OCR
    • English and Cross-Lingual VQA
    • English and Cross-Lingual visual question generation
    • English-only Object-Aware VQA
    • Object detection
    40
    PaLI:事前学習内容

    View Slide

  41. 下記の8つのタスクを⾔語モデルの枠組みで解く
    • Span corruption on text-only data
    • Split-captioning
    • Image Captioning
    • OCR
    • English and Cross-Lingual VQA
    • English and Cross-Lingual visual question generation
    • English-only Object-Aware VQA
    • Object detection
    41
    PaLI:事前学習内容
    𝐿 = #
    !"#
    $%#
    𝐶𝐸 𝑦!
    , 𝑝 𝑦!
    | 𝐼, 𝑦&
    , 𝑗 = 0, … , 𝑖 − 1
    次単語𝑦!
    とのクロスエントロピー損失
    画像𝐼と𝑖 − 1番⽬までの単語𝑦"
    よる次単語予測確率

    View Slide

  42. テキストの⼀部を特殊トークンに置換し,置換されたトークンを予測
    42
    事前学習例:Span corruption on text-only data
    Encoder Decoder
    ViT
    5IBOLZPVGPSJOWJUJOH NFUPZPVSQBSUZMBTU XFFL
    原⽂
    5IBOLZPV9 NFUPZPVSQBSUZ: XFFL
    9
    GPS
    GPS
    JOWJUJOH
    :
    MBTU
    MBTU
    ;

    View Slide

  43. • ⾔語モデルの枠組みで物体検出を解くことで,複雑なネットワークや
    損失関数が不要に
    • Decoderで物体位置のトークンとクラスカテゴリ(ID)を⾃⼰回帰予測
    43
    事前学習例:⾔語モデルによる物体検出 [Chen+, ICLRʼ22]
    Encoder
    (CNN or ViT)
    < CBCZ>
    < SFGSJHF>
    正解データ
    <#04>




    SFGSJHF
    SFGSJHF
    <&04>
    Transformer Decoder
    ...
    ...

    View Slide

  44. GPTのような⼿法は基盤技術に相当するもの(とも考えられる)
    • 代替⼿法を開発することも⼤事だがGPTの上で何ができるのかを考える事も重要
    • 何ができて何ができないのか解析
    • 学習済みモデルの活⽤
    • 学習済みモデルの編集(知識の挿⼊と削除)
    • 軽量化と効果的なファインチューニング⽅法 など
    44
    GPT-4(V&L)が利⽤可能になったとすると
    (15
    ৽͍͠λεΫͷఏҊ
    ֶशࡁΈϞσϧͷ
    ׆༻
    (15ͷฤू
    ʢ஌ࣝͷૠೖͱ࡟আʣ
    ܰྔԽ

    View Slide

  45. • まずは様々なベンチマーク上での定量評価によって,性能を調査
    • タスクの⼀部は,GPT-4で終わるものがあるかもしれない
    • 逆に,GPT-4のような強⼒なモデル評価・理解のための
    新たなベンチマークの設計が必要
    • 多くのマイクロタスクが登場
    45
    何ができて何ができないのか調査

    View Slide

  46. • GPT-4でどんなことができるか,逆にどんなことができないのかを検証
    • 現在リリースされているGPT-4よりも古いバージョンのGPT-4を使⽤
    • テキストのみを使って学習されたGPT-4を使っている
    • そのため,画像に関する知識はない,⼊⼒受付もできない
    46
    と思っていたら,昨⽇(3/23)こんな論⽂が...
    arXiv:2303.12712

    View Slide

  47. • いわゆる下記のような⼀般的なAGIの定義を意味しているわけではない
    • 完全である
    • ⼈間ができるあらゆることができる など
    • この論⽂内では,1994年に52名の⼼理学者が定義した知能のことを指す[*]
    • a very general mental capability that, among other things, involves the ability to reason,
    plan, solve problems, think abstractly, comprehend complex ideas, learn quickly and
    learn from experience
    • だが,そもそもAGIの定義⾃体が難しいとも⾔及している
    • この論⽂の趣旨は「GPT-4はどんなことができて,どんなことができないか」
    を共有すること
    47
    タイトルに「AGI」が⼊っているが
    [*] Linda S Gottfredson. Mainstream science on intelligence: An editorial with 52 signatories, history, and bibliography, 1997

    View Slide

  48. • 現在の機械学習分野における,いわゆるベンチマークを⽤いた評価⽅法は
    適していない
    • GPT-4の詳細な学習データが不明であるため,テストデータもしくは酷似したデータが
    学習データに含まれている可能性を排除できない
    • 既存のベンチマークでは,GPT-4のような汎⽤性の⾼い⼿法を適切に評価できない
    48
    GPT-4の評価⽅法について
    • そこで,本論⽂では⼈間の創造性や好奇⼼をベースにした(主観的な)評価を
    ⽤いる
    • 丸覚えでは対応できないような斬新かつ幅広い知識を必要とするタスクが解けるか
    どうかをみる(定量的には評価しない(できない))
    • 特に,異なるドメイン知識が複数必要なタスクを解かせてみて,より⼀般的な知能が
    獲得されているかをみる
    • 例:「韻を踏ませながら数学の証明をさせる」
    「ユニコーンを描画するTiKZ(LaTex)コードを書かせる」

    View Slide

  49. 韻を踏みながら素数は無限個あることを証明
    49
    例:数学の証明
    シェークスピア⾵に対話形式で証明
    以降63 pageまでは [Bubeck+, arXivʼ23]から引⽤

    View Slide

  50. • プロンプト
    • “Produce javascript code which generates random images in the
    style of the painter Kandinsky”
    • アートとプログラミングという異なる分野の能⼒を適切に使いこなしている
    ことがわかる
    50
    例:アートを出⼒するコード⽣成
    Composition 8, art by Wassily Kandinsky GPT-4 chatGPT

    View Slide

  51. • 指定したベクター画像の⽣成も可能
    • テキストのみを⽤いて学習しているのにも関わらず,視覚的な概念が獲得
    されている
    • 単なる丸覚えでは対応が困難
    51
    例:ベクター画像の⽣成

    View Slide

  52. 52
    例:TikZコードの⽣成
    • 「⼈をアルファベット⽂字で描画」するように命令
    • こちらの例からも視覚的な概念が獲得されていることがわかる

    View Slide

  53. • 既存のLLMと⽐べて⼤幅に優れている
    • text-davinci-003はChatGPTのベースモデル
    53
    例:コーディング(HumanEvalデータセット)
    HumanEval [Chen+, Evaluating large language models trained on code, 2021]上での評価結果

    View Slide

  54. • ただし,GPT-4がHumanEvalのデータを学習に⽤いているかもしれない
    • そこで,GPT-4の学習終了後に投稿された100個の問題をLeetCodeから
    もってきて,評価
    • 既存のLLMよりも優れた性能かつ⼈間に匹敵する性能を達成
    54
    例:コーディング(LeetCode)
    LeetCode上での評価結果.𝒌回の試⾏で正しいコードを⽣成できた精度

    View Slide

  55. しかし,最近投稿されたweb記事[*]やSNSの指摘内容[**]とは結果が異なる
    ので要検討
    55
    例:コーディング
    [*] https://aisnakeoil.substack.com/p/gpt-4-and-professional-benchmarks?utm_campaign=post&utm_medium=web
    [**] https://twitter.com/cHHillee/status/1635790330854526981
    [*]から引⽤

    View Slide

  56. 56
    例:深層学習に関するコーディング
    • 独⾃のオプティマイザの実装を命令
    • Webや⽂献内には存在しないオプティマイザの仕様であるため,丸覚えでは
    対応できない

    View Slide

  57. 57
    例:深層学習に関するコーディング
    • 仕様通りに独⾃のオプティマイザの
    実装が可能
    • 単に丸覚えで対応しているわけではない
    ことを⽰唆
    • また,「モメンタム」などの深層学
    習に関する知識も獲得されているこ
    とがわかる(⻩⾊部分)
    • ChatGPTでは対応できない

    View Slide

  58. 58
    例:擬似コードの実⾏も可能

    View Slide

  59. 59
    そのほか⾊々なことが論⽂内で検証されています

    View Slide

  60. 60
    GPT-4が苦⼿なこと:Symbolic manipulation
    時事問題も苦⼿
    簡単な計算問題
    も苦⼿

    View Slide

  61. 61
    GPT-4が苦⼿なこと:Symbolic manipulation
    時事問題も苦⼿
    簡単な計算問題
    も苦⼿
    ⽂字列を扱う
    のも苦⼿
    ただしGPT-4はWeb検索ができる
    ので,検索を組み合わせればちゃ
    んと回答できる
    途中結果も出⼒するようにすれば
    解ける

    View Slide

  62. • ものすごい簡単な演算も普通に間違える
    • [0,9]の数字をランダムに4つサンプルして,下記のような積和計算をさせると,
    58%しか正答できなかった
    • [10, 19]で試すと,正答率は16%
    • このようなタイプの問題に対しては,途中結果の保持がうまくできない
    • “Letʼs think step by step to solve the expression, write down all the intermediate
    the steps, and only then produce the final solution.”
    のようなプロンプトで改善可能ではある
    62
    演算に関しては特に苦⼿
    演算問題に対しては,ワーキングメモリが
    ものすごく⼩さくなる?

    View Slide

  63. • 「⽂頭の⽂を反転した⽂を⽂末においても,意味的にも⽂法的にも正しく
    なるように短詩を書く」ように命令
    • プロンプト等を頑張っても,全くうまくいかない
    63
    次単語予測モデル(GPT)の限界

    View Slide

  64. • 先の結果が⽰唆することは,GPT-4はプランニングができないということ
    • もしプランニングができるのであれば,⽂末⽂がどうなるべきか事前に予測してから,
    ⽂頭の⽂を⽣成できるはず
    64
    次単語予測モデル(GPT)の限界
    • また,⼀⽅向の推論しかできないこともわかる
    • もし,backtrackできるのなら,⽂末⽂がおかしい場合は⽂頭⽂を修正できるはず
    ⽂末の⽂が正しくなるように予測して
    から,⽂頭の⽂を⽣成できていない

    View Slide

  65. • 得意な事:Incremental task
    • 1単語(1⽂章)ずつ追加することで,徐々に正解に近づいていくような逐次的な
    タスク
    • 既存の知識を利⽤する,思考の⼤きな⾶躍が不必要なタスク
    • いわゆる「fast thinking」とか「System 1」
    • 例:⽂書要約,質疑応答など
    65
    GPT-4の得意なこと・苦⼿なこと
    • 苦⼿な事:Discontinuous task
    • 解決が連続的に⾏われるのではなく不連続な思考の⾶躍を必要とするタスクや
    プランニングを必要とするタスク
    • いわゆる「slow thinking」とか「System 2」
    • 例:ジョークや謎かけを⽣み出す,科学的仮説を思いつくなど

    View Slide

  66. • Confidence calibration
    • Long-term memory
    • Continual learning
    • Personalization
    • Planning and conceptual leaps
    • Transparency, interpretability and consistency
    • Cognitive fallacies and irrationality
    • Challenges with sensitivity to inputs
    66
    より汎⽤的なAIへの道標

    View Slide

  67. GPTのような⼿法は基盤技術に相当するもの(とも考えられる)
    • 代替⼿法を開発するというよりもGPTの上で何ができるのかを考える事も重要
    • 何ができて何ができないのか解析
    • 学習済みモデルの活⽤
    • 学習済みモデルの編集(知識の挿⼊と削除)
    • 軽量化とファインチューニング など
    67
    GPT-4(V&L)が利⽤可能になったとすると
    (15
    ৽͍͠λεΫͷఏҊ
    ֶशࡁΈϞσϧͷ
    ׆༻
    (15ͷฤू
    ʢ஌ࣝͷૠೖͱ࡟আʣ
    ܰྔԽ

    View Slide

  68. • スクラッチからGPT-4クラスのモデルを訓練するのは(今は)⾮現実的
    • 学習済みモデルをうまく活⽤するのが現実的
    68
    学習済みLLMの活⽤
    どうやって活⽤するか?
    • 既存モデルの⼀部に組み込む
    • Soft prompt

    View Slide

  69. • 実はV&Lの研究ではいくつか提案されている
    • 典型的なのは,OKVQA(Outside Knowledge VQA)[Marino+, CVPRʼ19] [Schewenk+, 2022]
    のための⼿法
    69
    LLMをVQAモデルに組み込む
    [Schewenk+, A-OKVQA, 2022]
    Q. What does the man who sits
    have trouble doing?
    A. Walking
    ⾞椅⼦を利⽤している⼈は歩くことが
    困難であるという知識が必要

    View Slide

  70. • 実はV&Lの研究ではいくつか提案されている
    • 典型的なのは,OKVQA(Outside Knowledge VQA)[Marino+, CVPRʼ19] [Schewenk+, 2022]
    のための⼿法
    70
    LLMをVQAモデルに組み込む
    [Schewenk+, A-OKVQA, 2022]
    折りたたみ椅⼦の知識が必要
    Q. What makes those chairs easy
    to carry?
    A. Foldable

    View Slide

  71. • GPT-3がもっている知識を [質問⽂,物体,画像キャプション,例⽰] で抽出
    • 同時に,CLIPを⽤いてWikidataからも情報を検索
    71
    GPT-3を利⽤したOK-VQA [Gui+, NACCLʼ22]
    物体検出
    CLIP
    Transformer
    Encoder
    Transformer
    Decoder
    (15
    画像キャプ
    ション⽣成
    Q.What does the man who sits have trouble doing?
    A. walk

    View Slide

  72. • 学習済み画像エンコーダの出⼒を学習済みLLMにフィットするように変換
    • 計算コストのかかる画像エンコーダ・LLM部分は固定
    • 学習するのは変換器部分のみ = 低コストにLLMを活⽤可能
    72
    学習済みモデルの活⽤:BLIPv2 [Li+, arXiv:2301.12597]
    Image
    Encoder
    ม׵ث LLM
    8IJDIDJUZJTUIJT
    4JOHBQPSF

    View Slide

  73. 73
    BLIPv2との対話例(1/2)

    View Slide

  74. 74
    BLIPv2との対話例(2/2)

    View Slide

  75. 1.画像エンコーダを固定して,変換器を学習
    • Image-text contrastive learning
    • Image-grounded text generation
    • Image-text matching
    75
    BLIPv2の概要
    4FMGBUUFO
    $SPTTBUUFO
    ''/
    4FMGBUUFO
    ''/
    ×𝐿
    ×𝐿
    Image-text matching loss text generation loss
    JOQVUUFYU
    contrastive loss
    Image
    Encoder
    変換器
    -FBSOBCMFRVFSJFT

    View Slide

  76. 2. LLMを固定して,変換器につけた全結合層を学習
    • Text generation
    76
    BLIPv2の概要
    4FMGBUUFO
    $SPTTBUUFO
    ''/
    4FMGBUUFO
    ''/
    JOQVUUFYU
    Image
    Encoder
    変換器
    -FBSOBCMFRVFSJFT
    -JOFBS
    LLM

    View Slide

  77. • GPTが全知全能であるとは限らない
    • ⼿元のタスクを解くのに必要な知識を教えるにはどうすれば良いか?
    77
    LLMの編集:新しい知識の挿⼊
    • Adapterと呼ばれる⼩さいNNをLLMに取り付けて,新しい知識を記憶させる
    Adapterの例
    [Houlsby+, ICMLʼ19]
    Encoder
    Decoder
    Adapter
    Adapter
    +
    +
    Adapterの挿⼊例
    [Emelin+, EMNLPʼ22]
    Adapterの挿⼊例(LoRA)
    [Hu+, ICLRʼ22]

    View Slide

  78. • モデルサイズの軽量化
    • LLaMA [Touvron+, arXiv:2302.13971] :13BサイズのモデルでGPT-3(175B)を上回り,
    65BモデルでChinchilla(70B)やPaLM(540B)と同等
    • そのかわり,1.4 trillion tokenで学習(GPT-3は0.3 trillion token)
    • LLMの量⼦化[*]:MacbookでLLMが動作可能
    78
    LLMの軽量化
    • 学習データセットの軽量化
    • オーダーが2桁〜3桁⼩さいデータセットでも,フルサイズで学習したモデルの90%の
    性能レベルを達成可能 [Suzuki+, Information Processing & Management, 2023]
    [*] : https://github.com/ggerganov/llama.cpp

    View Slide

  79. ⾃然⾔語による画像認識例

    View Slide

  80. CLIP [Radford+, ICMLʼ21]の成功によって,⾃然⾔語(キャプション)を⽤いた
    画像認識器の学習が有効であることが判明
    80
    ⾃然⾔語による画像認識
    正しいペアの
    特徴ベクトル間の内積
    (類似度)を最⼤化
    特徴ベクトル

    View Slide

  81. CLIP [Radford+, ICMLʼ21]の成功によって,⾃然⾔語(キャプション)を⽤いた
    画像認識器の学習が有効であることが判明
    81
    ⾃然⾔語による画像認識
    個々のタスクで
    学習しなくても
    ResNetに勝てる
    [CLIPより引⽤]

    View Slide

  82. • one-hotベクトルでは表現しきれない柔軟かつ膨⼤な概念を学習可能
    • 数や形容詞の情報なども⼀緒に学習可能
    • アノテーションコストが低い
    • Web上の画像・altテキストペアをもってくるだけ
    82
    ⾃然⾔語による画像認識のメリット
    これまでの画像分類
    CLIP
    「有限個のクラスID Xの何か」
    one-hotベクトルよりも圧倒的な情報量との関連付けが可能に
    l"CSPXOEPHJTTJUUJOHPOUIFHSBTTz
    何を意味しているのか
    理解していない

    View Slide

  83. 83
    ⾃然⾔語によるセマンティックセグメンテーション
    • セマンティックセグメンテーション = 画素ごとのクラス分類
    • 学習には画素単位のラベル付けが必須なため,データの準備が⾮常に⾼コスト
    原画像 画素単位のラベル付け

    View Slide

  84. 84
    ⾃然⾔語によるセマンティックセグメンテーション
    キャプションのみからセマンティックセグメンテーションを学習可能な
    Vision Transformer(画素単位のラベルが必要ない!)[Xu+, CVPRʼ22]
    • 学習可能なGroupトークンで画像パッチをクラスタリング
    GroupViTの構造

    View Slide

  85. • セマンティックセグメンテーションや深度推定などの画素ごとの予測タスク
    で,少数例(10サンプル)の学習だけで,⼤量データを⽤いた教師あり学習に
    匹敵
    • ラベルの使⽤割合でいうと,0.04%以下
    85
    画像認識におけるfew-shot学習 [Kim+, ICLRʼ23]

    View Slide

  86. 問題設定
    • 10のタスクを学習セット(8タスク),テストセット(2タスク)に分割
    • 学習セットで学習したモデルを,少数ラベル(テストセット)を⽤いてファインチューニング
    し,テストセット上での性能を評価
    86
    画像認識におけるfew-shot学習 [Kim+, ICLRʼ23]
    ※ GPT論⽂のfew-shot学習とは異なるので注意.今回[Kim+, ICLRʼ23]はパラメータの更新が伴う
    例えば,Fold1をテストセットとすると,Fold2-5が学習セットとなる

    View Slide

  87. 87
    画像認識におけるfew-shot学習 [Kim+, ICLRʼ23]

    View Slide

  88. 88
    画像認識におけるfew-shot学習 [Kim+, ICLRʼ23]
    • ViTを使⽤(BeiT [Bao+, ICLRʼ21])
    • クエリとサポート画像は共通の重みを
    利⽤
    • ラベル画像の変換は別モデルを使⽤

    View Slide

  89. 89
    画像認識におけるfew-shot学習 [Kim+, ICLRʼ23]
    ポイント
    • 様々なタスクかつ未知タスクに適応で
    きるように,バイアスパラメータだけ
    はタスクごとに⽤意
    • メタ学習時に少数事例(サポート画像)
    を⽤いて,バイアスだけ最適化する
    • [Zaken+, ACLʼ22], [Cai, NeurIPSʼ20]

    View Slide

  90. 90
    画像認識におけるfew-shot学習 [Kim+, ICLRʼ23]
    標準的なマルチヘッドQKV注意機構
    Query : query images
    Key : support images
    Value : labels of support images

    View Slide

  91. 91
    画像認識におけるfew-shot学習 [Kim+, ICLRʼ23]
    • [Ranftl+, ICCVʼ21]に従い,
    マルチスケールの特徴マップを
    ViTから抽出
    • 指定の層出⼒に対して,転置畳
    み込み等を適⽤することで実現

    View Slide

  92. 学習⽅法
    • 学習セットからクエリセットとサポートセットをサンプルし,サポートセットを⽤いて
    クエリ画像のラベルを正しく予測するように,モデルを学習
    92
    画像認識におけるfew-shot学習 [Kim+, ICLRʼ23]
    推論
    • テストセットのサポートセットを⽤いて,バイアスのみをファインチューニング
    • その後,テストセットのクエリ画像を予測

    View Slide

  93. 学習⽅法
    • 学習セットからクエリセットとサポートセットをサンプルし,サポートセットを⽤いて
    クエリ画像のラベルを正しく予測するように,モデルを学習
    93
    画像認識におけるfew-shot学習 [Kim+, ICLRʼ23]
    推論
    • テストセットのサポートセットを⽤いて,バイアスのみをファインチューニング
    • その後,テストセットのクエリ画像を予測
    バイアスのファインチューニングは⾮常に重要

    View Slide

  94. 将来的には,LLMのように画像認識タスクもパラメータの更新なし
    に未知タスクを解けるようになるかもしれない
    94
    画像認識におけるfew-shot学習 [Kim+, ICLRʼ23]

    View Slide

  95. LLMを基盤技術と考えて,その上で何ができるかを考えるのも重要
    • 効率的・効果的なファインチューニング
    • 解きたいタスクの知識をどうやって注⼊するか
    • 学習・推論の軽量化
    • より適切なベンチマーク・評価⽅法の確⽴
    • 理論解析
    95
    まとめ
    LLMに代わる新しい技術の提案
    • (私のような)研究者はむしろこっちの⽅向性も
    • Transformerで本当に良いのか
    • next-word predictionで本当に良いのか

    View Slide