Slide 1

Slide 1 text

1 Copyright © Acroquest Technology Co., Ltd. All rights reserved. Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering 2023/7/23 Acroquest Technology株式会社 ⼭本 ⼤輝

Slide 2

Slide 2 text

⼭本 ⼤輝 (@tereka114) 1. Acroquest Technology株式会社 ① 画像処理・⾃然⾔語処理の研究開発 2. のんびりしているエンジニアの⽇記 http://nonbiri-tereka.hatenablog.com/ 3. Kaggle Competitions Grandmaster ① 1st and Feature – Player Contact Detection 9th ② Happywhale – Whale and Dolphin Identification 11th ③ Google Universal Image Embedding 12th 4. CQ出版 Interface ML/AI関連記事を 複数寄稿 Kaggle Grandmaster

Slide 3

Slide 3 text

Acroquestの事業内容 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 3 IoT⾰新事業 ⼈々の⽣活基盤を 変⾰する事業 あらゆるモノからリアルタイムな データ分析を実現する 顧客価値創造事業 企業のビジネスを 変⾰する事業 あらゆるデータをビジネス活⽤し 新たな価値創造を実現する AIソリューション事業 業務のありかたを 変⾰する事業 あらゆる産業で映像解析によって ⾃動化・効率化を実現する プラットフォーム 開発事業 ビジネスを 加速させる 開発事業 マイクロサービスアーキテクチャによる開発や DevOps実践などの活動を通して ビジネスを強化するITシステムの構築を⾏う

Slide 4

Slide 4 text

機械学習分野における豊富な経験 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 4 Acroquest社内で発⾜した データサイエンスチームYAMALEX プロジェクトの⾼度な 問題解決に取り組んでいます。 AWS Machine Learning コンピテンシーの パートナーとして 認定されています。 様々な分野・規模での、AI/MLを活⽤した開発・導⼊実績があります <⼩売> <農業> <製造業> AI/ML分野での実⼒を、 対外的にも認められています 多種多様な課題をAIで解決する データサイエンティストチーム

Slide 5

Slide 5 text

「働きがいのある会社(GPTW)」 ランキング(従業員25〜99⼈部⾨) 1位 を 3回 受 賞 1位 1位 1位

Slide 6

Slide 6 text

組織の取り組みが書籍として出版されています Copyright © Acroquest Technology Co., Ltd. All rights reserved. 6 会社を元気にする 「いきいき実践勉強会」 を開催し、多くの経営者様に ご参加いただいております。

Slide 7

Slide 7 text

⽬次 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 7 1. 本⽇の論⽂ 2. 関連研究 3. 論⽂⼿法紹介 4. 実験 5. まとめ

Slide 8

Slide 8 text

1. 本⽇の論⽂

Slide 9

Slide 9 text

1-1. ⼤規模⾔語モデル Copyright © Acroquest Technology Co., Ltd. All rights reserved. 9 2022年からChatGPTをはじめとした⼤規模⾔語モデルを使った 応⽤例が急増している。 OpenAIからGPT-3, GPT-4などの技術が公開されており、 様々な団体による研究開発がより活発になっている。 CVでもCLIPをはじめとした技術の発展により⽣成モデルなどの テキストとの応⽤例が増えているのでLLMがどの程度影響しそうか 気になった。

Slide 10

Slide 10 text

1-2. CVPRとLLM Copyright © Acroquest Technology Co., Ltd. All rights reserved. 10 CVPR2023論⽂のタイトルに「Prompt」がどの程度 含まれているか調べると47/2359 →やはりCVにもLLMの波がきつつある・・・︖ 本⽇はCV+LLMを利⽤した 論⽂を読んでみます。

Slide 11

Slide 11 text

1-3. 今回の論⽂のポイント Copyright © Acroquest Technology Co., Ltd. All rights reserved. 11 Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering 論⽂の ポイント • VQAの問題で使えるProphetと呼 ばれるフレームワークを提案し、 既存のOK-VQA/A-OKVQAのデー タセットでSoTAを達成した。 個⼈的に ⾯⽩いと思った ポイント • LLM(GPT-3)と既存のVQAの組 み合わせでSoTAを達成した。 • 候補数やアンサンブルなどのパラ メータに関してもAblation Study がされており、どの取り組みが効 果があったのかわかる。

Slide 12

Slide 12 text

1-4. Visual Question Answeringとは Copyright © Acroquest Technology Co., Ltd. All rights reserved. 12 1.画像と質問を与えたときに答えを導き出す問題 2.通称VQAと呼ばれ、背景知識がないと回答できない KnowledgeベースのVQAをK-VQA(Knowledge Aware)として呼ばれる。 映っているのは教会だが、教会がいつ開いて いるのかを⼀般的に知らないと回答できない。

Slide 13

Slide 13 text

2. 関連研究

Slide 14

Slide 14 text

Copyright © Acroquest Technology Co., Ltd. All rights reserved. 14 2. 関連研究①︓Deep Modular Co-Attention Networks for Visual Question Answering(CVPR2019) 画像とNLPの特徴量を組み合わせるDeep Co-Attention Learningに より、VQAの従来⼿法よりも精度を向上させた。

Slide 15

Slide 15 text

2. 関連研究②︓Transform-Retrieve-Generate: Natural Language-Centric Outside-Knowledge Visual Question Answering(CVPR2022) Copyright © Acroquest Technology Co., Ltd. All rights reserved. 15 画像をテキスト空間に様々な⽅式(画像説明, Tagging, OCR)でマッピング し、コンテキスト検索+⽣成モデルで回答を⽣成する。

Slide 16

Slide 16 text

2. 関連研究③︓Flamingo: a Visual Language Model for Few-Shot Learning(NeurIPS2022) Copyright © Acroquest Technology Co., Ltd. All rights reserved. 16 Flamingo特有のアーキテクチャと膨⼤なデータの学習により、⼀般的な基盤モデルを作 成した。そのうえでFew Shotのデータをプロンプトに与え、⼤きく精度を向上させた。

Slide 17

Slide 17 text

2. 関連研究④︓An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA(AAAI2022) Copyright © Acroquest Technology Co., Ltd. All rights reserved. 17 画像のVQAを解くのにGPT-3を⽤いたVQAのFew-shot Learningを試みた論⽂(⼿法名PICa)。

Slide 18

Slide 18 text

3. 論⽂⼿法紹介

Slide 19

Slide 19 text

3-1. 今回の論⽂のポイント(再掲) Copyright © Acroquest Technology Co., Ltd. All rights reserved. 19 Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering 論⽂の ポイント • VQAの問題で使えるProphetと呼 ばれるフレームワークを提案し、 既存のOK-VQA/A-OKVQAのデー タセットでSoTAを達成した。 個⼈的に ⾯⽩いと思った ポイント • LLM(GPT-3)と既存のVQAの組 み合わせでSoTAを達成した。 • 候補数やアンサンブルなどのパラ メータに関してもAblation Study がされており、どの取り組みが効 果があったのかわかる。

Slide 20

Slide 20 text

3-2. Prophetの全体像 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 20 ①Answerに近しい サンプルを獲得する ②複数のサンプルとともに、 GPT-3に⼊⼒する。 次の処理をProphet Frameworkとして論⽂で提案した

Slide 21

Slide 21 text

3-3. Answer Heuristics Generation Copyright © Acroquest Technology Co., Ltd. All rights reserved. 21 画像とQuestionから出⼒される特徴量間のコサイン類似度を計測し、 TopNを取得する。 VとQと⼊⼒として得られる Backboneの出⼒ 次のGPT-3に⼊⼒する回答に近しいサンプルを取得する。 以下の図 Latent answer space のベクトルがz

Slide 22

Slide 22 text

3-4. Heuristics-Enhanced Prompting Copyright © Acroquest Technology Co., Ltd. All rights reserved. 22 推論の戦略として、アンサンブルを実施する。 GPT-3をT回計算し、T個の回答予測が得られ、多数決で決定する。 1回⽬︓helium 2回⽬︓helium 3回⽬︓air helium プロンプトに回答候補として、以下の内容を含めGPT-3にアクセスする。 プロンプトを作成して回答を得る 特に答えの候補に対する確率(y)を ⼊⼒するのがポイント

Slide 23

Slide 23 text

Copyright © Acroquest Technology Co., Ltd. All rights reserved. 23 ⾃由回答プロンプト例 選択回答プロンプト例 3-5. Heuristics-Enhanced Promptingのプロンプト例

Slide 24

Slide 24 text

4. 実験

Slide 25

Slide 25 text

4-1. 実験 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 25 1.OK-VQA、A-OKVQAの2種類のデータセットで実験をしている。 2.QK-VQA、A-OKVQAともに知識ベースでの回答が必要なVQA の問題で、A-OKVQAのほうが後発のもの。 3.OK-VQAを⽤いて、⼿法に関するAblation Studyを実施した。

Slide 26

Slide 26 text

4-2. データセット(OK-VQA) Copyright © Acroquest Technology Co., Ltd. All rights reserved. 26 従来までのデータセットでは、背景知識が必要ないVQAだったが、 本VQAでは背景知識ありでないと回答できないものが含まれる。

Slide 27

Slide 27 text

4-2. データセット(A-OKVQA) Copyright © Acroquest Technology Co., Ltd. All rights reserved. 27 OK-VQAの質問の後継、⼀般常識や視覚情報など様々な外部情報を含んだ QAを⾏う。OK-VQAよりも更に多く25000ほどのQAがある。 また、複数の候補から選択するMCと⾃由回答のDirect Answersがある。

Slide 28

Slide 28 text

4-3.精度 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 28 OK-VQA A-OKVQA 過去⼿法と⽐較して、最も精度が⾼い(SoTA)

Slide 29

Slide 29 text

4-4. Ablation Study(1/2) Copyright © Acroquest Technology Co., Ltd. All rights reserved. 29 回答候補数 VQAのモデルの差分 VQAのモデルの差分 同じVQAバックエンド(ViLBERT)で⽐較し、 今回のスキーマ(Prompt)の有⽤性を⽰した。 CLIPモデルが最も良い。 回答候補の数が多いほど 精度向上に貢献する。

Slide 30

Slide 30 text

4-4. Ablation Study (2/2) Copyright © Acroquest Technology Co., Ltd. All rights reserved. 30 サンプル取得の⽅法 プロンプトの内容差分 サンプル数とプロンプトの回数 複数個の候補⼊⼒が有効である。 全ての要素が有効だが、特に 回答候補の確信度の影響は⾼い。 Hit Rateが⾼いほど精度が良い。

Slide 31

Slide 31 text

4-5. 実験のまとめ Copyright © Acroquest Technology Co., Ltd. All rights reserved. 31 No. 項⽬ 説明 1 Retrieval vs Prompt Promptによる⽣成⼿法のほうが望ましい。 2 VQAモデル VQAのモデル精度が良ければ、本⼿法の精度も伸びる 3 回答候補 回答候補の数が多ければ、精度向上する。 4 サンプル取得⽅法 Hitrateが⾼い=最終的なQAの回答の精度も⾼い。 5 サンプル数 プロンプトに⼊れるQAの数が多ければ精度が上がる 6 アンサンブル 複数回のプロンプトを実⾏し、Votingすると精度が向上する。 7 影響のある⼿法の項⽬ 回答候補に対するConfidenceの表⽰が最も影響度が⾼い。

Slide 32

Slide 32 text

5. まとめ

Slide 33

Slide 33 text

5-1. 論⽂のまとめ Copyright © Acroquest Technology Co., Ltd. All rights reserved. 33 1. Prophetと呼ばれるVQAで利⽤できるフレームワークを提唱した。 内部でもGPT-3を利⽤しており、SoTAを達成した。 2. Promptの内容に従来⼿法からの⼯夫があり、精度向上に貢献して いる。 3. また、計算も単⼀のGPUであり、数回のGPT-3の呼び出しのみで 完了し、限られたリソースでも動作する。

Slide 34

Slide 34 text

5-2. 感想 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 34 1. GPT-3に限らず様々なモデル(例︓GPT-4)でも利⽤できるので LLMの違いによる精度は気になるポイント。 2. LLMの活⽤によりVQAのSoTA更新が達成できているので、 CV+LLMでの活⽤は今後、更に発表されることが予想される。

Slide 35

Slide 35 text

35 Copyright © Acroquest Technology Co., Ltd. All rights reserved.