Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering

Slide 1

Slide 1 text

1 Copyright © Acroquest Technology Co., Ltd. All rights reserved. Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering 2023/7/23 Acroquest Technology株式会社⼭本⼤輝

Slide 2

Slide 2 text

⼭本⼤輝（@tereka114） 1. Acroquest Technology株式会社 ① 画像処理・⾃然⾔語処理の研究開発 2. のんびりしているエンジニアの⽇記 http://nonbiri-tereka.hatenablog.com/ 3. Kaggle Competitions Grandmaster ① 1st and Feature – Player Contact Detection 9th ② Happywhale – Whale and Dolphin Identification 11th ③ Google Universal Image Embedding 12th 4. CQ出版 Interface ML／AI関連記事を複数寄稿 Kaggle Grandmaster

Slide 3

Slide 3 text

Acroquestの事業内容 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 3 IoT⾰新事業⼈々の⽣活基盤を変⾰する事業あらゆるモノからリアルタイムなデータ分析を実現する顧客価値創造事業企業のビジネスを変⾰する事業あらゆるデータをビジネス活⽤し新たな価値創造を実現する AIソリューション事業業務のありかたを変⾰する事業あらゆる産業で映像解析によって⾃動化・効率化を実現するプラットフォーム開発事業ビジネスを加速させる開発事業マイクロサービスアーキテクチャによる開発や DevOps実践などの活動を通してビジネスを強化するITシステムの構築を⾏う

Slide 4

Slide 4 text

機械学習分野における豊富な経験 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 4 Acroquest社内で発⾜したデータサイエンスチームYAMALEX プロジェクトの⾼度な問題解決に取り組んでいます。 AWS Machine Learning コンピテンシーのパートナーとして認定されています。様々な分野・規模での、AI/MLを活⽤した開発・導⼊実績があります <⼩売> <農業> <製造業> AI/ML分野での実⼒を、対外的にも認められています多種多様な課題をAIで解決するデータサイエンティストチーム

Slide 5

Slide 5 text

「働きがいのある会社(GPTW)」ランキング(従業員25〜99⼈部⾨) １位を 3回受賞１位１位１位

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

1. 本⽇の論⽂

Slide 9

Slide 9 text

1-1. ⼤規模⾔語モデル Copyright © Acroquest Technology Co., Ltd. All rights reserved. 9 2022年からChatGPTをはじめとした⼤規模⾔語モデルを使った応⽤例が急増している。 OpenAIからGPT-3, GPT-4などの技術が公開されており、様々な団体による研究開発がより活発になっている。 CVでもCLIPをはじめとした技術の発展により⽣成モデルなどのテキストとの応⽤例が増えているのでLLMがどの程度影響しそうか気になった。

Slide 10

Slide 10 text

Slide 11

Slide 11 text

1-3. 今回の論⽂のポイント Copyright © Acroquest Technology Co., Ltd. All rights reserved. 11 Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering 論⽂のポイント • VQAの問題で使えるProphetと呼ばれるフレームワークを提案し、既存のOK-VQA／A-OKVQAのデータセットでSoTAを達成した。個⼈的に⾯⽩いと思ったポイント • LLM（GPT-3）と既存のVQAの組み合わせでSoTAを達成した。 • 候補数やアンサンブルなどのパラメータに関してもAblation Study がされており、どの取り組みが効果があったのかわかる。

Slide 12

Slide 12 text

1-4. Visual Question Answeringとは Copyright © Acroquest Technology Co., Ltd. All rights reserved. 12 1．画像と質問を与えたときに答えを導き出す問題 2．通称VQAと呼ばれ、背景知識がないと回答できない KnowledgeベースのVQAをK-VQA（Knowledge Aware）として呼ばれる。映っているのは教会だが、教会がいつ開いているのかを⼀般的に知らないと回答できない。

Slide 13

Slide 13 text

2. 関連研究

Slide 14

Slide 14 text

Copyright © Acroquest Technology Co., Ltd. All rights reserved. 14 2. 関連研究①︓Deep Modular Co-Attention Networks for Visual Question Answering（CVPR2019）画像とNLPの特徴量を組み合わせるDeep Co-Attention Learningにより、VQAの従来⼿法よりも精度を向上させた。

Slide 15

Slide 15 text

2. 関連研究②︓Transform-Retrieve-Generate: Natural Language-Centric Outside-Knowledge Visual Question Answering（CVPR2022） Copyright © Acroquest Technology Co., Ltd. All rights reserved. 15 画像をテキスト空間に様々な⽅式（画像説明, Tagging, OCR）でマッピングし、コンテキスト検索＋⽣成モデルで回答を⽣成する。

Slide 16

Slide 16 text

2. 関連研究③︓Flamingo: a Visual Language Model for Few-Shot Learning（NeurIPS2022） Copyright © Acroquest Technology Co., Ltd. All rights reserved. 16 Flamingo特有のアーキテクチャと膨⼤なデータの学習により、⼀般的な基盤モデルを作成した。そのうえでFew Shotのデータをプロンプトに与え、⼤きく精度を向上させた。

Slide 17

Slide 17 text

2. 関連研究④︓An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA（AAAI2022） Copyright © Acroquest Technology Co., Ltd. All rights reserved. 17 画像のVQAを解くのにGPT-3を⽤いたVQAのFew-shot Learningを試みた論⽂（⼿法名PICa）。

Slide 18

Slide 18 text

3. 論⽂⼿法紹介

Slide 19

Slide 19 text

3-1. 今回の論⽂のポイント（再掲） Copyright © Acroquest Technology Co., Ltd. All rights reserved. 19 Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering 論⽂のポイント • VQAの問題で使えるProphetと呼ばれるフレームワークを提案し、既存のOK-VQA／A-OKVQAのデータセットでSoTAを達成した。個⼈的に⾯⽩いと思ったポイント • LLM（GPT-3）と既存のVQAの組み合わせでSoTAを達成した。 • 候補数やアンサンブルなどのパラメータに関してもAblation Study がされており、どの取り組みが効果があったのかわかる。

Slide 20

Slide 20 text

Slide 21

Slide 21 text

3-3. Answer Heuristics Generation Copyright © Acroquest Technology Co., Ltd. All rights reserved. 21 画像とQuestionから出⼒される特徴量間のコサイン類似度を計測し、 TopNを取得する。 VとQと⼊⼒として得られる Backboneの出⼒次のGPT-3に⼊⼒する回答に近しいサンプルを取得する。以下の図 Latent answer space のベクトルがz

Slide 22

Slide 22 text

3-4. Heuristics-Enhanced Prompting Copyright © Acroquest Technology Co., Ltd. All rights reserved. 22 推論の戦略として、アンサンブルを実施する。 GPT-3をT回計算し、T個の回答予測が得られ、多数決で決定する。 1回⽬︓helium 2回⽬︓helium 3回⽬︓air helium プロンプトに回答候補として、以下の内容を含めGPT-3にアクセスする。プロンプトを作成して回答を得る特に答えの候補に対する確率（y）を⼊⼒するのがポイント

Slide 23

Slide 23 text

Slide 24

Slide 24 text

4. 実験

Slide 25

Slide 25 text

4-1. 実験 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 25 1．OK-VQA、A-OKVQAの2種類のデータセットで実験をしている。 2．QK-VQA、A-OKVQAともに知識ベースでの回答が必要なVQA の問題で、A-OKVQAのほうが後発のもの。 3．OK-VQAを⽤いて、⼿法に関するAblation Studyを実施した。

Slide 26

Slide 26 text

Slide 27

Slide 27 text

Slide 28

Slide 28 text

Slide 29

Slide 29 text

4-4. Ablation Study（1/2） Copyright © Acroquest Technology Co., Ltd. All rights reserved. 29 回答候補数 VQAのモデルの差分 VQAのモデルの差分同じVQAバックエンド（ViLBERT）で⽐較し、今回のスキーマ（Prompt）の有⽤性を⽰した。 CLIPモデルが最も良い。回答候補の数が多いほど精度向上に貢献する。

Slide 30

Slide 30 text

Slide 31

Slide 31 text

4-5. 実験のまとめ Copyright © Acroquest Technology Co., Ltd. All rights reserved. 31 No. 項⽬説明 1 Retrieval vs Prompt Promptによる⽣成⼿法のほうが望ましい。 2 VQAモデル VQAのモデル精度が良ければ、本⼿法の精度も伸びる 3 回答候補回答候補の数が多ければ、精度向上する。 4 サンプル取得⽅法 Hitrateが⾼い＝最終的なQAの回答の精度も⾼い。 5 サンプル数プロンプトに⼊れるQAの数が多ければ精度が上がる 6 アンサンブル複数回のプロンプトを実⾏し、Votingすると精度が向上する。 7 影響のある⼿法の項⽬回答候補に対するConfidenceの表⽰が最も影響度が⾼い。

Slide 32

Slide 32 text

5. まとめ

Slide 33

Slide 33 text

5-1. 論⽂のまとめ Copyright © Acroquest Technology Co., Ltd. All rights reserved. 33 1. Prophetと呼ばれるVQAで利⽤できるフレームワークを提唱した。内部でもGPT-3を利⽤しており、SoTAを達成した。 2. Promptの内容に従来⼿法からの⼯夫があり、精度向上に貢献している。 3. また、計算も単⼀のGPUであり、数回のGPT-3の呼び出しのみで完了し、限られたリソースでも動作する。