Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering

1 Copyright © Acroquest Technology Co., Ltd. All rights reserved.
Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering 2023/7/23 Acroquest Technology株式会社⼭本⼤輝

⼭本⼤輝（@tereka114） 1. Acroquest Technology株式会社 ① 画像処理・⾃然⾔語処理の研究開発 2. のんびりしているエンジニアの⽇記
http://nonbiri-tereka.hatenablog.com/ 3. Kaggle Competitions Grandmaster ① 1st and Feature – Player Contact Detection 9th ② Happywhale – Whale and Dolphin Identification 11th ③ Google Universal Image Embedding 12th 4. CQ出版 Interface ML／AI関連記事を複数寄稿 Kaggle Grandmaster

Acroquestの事業内容 Copyright © Acroquest Technology Co., Ltd. All rights reserved.
3 IoT⾰新事業⼈々の⽣活基盤を変⾰する事業あらゆるモノからリアルタイムなデータ分析を実現する顧客価値創造事業企業のビジネスを変⾰する事業あらゆるデータをビジネス活⽤し新たな価値創造を実現する AIソリューション事業業務のありかたを変⾰する事業あらゆる産業で映像解析によって⾃動化・効率化を実現するプラットフォーム開発事業ビジネスを加速させる開発事業マイクロサービスアーキテクチャによる開発や DevOps実践などの活動を通してビジネスを強化するITシステムの構築を⾏う

機械学習分野における豊富な経験 Copyright © Acroquest Technology Co., Ltd. All rights reserved.
4 Acroquest社内で発⾜したデータサイエンスチームYAMALEX プロジェクトの⾼度な問題解決に取り組んでいます。 AWS Machine Learning コンピテンシーのパートナーとして認定されています。様々な分野・規模での、AI/MLを活⽤した開発・導⼊実績があります <⼩売> <農業> <製造業> AI/ML分野での実⼒を、対外的にも認められています多種多様な課題をAIで解決するデータサイエンティストチーム

「働きがいのある会社(GPTW)」ランキング(従業員25〜99⼈部⾨) １位を 3回受賞１位１位１位

組織の取り組みが書籍として出版されています Copyright © Acroquest Technology Co., Ltd. All rights reserved.
6 会社を元気にする「いきいき実践勉強会」を開催し、多くの経営者様にご参加いただいております。

⽬次 Copyright © Acroquest Technology Co., Ltd. All rights reserved.
7 1. 本⽇の論⽂ 2. 関連研究 3. 論⽂⼿法紹介 4. 実験 5. まとめ

1. 本⽇の論⽂

1-1. ⼤規模⾔語モデル Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 9 2022年からChatGPTをはじめとした⼤規模⾔語モデルを使った応⽤例が急増している。 OpenAIからGPT-3, GPT-4などの技術が公開されており、様々な団体による研究開発がより活発になっている。 CVでもCLIPをはじめとした技術の発展により⽣成モデルなどのテキストとの応⽤例が増えているのでLLMがどの程度影響しそうか気になった。

1-2. CVPRとLLM Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 10 CVPR2023論⽂のタイトルに「Prompt」がどの程度含まれているか調べると47/2359 →やはりCVにもLLMの波がきつつある・・・︖ 本⽇はCV+LLMを利⽤した論⽂を読んでみます。

1-3. 今回の論⽂のポイント Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 11 Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering 論⽂のポイント • VQAの問題で使えるProphetと呼ばれるフレームワークを提案し、既存のOK-VQA／A-OKVQAのデータセットでSoTAを達成した。個⼈的に⾯⽩いと思ったポイント • LLM（GPT-3）と既存のVQAの組み合わせでSoTAを達成した。 • 候補数やアンサンブルなどのパラメータに関してもAblation Study がされており、どの取り組みが効果があったのかわかる。

1-4. Visual Question Answeringとは Copyright © Acroquest Technology Co., Ltd.
All rights reserved. 12 1．画像と質問を与えたときに答えを導き出す問題 2．通称VQAと呼ばれ、背景知識がないと回答できない KnowledgeベースのVQAをK-VQA（Knowledge Aware）として呼ばれる。映っているのは教会だが、教会がいつ開いているのかを⼀般的に知らないと回答できない。

2. 関連研究

Copyright © Acroquest Technology Co., Ltd. All rights reserved. 14
2. 関連研究①︓Deep Modular Co-Attention Networks for Visual Question Answering（CVPR2019）画像とNLPの特徴量を組み合わせるDeep Co-Attention Learningにより、VQAの従来⼿法よりも精度を向上させた。

2. 関連研究②︓Transform-Retrieve-Generate: Natural Language-Centric Outside-Knowledge Visual Question Answering（CVPR2022） Copyright ©
Acroquest Technology Co., Ltd. All rights reserved. 15 画像をテキスト空間に様々な⽅式（画像説明, Tagging, OCR）でマッピングし、コンテキスト検索＋⽣成モデルで回答を⽣成する。

2. 関連研究③︓Flamingo: a Visual Language Model for Few-Shot Learning（NeurIPS2022） Copyright
© Acroquest Technology Co., Ltd. All rights reserved. 16 Flamingo特有のアーキテクチャと膨⼤なデータの学習により、⼀般的な基盤モデルを作成した。そのうえでFew Shotのデータをプロンプトに与え、⼤きく精度を向上させた。

2. 関連研究④︓An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA（AAAI2022）
Copyright © Acroquest Technology Co., Ltd. All rights reserved. 17 画像のVQAを解くのにGPT-3を⽤いたVQAのFew-shot Learningを試みた論⽂（⼿法名PICa）。

3. 論⽂⼿法紹介

3-1. 今回の論⽂のポイント（再掲） Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 19 Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering 論⽂のポイント • VQAの問題で使えるProphetと呼ばれるフレームワークを提案し、既存のOK-VQA／A-OKVQAのデータセットでSoTAを達成した。個⼈的に⾯⽩いと思ったポイント • LLM（GPT-3）と既存のVQAの組み合わせでSoTAを達成した。 • 候補数やアンサンブルなどのパラメータに関してもAblation Study がされており、どの取り組みが効果があったのかわかる。

3-2. Prophetの全体像 Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 20 ①Answerに近しいサンプルを獲得する ②複数のサンプルとともに、 GPT-3に⼊⼒する。次の処理をProphet Frameworkとして論⽂で提案した

3-3. Answer Heuristics Generation Copyright © Acroquest Technology Co., Ltd.
All rights reserved. 21 画像とQuestionから出⼒される特徴量間のコサイン類似度を計測し、 TopNを取得する。 VとQと⼊⼒として得られる Backboneの出⼒次のGPT-3に⼊⼒する回答に近しいサンプルを取得する。以下の図 Latent answer space のベクトルがz

3-4. Heuristics-Enhanced Prompting Copyright © Acroquest Technology Co., Ltd. All
rights reserved. 22 推論の戦略として、アンサンブルを実施する。 GPT-3をT回計算し、T個の回答予測が得られ、多数決で決定する。 1回⽬︓helium 2回⽬︓helium 3回⽬︓air helium プロンプトに回答候補として、以下の内容を含めGPT-3にアクセスする。プロンプトを作成して回答を得る特に答えの候補に対する確率（y）を⼊⼒するのがポイント

4. 実験

4-1. 実験 Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 25 1．OK-VQA、A-OKVQAの2種類のデータセットで実験をしている。 2．QK-VQA、A-OKVQAともに知識ベースでの回答が必要なVQA の問題で、A-OKVQAのほうが後発のもの。 3．OK-VQAを⽤いて、⼿法に関するAblation Studyを実施した。

4-4. Ablation Study（1/2） Copyright © Acroquest Technology Co., Ltd. All
rights reserved. 29 回答候補数 VQAのモデルの差分 VQAのモデルの差分同じVQAバックエンド（ViLBERT）で⽐較し、今回のスキーマ（Prompt）の有⽤性を⽰した。 CLIPモデルが最も良い。回答候補の数が多いほど精度向上に貢献する。

4-5. 実験のまとめ Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 31 No. 項⽬説明 1 Retrieval vs Prompt Promptによる⽣成⼿法のほうが望ましい。 2 VQAモデル VQAのモデル精度が良ければ、本⼿法の精度も伸びる 3 回答候補回答候補の数が多ければ、精度向上する。 4 サンプル取得⽅法 Hitrateが⾼い＝最終的なQAの回答の精度も⾼い。 5 サンプル数プロンプトに⼊れるQAの数が多ければ精度が上がる 6 アンサンブル複数回のプロンプトを実⾏し、Votingすると精度が向上する。 7 影響のある⼿法の項⽬回答候補に対するConfidenceの表⽰が最も影響度が⾼い。

5. まとめ

5-1. 論⽂のまとめ Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 33 1. Prophetと呼ばれるVQAで利⽤できるフレームワークを提唱した。内部でもGPT-3を利⽤しており、SoTAを達成した。 2. Promptの内容に従来⼿法からの⼯夫があり、精度向上に貢献している。 3. また、計算も単⼀のGPUであり、数回のGPT-3の呼び出しのみで完了し、限られたリソースでも動作する。

Prompting Large Language Models with Answer Heu...

Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering

More Decks by tereka114

Other Decks in Technology

Featured

Transcript