Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering

Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering

第59回 コンピュータビジョン勉強会@関東(前編)
https://kantocv.connpass.com/event/288899/

Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering

tereka114

July 23, 2023
Tweet

More Decks by tereka114

Other Decks in Technology

Transcript

  1. 1 Copyright © Acroquest Technology Co., Ltd. All rights reserved.

    Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering 2023/7/23 Acroquest Technology株式会社 ⼭本 ⼤輝
  2. ⼭本 ⼤輝 (@tereka114) 1. Acroquest Technology株式会社 ① 画像処理・⾃然⾔語処理の研究開発 2. のんびりしているエンジニアの⽇記

    http://nonbiri-tereka.hatenablog.com/ 3. Kaggle Competitions Grandmaster ① 1st and Feature – Player Contact Detection 9th ② Happywhale – Whale and Dolphin Identification 11th ③ Google Universal Image Embedding 12th 4. CQ出版 Interface ML/AI関連記事を 複数寄稿 Kaggle Grandmaster
  3. Acroquestの事業内容 Copyright © Acroquest Technology Co., Ltd. All rights reserved.

    3 IoT⾰新事業 ⼈々の⽣活基盤を 変⾰する事業 あらゆるモノからリアルタイムな データ分析を実現する 顧客価値創造事業 企業のビジネスを 変⾰する事業 あらゆるデータをビジネス活⽤し 新たな価値創造を実現する AIソリューション事業 業務のありかたを 変⾰する事業 あらゆる産業で映像解析によって ⾃動化・効率化を実現する プラットフォーム 開発事業 ビジネスを 加速させる 開発事業 マイクロサービスアーキテクチャによる開発や DevOps実践などの活動を通して ビジネスを強化するITシステムの構築を⾏う
  4. 機械学習分野における豊富な経験 Copyright © Acroquest Technology Co., Ltd. All rights reserved.

    4 Acroquest社内で発⾜した データサイエンスチームYAMALEX プロジェクトの⾼度な 問題解決に取り組んでいます。 AWS Machine Learning コンピテンシーの パートナーとして 認定されています。 様々な分野・規模での、AI/MLを活⽤した開発・導⼊実績があります <⼩売> <農業> <製造業> AI/ML分野での実⼒を、 対外的にも認められています 多種多様な課題をAIで解決する データサイエンティストチーム
  5. 組織の取り組みが書籍として出版されています Copyright © Acroquest Technology Co., Ltd. All rights reserved.

    6 会社を元気にする 「いきいき実践勉強会」 を開催し、多くの経営者様に ご参加いただいております。
  6. ⽬次 Copyright © Acroquest Technology Co., Ltd. All rights reserved.

    7 1. 本⽇の論⽂ 2. 関連研究 3. 論⽂⼿法紹介 4. 実験 5. まとめ
  7. 1-1. ⼤規模⾔語モデル Copyright © Acroquest Technology Co., Ltd. All rights

    reserved. 9 2022年からChatGPTをはじめとした⼤規模⾔語モデルを使った 応⽤例が急増している。 OpenAIからGPT-3, GPT-4などの技術が公開されており、 様々な団体による研究開発がより活発になっている。 CVでもCLIPをはじめとした技術の発展により⽣成モデルなどの テキストとの応⽤例が増えているのでLLMがどの程度影響しそうか 気になった。
  8. 1-2. CVPRとLLM Copyright © Acroquest Technology Co., Ltd. All rights

    reserved. 10 CVPR2023論⽂のタイトルに「Prompt」がどの程度 含まれているか調べると47/2359 →やはりCVにもLLMの波がきつつある・・・︖ 本⽇はCV+LLMを利⽤した 論⽂を読んでみます。
  9. 1-3. 今回の論⽂のポイント Copyright © Acroquest Technology Co., Ltd. All rights

    reserved. 11 Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering 論⽂の ポイント • VQAの問題で使えるProphetと呼 ばれるフレームワークを提案し、 既存のOK-VQA/A-OKVQAのデー タセットでSoTAを達成した。 個⼈的に ⾯⽩いと思った ポイント • LLM(GPT-3)と既存のVQAの組 み合わせでSoTAを達成した。 • 候補数やアンサンブルなどのパラ メータに関してもAblation Study がされており、どの取り組みが効 果があったのかわかる。
  10. 1-4. Visual Question Answeringとは Copyright © Acroquest Technology Co., Ltd.

    All rights reserved. 12 1.画像と質問を与えたときに答えを導き出す問題 2.通称VQAと呼ばれ、背景知識がないと回答できない KnowledgeベースのVQAをK-VQA(Knowledge Aware)として呼ばれる。 映っているのは教会だが、教会がいつ開いて いるのかを⼀般的に知らないと回答できない。
  11. Copyright © Acroquest Technology Co., Ltd. All rights reserved. 14

    2. 関連研究①︓Deep Modular Co-Attention Networks for Visual Question Answering(CVPR2019) 画像とNLPの特徴量を組み合わせるDeep Co-Attention Learningに より、VQAの従来⼿法よりも精度を向上させた。
  12. 2. 関連研究②︓Transform-Retrieve-Generate: Natural Language-Centric Outside-Knowledge Visual Question Answering(CVPR2022) Copyright ©

    Acroquest Technology Co., Ltd. All rights reserved. 15 画像をテキスト空間に様々な⽅式(画像説明, Tagging, OCR)でマッピング し、コンテキスト検索+⽣成モデルで回答を⽣成する。
  13. 2. 関連研究③︓Flamingo: a Visual Language Model for Few-Shot Learning(NeurIPS2022) Copyright

    © Acroquest Technology Co., Ltd. All rights reserved. 16 Flamingo特有のアーキテクチャと膨⼤なデータの学習により、⼀般的な基盤モデルを作 成した。そのうえでFew Shotのデータをプロンプトに与え、⼤きく精度を向上させた。
  14. 2. 関連研究④︓An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA(AAAI2022)

    Copyright © Acroquest Technology Co., Ltd. All rights reserved. 17 画像のVQAを解くのにGPT-3を⽤いたVQAのFew-shot Learningを試みた論⽂(⼿法名PICa)。
  15. 3-1. 今回の論⽂のポイント(再掲) Copyright © Acroquest Technology Co., Ltd. All rights

    reserved. 19 Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering 論⽂の ポイント • VQAの問題で使えるProphetと呼 ばれるフレームワークを提案し、 既存のOK-VQA/A-OKVQAのデー タセットでSoTAを達成した。 個⼈的に ⾯⽩いと思った ポイント • LLM(GPT-3)と既存のVQAの組 み合わせでSoTAを達成した。 • 候補数やアンサンブルなどのパラ メータに関してもAblation Study がされており、どの取り組みが効 果があったのかわかる。
  16. 3-2. Prophetの全体像 Copyright © Acroquest Technology Co., Ltd. All rights

    reserved. 20 ①Answerに近しい サンプルを獲得する ②複数のサンプルとともに、 GPT-3に⼊⼒する。 次の処理をProphet Frameworkとして論⽂で提案した
  17. 3-3. Answer Heuristics Generation Copyright © Acroquest Technology Co., Ltd.

    All rights reserved. 21 画像とQuestionから出⼒される特徴量間のコサイン類似度を計測し、 TopNを取得する。 VとQと⼊⼒として得られる Backboneの出⼒ 次のGPT-3に⼊⼒する回答に近しいサンプルを取得する。 以下の図 Latent answer space のベクトルがz
  18. 3-4. Heuristics-Enhanced Prompting Copyright © Acroquest Technology Co., Ltd. All

    rights reserved. 22 推論の戦略として、アンサンブルを実施する。 GPT-3をT回計算し、T個の回答予測が得られ、多数決で決定する。 1回⽬︓helium 2回⽬︓helium 3回⽬︓air helium プロンプトに回答候補として、以下の内容を含めGPT-3にアクセスする。 プロンプトを作成して回答を得る 特に答えの候補に対する確率(y)を ⼊⼒するのがポイント
  19. Copyright © Acroquest Technology Co., Ltd. All rights reserved. 23

    ⾃由回答プロンプト例 選択回答プロンプト例 3-5. Heuristics-Enhanced Promptingのプロンプト例
  20. 4-1. 実験 Copyright © Acroquest Technology Co., Ltd. All rights

    reserved. 25 1.OK-VQA、A-OKVQAの2種類のデータセットで実験をしている。 2.QK-VQA、A-OKVQAともに知識ベースでの回答が必要なVQA の問題で、A-OKVQAのほうが後発のもの。 3.OK-VQAを⽤いて、⼿法に関するAblation Studyを実施した。
  21. 4-2. データセット(OK-VQA) Copyright © Acroquest Technology Co., Ltd. All rights

    reserved. 26 従来までのデータセットでは、背景知識が必要ないVQAだったが、 本VQAでは背景知識ありでないと回答できないものが含まれる。
  22. 4-2. データセット(A-OKVQA) Copyright © Acroquest Technology Co., Ltd. All rights

    reserved. 27 OK-VQAの質問の後継、⼀般常識や視覚情報など様々な外部情報を含んだ QAを⾏う。OK-VQAよりも更に多く25000ほどのQAがある。 また、複数の候補から選択するMCと⾃由回答のDirect Answersがある。
  23. 4-3.精度 Copyright © Acroquest Technology Co., Ltd. All rights reserved.

    28 OK-VQA A-OKVQA 過去⼿法と⽐較して、最も精度が⾼い(SoTA)
  24. 4-4. Ablation Study(1/2) Copyright © Acroquest Technology Co., Ltd. All

    rights reserved. 29 回答候補数 VQAのモデルの差分 VQAのモデルの差分 同じVQAバックエンド(ViLBERT)で⽐較し、 今回のスキーマ(Prompt)の有⽤性を⽰した。 CLIPモデルが最も良い。 回答候補の数が多いほど 精度向上に貢献する。
  25. 4-4. Ablation Study (2/2) Copyright © Acroquest Technology Co., Ltd.

    All rights reserved. 30 サンプル取得の⽅法 プロンプトの内容差分 サンプル数とプロンプトの回数 複数個の候補⼊⼒が有効である。 全ての要素が有効だが、特に 回答候補の確信度の影響は⾼い。 Hit Rateが⾼いほど精度が良い。
  26. 4-5. 実験のまとめ Copyright © Acroquest Technology Co., Ltd. All rights

    reserved. 31 No. 項⽬ 説明 1 Retrieval vs Prompt Promptによる⽣成⼿法のほうが望ましい。 2 VQAモデル VQAのモデル精度が良ければ、本⼿法の精度も伸びる 3 回答候補 回答候補の数が多ければ、精度向上する。 4 サンプル取得⽅法 Hitrateが⾼い=最終的なQAの回答の精度も⾼い。 5 サンプル数 プロンプトに⼊れるQAの数が多ければ精度が上がる 6 アンサンブル 複数回のプロンプトを実⾏し、Votingすると精度が向上する。 7 影響のある⼿法の項⽬ 回答候補に対するConfidenceの表⽰が最も影響度が⾼い。
  27. 5-1. 論⽂のまとめ Copyright © Acroquest Technology Co., Ltd. All rights

    reserved. 33 1. Prophetと呼ばれるVQAで利⽤できるフレームワークを提唱した。 内部でもGPT-3を利⽤しており、SoTAを達成した。 2. Promptの内容に従来⼿法からの⼯夫があり、精度向上に貢献して いる。 3. また、計算も単⼀のGPUであり、数回のGPT-3の呼び出しのみで 完了し、限られたリソースでも動作する。
  28. 5-2. 感想 Copyright © Acroquest Technology Co., Ltd. All rights

    reserved. 34 1. GPT-3に限らず様々なモデル(例︓GPT-4)でも利⽤できるので LLMの違いによる精度は気になるポイント。 2. LLMの活⽤によりVQAのSoTA更新が達成できているので、 CV+LLMでの活⽤は今後、更に発表されることが予想される。