©Rist Inc. 05
コンペ概要 - 詳細
VQA
● 1Descriptionにつき、4つのQAが用意される
○ それぞれのAnswerは2択、もしくは4択
● スコアの計算方法
○ 各選択肢は先頭にA, B, C, Dのアルファベットが振られ、PaliGemma2の出
力の先頭が正答アルファベットのトークンとなる確率がVQAスコアとなる
○ 確率は、先頭の全選択肢分のアルファベットのlogitを集め、それらの
softmaxをとることで計算
○ プロンプト: "
![]()
answer en Question: {question}\nChoices:\n"
提出時、擬似的にスコア(本資料では以下、擬似スコア)を計算できる
● 評価モデルとそのコードが公開されているので、提出時に生成したSVGを自分た
ちである程度評価することが可能。
● AES, OCR は、ほとんど実際のスコアと同じものを計算できる。
○ ImageProcessのランダム性により、わずかな差は存在する。
● VQAのみ実際のスコアが出せない
○ PaliGemma2に渡される実際のQAがわからないため。
kaggle提供データのQAの例
(画像は参考に生成したもの)
A purple forest at dusk