• 右の画像で、Question: which city is this? Answer:というプ ロンプトに対してa car driving down a highway with a factory in the backgroundと出力される! • 一方で細かな物体検出は苦手であり、Question: are there traffic lights in this photo? Answer:という プロンプトに対してyesと出力される… • 画像全体の情報をテキストにする!
• GRiT[Wu et al. 2022]はDense Captioningにおける高精度なモデル • 画像の細かな領域の情報をテキストにする! • 前方のバイクに対して → a person riding a motorcycle • 前方の奥の対向車に対して → white car on the road • 空に対して → a cloudy gray sky • 左の標識に対して → a white sing on the side of the road など GRiTより一部改変[Wu et al. 2022]
ahead. It is turning right and intruding into the oncoming lane. The traffic light is red. Please decelerate. What is the vehicle ahead? Where is it headed? What color is the traffic light? Should I accelerate? Should I decelerate? • 現在は動画から文章を生成するVideo2TextのモデルもHeronで開発中!