SUMO.ai #01で利用
https://sumo-ai.connpass.com/event/356533/
Vision and Languageはコンピュータビジョン分野と自然言語処理分野の融合分野です。
深層学習、特にTransformerベースのアーキテクチャの確立によって、マルチモーダルな生成AIの主流の一つとして現在まで非常に多くの研究が進められています。更に昨今では、Vision-Language-Actionモデルを中心としたEmbodied AIがロボットなどに搭載されたり、そうしたAIによって研究開発そのものをターゲットとしたAI for Scienceの試みが広がったりと、自律社会への端緒が開けつつある状況です。本講演では、こうしたVision and Languageの流れから最近の研究まで、講演者の研究事例を交えつつ概観しています。