Slide 16
Slide 16 text
5. テキスト×画像
15
⚫ 紹介するアプリケーションは以下の通り
No アプリケーション 説明
1 Generation and Editing テキスト/画像内容に基づき、生成/編集する
2 Recognition and Description 画像中の物体を認識し、画像の説明文を出力する
3 Localization 画像中の物体を認識し、その物体の位置情報を出力する
4 OCR and Reasoning 画像内のテキストを認識し、そのテキストを出力する
参考文献:From GPT-4 to Gemini and Beyond: Assessing the Landscape of MLLMs on
Generalizability, Trustworthiness, and Causality through Four Modalities