Slide 13
Slide 13 text
©️Acompany Co.,Ltd. 13
Text-centric Multimodal Learning
マルチモーダルAIの微調整には画像・動画・音声等の訓練データが必要 → 収集コスト高い
Q. テキストだけで訓練データを用意することはできないか?
Yamabe, Waseda, Shiono, Takahashi. Text-Printed Image: Bridging the Image-Text Modality Gap
for Text-centric Training of Large Vision-Language Models https://arxiv.org/abs/2512.03463