Slide 14
Slide 14 text
手法: 学習戦略(教師ありファインチューニング)
14
ユーザの指示に対応した回答を出力するように学習
学習データ例
既存の建物抽出データセットをVQA形式に再構成し使用
建物の左上隅を始点とし、時計回りに点を並べるように回答
を生成するように学習
“Input: [image]¥nPlease extract the regular
vector contour of the central building in the
image, start from the left top corner and in
clockwise.
Output:
[x85][y32][x160][y63][x135][y122][x176][y139]
[x154][y191][x103][y169][x111][y150][x46][y124]
[x85][y32].”
損失関数
next-token-prediction loss
Tao Zhang et al. “VectorLLM: Human-like Extraction of Structured Building Contours via Multimodal LLMs,” arXiv preprint, 2025. より引用