Slide 12
Slide 12 text
• 画像、スキーマ、指⽰をプロンプトとして⼊⼒
• 出⼒はJSON形式(テキスト)
• base64形式で表現されたマスク画像が含まれる
LLMでセグメンテーションができるってどういうこと?
理想に向けたアプローチ
12
{
"box_2d": [
269,
617,
364,
706
],
"mask":
"data:image/png;base64,iVBORw0KGg
oAAAANSUhEUgAAAQAAAAEACAAAAAB5Gfe
6AAACJElEQVR42u3dy4rCUBAA0fr/n+55
gOBChpkh3tykqlbupI+dGExA(中略)
tgB9ALgFwAu0AAyAmwC4CcALsAdgGQE2A
XADcByAVAToBcgGUlYJ9/UwKQEyAXYH16
gK0MQC4AbgJOzT7/+QbgFmCf9ADrCT7fk
f0yfvJLDbhMzqkPY9jz+H4Dj2TQVX0AVF
ZF7nAt7CcAAAAASUVORK5CYII=",
"label": "metal small items"
}