17
4FMG"UUFOUJPOϕʔεͷ -7-.ͷֶश
1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法
ຒΊࠐΈ࣍ݩͷΈૢ࡞
ը૾ύονʹมԽͳ͠
ը૾ύον࣍ݩͷૢ࡞
ຒΊࠐΈ࣍ݩʹมԽͳ͠
ը૾τʔΫϯͷຒΊࠐΈ
User:
![]()
What do you see
in this image?
Assistant:
ը૾Τϯίʔμ
Ξμϓλʔ
--.
ŋŋŋ
ŋŋŋ
ŋŋŋ
ը૾ύον
࠾༻͢Δը૾ΤϯίʔμʹΑΔ͕
جຊతʹݻఆͷը૾ύονΛग़ྗ
.-1
1FSDFJWFS3FTBNQMFS 1JYFM4IVGGMF
લॲཧ "QQMZDIBUUFNQMBUF
ŋŋŋ
User:
![]()
…
![]()
What do
you see in this image?
Assistant:
User :
![]()
ŋŋŋ
ŋŋŋ
▁User :
![]()
ŋŋŋ
JNBHFͷຒΊࠐΈʹɺ
ࠨͷͷΛར༻͢Δ
τʔΫϯຒΊࠐΈΛ࡞
:
:
-.)&"%
▁A
What
What
Assistant
Assistant
•͘࠾༻͞Ε͍ͯΔֶशઓུ
◦ 4UBHF
ࣄલֶशஈ֊ ը૾ςΩετؒΞϥΠϝϯτ֫ಘ
USBJOBCMF\Ξμϓλʔ^
GSP[FO\ը૾Τϯίʔμ
--.^Ͱֶश
-ֶश TUFQͷ૿ՃͱͱʹऔΓѻ͏ը૾ղ૾Λঃʑʹ্͍͛ͯ͘ઓུ͕༗ޮɻ
ߴղ૾ը૾Λѻ͏ֶशஈ֊Λ৽ͨʹઃ͚͍ͯΔࣄྫ͋Δ <-BVSFOÇPO`>
<;IBOH`>
-ը૾Τϯίʔμ͕ൺֱతऑ͍߹ʢྫ7J5-ʣɺࣄલֶशσʔληοτ͕े
ʹଟ༷ͳ߹ʹɺΞμϓλʔͱը૾ΤϯίʔμΛڞಉͰֶश͢Δઓུ͕༗ޮ <%BJ`>
-7-.ʹؔ͢Δ࠷৽ݟ·ͱΊ
˞࣌Ͱɺ 4UBHF
ΛϑϧύϥϝʔλͰֶशͤ͞Δࣄྫෳ؍ଌ͞Ε͍ͯ·͢ɻ