Large Vision Language Model (LVLM) に関する最新知見まとめ (Part 1)

Ԙ໺େً %BJLJ4IJPOP (SBEVBUF4DIPPMPG*OGPSNBUJPO4DJFODFT 5PIPLV6OJWFSTJUZ ˞ຊࢿྉͰ঺հ͢Δ஌ݟ͸ ࣌఺Ͱͷ৘ใʹج͍͍ͮͯ·͢ 1BSU ΞʔΩςΫνϟ
ͱ ը૾ͷΤϯίʔυํ๏

2 ࣗݾ঺հ •໊લԘ໺େً %BJLJ4IJPOP •ॴଐ ◦౦๺େֶླ໦ ५ ݚڀࣨ 5PIPLV/-1 ◦Πϯλʔϯ
!5VSJOH ੜ੒ "*νʔϜ •ݚڀ෼໺7JTJPO-BOHVBHF 7- -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ 1PSUPGPMJP

3 7JTJPO-BOHVBHF 7- ͱ͸ 導⼊ •ίϯϐϡʔλϏδϣϯ $7 ͱ ࣗવݴޠॲཧ /-1
ͷ༥߹෼໺ ◦ $7 /-1෼໺Ͱͷ 5SBOTGPSNFST<7BTXBOJ b> ͷ੒ޭ͕ɺ7-෼໺ʹ΋೾ٴ͠ٸ଎ʹൃల Describe the image with a sentence consisting of Three/Six/Nine words. Three: Seaside dining table Six: Dining table overlooking ocean with beer Nine: Outdoor restaurant table with ocean view and a beer (157 ʹΑΔը૾ʹؔ͢ΔςΩετੜ੒ [Yang+, ʼ23] -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ

4 େن໛ࢹ֮ݴޠϞσϧ -7-. ͷ؆୯ͳઆ໌ 導⼊ •ը૾ͱςΩετΛೖྗͱͯ͠ɺςΩετΛग़ྗ͢ΔϞσϧ Ҏ߱ɺ-7-. ͱݺͿ ◦ ࣄલʹֶश͞Εͨʮը૾Τϯίʔμʯͱʮେن໛ݴޠϞσϧ
--. ʯ Λ૊Έ߹Θͤͯը૾ςΩετσʔλΛ࢖༻ͯ͠௥Ճֶश͢Δ͜ͱͰ -7-. Λߏங͢Δ <image> Describe the image with a sentence consisting of three/six/nine words. Three: Seaside dining table Six: Dining table overlooking ocean with beer Nine: Outdoor restaurant table with ocean view and a beer ը૾ Τϯίʔμʔ େن໛ݴޠϞσϧ --. -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ

5 େن໛ࢹ֮ݴޠϞσϧ -7-. ߏங࣌ͷબ୒ࢶ͸ແ਺ʹଘࡏ͢Δ 導⼊ •ը૾ͱςΩετΛೖྗͱͯ͠ɺςΩετΛग़ྗ͢ΔϞσϧ Ҏ߱ɺ-7-. ͱݺͿ ◦ ࣄલʹֶश͞Εͨʮը૾Τϯίʔμʯͱʮେن໛ݴޠϞσϧ
--. ʯ Λ૊Έ߹Θͤͯը૾ςΩετσʔλΛ࢖༻ͯ͠௥Ճֶश͢Δ͜ͱͰ -7-. Λߏங͢Δ <image> Describe the image with a sentence consisting of three/six/nine words. Three: Seaside dining table Six: Dining table overlooking ocean with beer Nine: Outdoor restaurant table with ocean view and a beer ը૾ Τϯίʔμʔ େن໛ݴޠϞσϧ --. ͔͠͠ɺ-7-.ߏங࣌ͷબ୒ࢶ ΞʔΩςΫνϟ ࢖༻͢Δֶश σʔλͷछྨ -7-.ͷֶश࣌ͷ ϋΠύϥ ͳͲ ͸ແ਺ʹଘࡏ͠ɺ ͲͷΞϓϩʔν͕༏Ε͍ͯΔͷ͔ ෼໺ͱͯ͠ͷಉҙ͸ಘΒΕ͍ͯͳ͍ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ

6 େن໛ࢹ֮ݴޠϞσϧ -7-. ߏங࣌ͷબ୒ࢶ͸ແ਺ʹଘࡏ͢Δ 導⼊ •ը૾ͱςΩετΛೖྗͱͯ͠ɺςΩετΛग़ྗ͢ΔϞσϧ Ҏ߱ɺ-7-. ͱݺͿ ◦ ࣄલʹֶश͞Εͨʮը૾Τϯίʔμʯͱʮେن໛ݴޠϞσϧ
--. ʯ Λ૊Έ߹Θͤͯը૾ςΩετσʔλΛ࢖༻ͯ͠௥Ճֶश͢Δ͜ͱͰ -7-. Λߏங͢Δ <image> Describe the image with a sentence consisting of three/six/nine words. Three: Seaside dining table Six: Dining table overlooking ocean with beer Nine: Outdoor restaurant table with ocean view and a beer ը૾ Τϯίʔμʔ େن໛ݴޠϞσϧ --. ͔͠͠ɺ-7-.ߏங࣌ͷબ୒ࢶ ΞʔΩςΫνϟ ࢖༻͢Δֶश σʔλͷछྨ -7-.ͷֶश࣌ͷ ϋΠύϥ ͳͲ ͸ແ਺ʹଘࡏ͠ɺ ͲͷΞϓϩʔν͕༏Ε͍ͯΔͷ͔ ෼໺ͱͯ͠ͷಉҙ͸ಘΒΕ͍ͯͳ͍ ઌߦݚڀͰߦΘΕ͖ͯͨ ΞϓϩʔνΛෳ਺঺հ͢Δ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ

7 ঺հ͢ΔઌߦݚڀΞϓϩʔνͷ෼ྨ ⽬次 •ຊεϥΠυͰ͸ɺઌߦݚڀͷΞϓϩʔνΛ ͭʹେผͯ͠঺հ͢Δ ◦ʮը૾Τϯίʔμʯͱʮେن໛ݴޠϞσϧ --. ʯͷ઀ଓํ๏ -4FMG"UUFOUJPOWT$SPTT"UUFOUJPO ◦ը૾ͷΤϯίʔυํ๏
- طଘͷը૾ΤϯίʔμΛ࢖༻ͨ͠ ߴղ૾౓ը૾ͷѻ͍ -ߴղ૾౓ը૾Λ /BUJWFʹѻ͏͜ͱͷͰ͖Δը૾Τϯίʔμͷ࢖༻ ◦ֶशσʔλ ˡ 1BSUͰѻ͏༧ఆͰ͢ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ

9 4FMG"UUFOUJPOWT$SPTT"UUFOUJPO 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 •'SP[FO <5TJNQPVLFMMJ `>΍ 'MBNJOHP <"MBZSBD
`>Ͱಋೖ͞ΕͯҎདྷɺ ΄ͱΜͲશͯͷ -7-.͸ʢશͯͷύϥϝʔλΛθϩ͔Βֶशͤ͞ΔͷͰ͸ͳ͘ʣ ࣄલֶश͞Εͨը૾Τϯίʔμͱ --.Λ૊Έ߹Θͤͯ௥Ճֶश͍ͯ͠Δ ◦ ࣄલֶशࡁΈͷ֤όοΫϘʔϯͷੑೳ͕ɺ݁Ռͱͯ͠ಘΒΕΔ -7-.ͷੑೳʹ ڧؔ͘࿈͍ͯ͠Δ͜ͱ͕ෳ਺ͷ࿦จͰࣔ͞Ε͍ͯΔ <-J `> <.D,JO[JF `> <-BVSFOÇPO `> <> <> ˛ όοΫϘʔϯͷมߋʹΑΔ -7-.ͷੑೳൺֱ ˞"WHTDPSF͸ 72"W 0,72" 5FYU72" $0$0ͷ #FODINBSLͷείΞฏۉ஋ ˞ 8IBUNBUUFSTXIFOCVJMEJOHWJTJPOMBOHVBHFNPEFMT <-BVSFOÇPO `> <>5BCMF <>5BCMF -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ ◦ ࣄલֶशࡁΈͷ --.ͷੑೳ͸ը૾ΤϯίʔμͷੑೳΑΓ΋ޮՌత <-J `> ◦ ը૾Τϯίʔμ͸ɺϞσϧαΠζΑΓߏ੒ ೖྗղ૾౓ ग़ྗը૾τʔΫϯ਺ ͕ॏཁ <-J `>

10 4FMG"UUFOUJPOWT$SPTT"UUFOUJPO 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 •ࣄલֶश͞Εͨը૾Τϯίʔμͱ --.͸ɺ ◦4FMG"UUFOUJPOΞʔΩςΫνϟ PS ◦$SPTT"UUFOUJPOΞʔΩςΫνϟ
Ͱ࿈݁͞ΕΔ͜ͱ͕ଟ͍ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ

11 4FMG"UUFOUJPOΞʔΩςΫνϟϕʔεͷ -7-. 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 •--.ͷ 4FMG"UUFOUJPO ૚಺Ͱը૾τʔΫϯΛ ॲཧ͢Δػߏ
ຒΊࠐΈ࣍ݩ਺ͷΈૢ࡞ ը૾ύον਺ʹมԽͳ͠ ը૾ύον਺࣍ݩͷૢ࡞ ຒΊࠐΈ࣍ݩ਺ʹมԽͳ͠ ը૾τʔΫϯͷຒΊࠐΈ User:<image>What do you see in this image?<eot> Assistant: ը૾Τϯίʔμ Ξμϓλʔ --. <s> ŋŋŋ ŋŋŋ ŋŋŋ ը૾ύον ࠾༻͢Δը૾Τϯίʔμʹ΋ΑΔ͕ جຊతʹݻఆ௕ͷը૾ύονΛग़ྗ .-1૚ 1FSDFJWFS3FTBNQMFS 1JYFM4IVGGMF લॲཧ "QQMZDIBUUFNQMBUF ŋŋŋ <s> User:<image>…<image>What do you see in this image?<eot> Assistant: User : <image> <image> ŋŋŋ <s> ŋŋŋ ▁User : <image> <image> ŋŋŋ JNBHFͷຒΊࠐΈʹ͸ɺ ࠨͷ΋ͷΛར༻͢Δ τʔΫϯຒΊࠐΈΛ࡞੒ : : -.)&"% ▁A What What Assistant Assistant -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ

12 4FMG"UUFOUJPOΞʔΩςΫνϟͷಛ௃ 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 •ෳࡶͳ࣮૷ͳ͠Ͱෳ਺ͷϞμϦςΟΛ౷ҰతʹॲཧͰ͖Δ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ

13 4FMG"UUFOUJPOΞʔΩςΫνϟͷಛ௃ 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 •ෳࡶͳ࣮૷ͳ͠Ͱෳ਺ͷϞμϦςΟΛ౷ҰతʹॲཧͰ͖Δ •Ξμϓλʔ෦෼ʹ޻෉Λࢪ͢͜ͱͰɺը૾τʔΫϯΛ୹ॖͰ͖Δ ◦--.ͷݶΒΕͨೖྗܥྻ௕Λઅ໿͢Δࣄ͕Ͱ͖Δ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ Ξμϓλʔ
ŋŋŋ .-1૚ 1FSDFJWFS3FTBNQMFS 1JYFM4IVGGMF ŋŋŋ

14 4FMG"UUFOUJPOΞʔΩςΫνϟͷಛ௃ 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 •ෳࡶͳ࣮૷ͳ͠Ͱෳ਺ͷϞμϦςΟΛ౷ҰతʹॲཧͰ͖Δ •Ξμϓλʔ෦෼ʹ޻෉Λࢪ͢͜ͱͰɺը૾τʔΫϯΛ୹ॖͰ͖Δ ◦--.ͷݶΒΕͨೖྗܥྻ௕Λઅ໿͢Δࣄ͕Ͱ͖Δ ◦Ξμϓλʔ෦෼ͷ޻෉ʹ͸ɺҎԼͷ୅දతͳબ୒ࢶ͕͋Δ -.-1
.VMUJMBZFS1FSDFQUSPO ૚͚ͩΛ࢖༻͢Δ ✗ ը૾τʔΫϯ୹ॖ -ྫ --B7" <-JV b> .PMNP <%FJULF b> -.-1૚ 1FSDFJWFS3FTBNQMFS Λ࢖༻͢Δ ̋ ը૾τʔΫϯ୹ॖ -ྫ *EFGJDT <-BVSFOÇPO `> Y(FO.. #-*1 <9VF `> -.-1૚ 1JYFM4IVGGMF Λ࢖༻͢Δ ̋ ը૾τʔΫϯ୹ॖ -ྫ *OUFSO7- <$IFO `> *EFGJDT <-BVSFOÇPO `> /7-.% <%BJ `> Ξμϓλʔ ŋŋŋ .-1૚ 1FSDFJWFS3FTBNQMFS 1JYFM4IVGGMF ŋŋŋ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ

15 Ξμϓλʔͷ޻෉ ᶃ1FSDFJWFS3FTBNQMFS <+BFHMF `> ͱ͸ʁ 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 ◦1FSDFJWFS3FTBNQMFS
Ͱ͸ɺજࡏม਺Λߋ৽͍ͯ͘͜͠ͱͰɺ ݩͷը૾τʔΫϯ਺ΑΓ΋গͳ͍৽ͨͳը૾τʔΫϯྻΛ࡞੒Ͱ͖Δ όΠτྻ ೖྗ͞Εͨ ݩͷը૾τʔΫϯ જࡏม਺ྻ ৽͘͠࡞ΒΕΔ ը૾τʔΫϯ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ <> <>1FSDFJWFS(FOFSBM1FSDFQUJPOXJUI*UFSBUJWF"UUFOUJPO<+BFHMF `> 'JHVSF

16 Ξμϓλʔͷ޻෉ ᶄ1JYFM4IVGGMFͱ͸ʁ 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 ◦ 1JYFM4IVGGMFͰ͸ɺͭͷྡ઀͢Δը૾τʔΫϯΛνϟϯωϧ࣍ݩʹԊͬͯ݁߹͢Δ ͨΊɺݩͷը૾τʔΫϯ਺ΑΓ΋গͳ͍৽ͨͳը૾τʔΫϯྻΛ࡞੒Ͱ͖Δ <>
<>*OTQJSFECZ/7-.0QFO'SPOUJFS$MBTT.VMUJNPEBM--.T<%BJ `> 'JHVSF ը૾Τϯίʔμ Ξμϓλʔ ŋŋŋ ŋŋŋ .-1૚ ŋŋŋ ! × !$%& × ' ! × (%×(% × ' 1JYFM4IVGGMF ! × (!*×!*) × &' ! × %,* × &' 'MBUUFO ˣ $PODBU ೖྗ͞Εͨ ݩͷը૾τʔΫϯ਺ ৽͘͠มܗ͞Εͨ ը૾τʔΫϯ਺ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ

17 4FMG"UUFOUJPOϕʔεͷ -7-.ͷֶश 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 ຒΊࠐΈ࣍ݩ਺ͷΈૢ࡞ ը૾ύον਺ʹมԽͳ͠ ը૾ύον਺࣍ݩͷૢ࡞ ຒΊࠐΈ࣍ݩ਺ʹมԽͳ͠
ը૾τʔΫϯͷຒΊࠐΈ User:<image>What do you see in this image?<eot> Assistant: ը૾Τϯίʔμ Ξμϓλʔ --. <s> ŋŋŋ ŋŋŋ ŋŋŋ ը૾ύον ࠾༻͢Δը૾Τϯίʔμʹ΋ΑΔ͕ جຊతʹݻఆ௕ͷը૾ύονΛग़ྗ .-1૚ 1FSDFJWFS3FTBNQMFS 1JYFM4IVGGMF લॲཧ "QQMZDIBUUFNQMBUF ŋŋŋ <s> User:<image>…<image>What do you see in this image?<eot> Assistant: User : <image> <image> ŋŋŋ <s> ŋŋŋ ▁User : <image> <image> ŋŋŋ JNBHFͷຒΊࠐΈʹ͸ɺ ࠨͷ΋ͷΛར༻͢Δ τʔΫϯຒΊࠐΈΛ࡞੒ : : -.)&"% ▁A What What Assistant Assistant •޿͘࠾༻͞Ε͍ͯΔֶशઓུ ◦ 4UBHF ࣄલֶशஈ֊ ը૾ςΩετؒΞϥΠϝϯτ֫ಘ USBJOBCMF\Ξμϓλʔ^ GSP[FO\ը૾Τϯίʔμ --.^Ͱֶश -ֶश TUFQ਺ͷ૿Ճͱͱ΋ʹऔΓѻ͏ը૾ղ૾౓Λঃʑʹ্͍͛ͯ͘ઓུ͕༗ޮɻ ߴղ૾౓ը૾Λѻ͏ֶशஈ֊Λ৽ͨʹઃ͚͍ͯΔࣄྫ΋͋Δ <-BVSFOÇPO `> <;IBOH `> -ը૾Τϯίʔμ͕ൺֱతऑ͍৔߹ʢྫ7J5-ʣ΍ɺࣄલֶशσʔληοτ͕े෼ ʹଟ༷ͳ৔߹ʹ͸ɺΞμϓλʔͱը૾ΤϯίʔμΛڞಉͰֶश͢Δઓུ͕༗ޮ <%BJ `> -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ ˞࣌఺Ͱɺ 4UBHF ΛϑϧύϥϝʔλͰֶशͤ͞Δࣄྫ΋ෳ਺؍ଌ͞Ε͍ͯ·͢ɻ

18 4FMG"UUFOUJPOϕʔεͷ -7-.ͷֶश 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 ຒΊࠐΈ࣍ݩ਺ͷΈૢ࡞ ը૾ύον਺ʹมԽͳ͠ ը૾ύον਺࣍ݩͷૢ࡞ ຒΊࠐΈ࣍ݩ਺ʹมԽͳ͠
ը૾τʔΫϯͷຒΊࠐΈ User:<image>What do you see in this image?<eot> Assistant: ը૾Τϯίʔμ Ξμϓλʔ --. <s> ŋŋŋ ŋŋŋ ŋŋŋ ը૾ύον ࠾༻͢Δը૾Τϯίʔμʹ΋ΑΔ͕ جຊతʹݻఆ௕ͷը૾ύονΛग़ྗ .-1૚ 1FSDFJWFS3FTBNQMFS 1JYFM4IVGGMF લॲཧ "QQMZDIBUUFNQMBUF ŋŋŋ <s> User:<image>…<image>What do you see in this image?<eot> Assistant: User : <image> <image> ŋŋŋ <s> ŋŋŋ ▁User : <image> <image> ŋŋŋ JNBHFͷຒΊࠐΈʹ͸ɺ ࠨͷ΋ͷΛར༻͢Δ τʔΫϯຒΊࠐΈΛ࡞੒ : : -.)&"% ▁A What What Assistant Assistant •޿͘࠾༻͞Ε͍ͯΔֶशઓུ ◦ 4UBHF ࣄલֶशஈ֊ ը૾ςΩετؒΞϥΠϝϯτ֫ಘ USBJOBCMF\Ξμϓλʔ^ GSP[FO\ը૾Τϯίʔμ --.^Ͱֶश -ֶश TUFQ਺ͷ૿Ճͱͱ΋ʹऔΓѻ͏ը૾ղ૾౓Λঃʑʹ্͍͛ͯ͘ઓུ͕༗ޮɻ ߴղ૾౓ը૾Λѻ͏ֶशஈ֊Λ৽ͨʹઃ͚͍ͯΔࣄྫ΋͋Δ <-BVSFOÇPO `> <;IBOH `> -ը૾Τϯίʔμ͕ൺֱతऑ͍৔߹ʢྫ7J5-ʣ΍ɺࣄલֶशσʔληοτ͕े෼ ʹଟ༷ͳ৔߹ʹ͸ɺΞμϓλʔͱը૾ΤϯίʔμΛڞಉͰֶश͢Δઓུ͕༗ޮ <%BJ `> ◦ 4UBHF 4'5ஈ֊ ࢦࣔ௥ैೳྗ޲্ USBJOBCMF\Ξμϓλʔ --.^ GSP[FO\ը૾Τϯίʔμ^Ͱֶश ---.Λݻఆ͠ͳ͍৔߹ɺςΩετ POMZλεΫͷੑೳ͕ྼԽͯ͠͠·͏ ˠ ߴ඼࣭ͷςΩετ POMZ*OTUSVDUJPO5VOJOHσʔλΛ૊ΈࠐΉ͜ͱͰ཈੍ <%BJ `> -ֶश͕ෆ҆ఆʹͳΔ৔߹ --.ʹ -P3" Λద༻͢Δ৔߹΋͋Δ <-BVSFOÇPO `> -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ ˞ ˞࣌఺Ͱɺ 4UBHF ΛϑϧύϥϝʔλͰֶशͤ͞Δࣄྫ΋ෳ਺؍ଌ͞Ε͍ͯ·͢ɻ

19 4FMG"UUFOUJPOϕʔεͷ -7-.ͷֶश஌ࣝ֫ಘ΋໨ࢦ͍ͨ͠৔߹ 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 •--B7" 0OF7JTJPO --B7" /F95
#MPH Ͱ͸஌ࣝ֫ಘஈ֊Λݕ౼ ◦ 4UBHF ࣄલֶशஈ֊ ը૾ςΩετؒΞϥΠϝϯτ֫ಘ USBJOBCMF\Ξμϓλʔ^ GSP[FO\ը૾Τϯίʔμ --.^Ͱֶश ◦ 4UBHF ஌ࣝ֫ಘஈ֊ ৽ͨͳ஌ࣝͷ֫ಘ USBJOBCMF\Ξμϓλʔ --.^ GSP[FO\ը૾Τϯίʔμ^Ͱֶश -ࣄલֶशࡁΈͷ --.΍ ը૾Τϯίʔμ͕طʹଟ͘ͷ஌ࣝΛ༗͍ͯ͠Δ͜ͱΛલఏ ͱ͠ɺߴ඼࣭ͳσʔλͰ஌ࣝΛચ࿅ɾڧԽ͢Δ͜ͱΛ໨తͱ͢Δ -஌ࣝΛؚΉσʔλͷ࢖༻8FCϖʔδ ৄࡉը૾આ໌σʔλ จॻ0$3σʔλ ͳͲ -͜͜Ͱɺ৽͍͠ߴ඼࣭σʔλʹܧଓతʹ৮ΕΔ͜ͱͰ৽ͨͳ஌ࣝ֫ಘΛ໨ࢦ͢ ◦ 4UBHF 4'5ஈ֊ ࢦࣔ௥ैೳྗ޲্ USBJOBCMF\Ξμϓλʔ --.^ GSP[FO\ը૾Τϯίʔμ^Ͱֶश -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ ˞ ˞--B7" 0OF7JTJPO --B7" /F95Ͱ͸ɺ 4UBHF 4UBHF ͱ΋ʹϑϧύϥϝʔλΛֶश͍ͤͯ͞Δɻ ͜ͷࡍɺ-7-.ͷֶश͕҆ఆ͢Δͱ͍͏ཧ༝Ͱɺը૾Τϯίʔμͷֶश཰Λ --.ͷֶश཰ΑΓ΋ৗʹഒ௿͘ઃఆ͍ͯ͠Δɻ ৄࡉ͕ؾʹͳΔํ͸ɺ--B7" /F95ͷ #MPH 4FDUJPO -BOHVBHF.PEFMT <-J `> Λࢀর͍ͯͩ͘͠͞ɻ ˞

20 4FMG"UUFOUJPOϕʔεͷ -7-.1FSDFJWFS3FTBNQMFSपลͷޮՌ 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 • 1FSDFJWFS3FTBNQMFS͔Βग़ྗ͞ΕΔը૾τʔΫϯ਺Λ ૿΍͢ͱɺಛʹ 0$3ؔ࿈λεΫͰͷੑೳ͕޲্͢Δ
• 1FSDFJWFS3FTBNQMFS ͸୯७ͳઢܗ૚ͷΈͷ Ξμϓλʔͱൺֱͯ͠ -7-.ͷੑೳ͕ߴ͘ͳΔ • 1FSDFJWFS3FTBNQMFS ͷ૚਺Λ૿΍ͯ͠΋ ݮΒͯ͠΋ -7-.ͷੑೳʹ͋·Γد༩͠ͳ͍Մೳੑ • 1FSDFJWFS3FTBNQMFS ͷલʹ .-1૚ΛڬΜͩํ͕ྑ͍ <> ˛ ը૾ UPLFO਺ΛมԽͤͨ࣌͞ͷੑೳൺֱ 8IBUNBUUFSTXIFOCVJMEJOHWJTJPOMBOHVBHFNPEFMT <-BVSFOÇPO `> <>5BCMF <>5BCMF <>5BCMF <>5BCMF <> <> <> ˛ Ξμϓλʔʹ࢖༻͢ΔϞδϡʔϧผͷੑೳൺֱ ˛ 1FSDFJWFS3FTBNQMFS ͷ૚਺ʹΑΔੑೳൺֱ ˛ 1FSDFJWFS3FTBNQMFS ͷલʹ .-1૚Λ௥Ճ͢Δ ͜ͱʹΑΔੑೳൺֱ ˞"WHTDPSF͸ 72"W 0,72" 5FYU72" $0$0ͷ #FODINBSLͷείΞฏۉ஋ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ

21 4FMG"UUFOUJPOϕʔεͷ -7-.ͷֶशֶश࣌ͷઃఆʹؔ͢Δ஌ݟ 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ •MPTT஋ <-J `>
◦૊Έࠐ·Ε͍ͯΔ --.͕େ͖͍΄Ͳऩଋ͕ૣ͘ MPTT͕௿͘ͳΔ܏޲͕͋Δ •ֶश཰ <-J `> ◦ֶश͕ෆ҆ఆʹͳΔ৔߹ɺֶश཰Λ௿͘͢Δͱֶशͷෆ҆ఆ͕ܰݮ͞ΕΔ܏޲ ◦ը૾Τϯίʔμͷֶश཰͸ --.ͷֶश཰ΑΓ΋ৗʹ ʙഒখ͍͞ํ͕ ֶशͷ҆ఆੑ͕޲্͢Δ ◦--.ͷֶश཰Λ Fˠ Fʹมߋͯ͠΋ MPTT஋ʹ͸େ͖ͳ͕ࠩݟΒΕͳ ͔͕ͬͨɺԼྲྀλεΫͰͷ࠷ऴతͳੑೳʹ͸େ͖ͳ͕ࠩੜͨ͡ͱ͍͏ใࠂ •/&'5VOF <-BVSFOÇPO `> ◦4'5ஈ֊Ͱ /&'5VOF ϊΠζ <+BJO `>ΛೖྗʹՃ͑ͯɺճ౴τʔΫϯͷΈͰ ଛࣦΛܭࢉ͍ͯ͠Δࣄྫ΋͋Δ

22 4FMG"UUFOUJPOϕʔεͷ -7-.ͷֶशઃఆͷ۩ମྫ*EFGJDT 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ • --.
-MBNB#*OTUSVDU • ը૾Τϯίʔμ 4JH-*140. • Ξμϓλʔ .-1 1JYFM4IVGGMF <>#VJMEJOHBOECFUUFSVOEFSTUBOEJOHWJTJPOMBOHVBHFNPEFMTJOTJHIUTBOEGVUVSFEJSFDUJPOT<-BVSFOÇPO `> 5BCMF <> 1M ਪଌ஋ 3M ਪଌ஋ 1.5M ਪଌ஋ 5M ਪଌ஋ # Samples ਪଌ஋ (DoRA) (DoRA) (DoRA)

23 4FMG"UUFOUJPOϕʔεͷ -7-.ͷֶशઃఆͷ۩ମྫ/7-.% 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ 4UBHF 4UBHF •
--. 2XFO#*OTUSVDU • ը૾Τϯίʔμ *OUFSO7J5#QY7 • Ξμϓλʔ .-1 1JYFM4IVGGMF <>/7-.0QFO'SPOUJFS$MBTT.VMUJNPEBM--.T<%BJ `> 5BCMF 5BCMF <> 40M ਪଌ஋ 5M ਪଌ஋ # Samples ਪଌ஋

24 4FMG"UUFOUJPOϕʔεͷ -7-.ͷֶशઃఆͷ۩ମྫ--B7"0OF7JTJPO 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ <> --B7"0OF7JTJPO&BTZ7JTVBM5BTL5SBOTGFS<-J `>
5BCMF <> • --. 2XFO • ը૾Τϯίʔμ 4JH-*140. • Ξμϓλʔ .-1 όΠϦχΞิ׬

25 $SPTT"UUFOUJPOΞʔΩςΫνϟϕʔεͷ -7-. 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 •--.಺ͷಛఆͷ %FDPEFS#MPDL͝ͱʹ $SPTT"UUFOUJPO૚Λ ૠೖ͠ɺͦͷதͰը૾
τʔΫϯΛॲཧ͢Δػߏ User:<image>What do you see in this image?<eot> Assistant: ը૾Τϯίʔμ --. <s> ŋŋŋ ŋŋŋ ŋŋŋ 1FSDFJWFS3FTBNQMFS લॲཧ "QQMZDIBUUFNQMBUF <s> User:<image>What do you see in this image?<eot> Assistant: User : <image> <s> ŋŋŋ ▁User : <image> τʔΫϯຒΊࠐΈΛ࡞੒ : : -.)&"% ▁A What What Assistant Assistant 4FMG"UUFOUJPO 'FFE'PSXBSE/FUXPSL ''/ (BUFE$SPTT"UUFOUJPO ௨ৗɺ/൪໨ͷ #MPDL͝ͱʹ (BUFE$SPTT"UUFOUJPO ͕ૠೖ͞Ε͍ͯΔ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ

26 $SPTT"UUFOUJPOΞʔΩςΫνϟͷಛ௃ 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 •࣮૷͸ෳࡶʹͳΔ͕ɺ--.ͷ %FDPEFS#MPDL಺Ͱը૾τʔΫϯΛ શͯల։͢Δඞཁ͕ͳ͘ͳΔͨΊɺܭࢉޮ཰͕ߴ͘ͳΔ ◦࣮૷͕ෳࡶʹͳΔཁҼ -௥Ճͷ
$SPTT"UUFOUJPOϞδϡʔϧͷಋೖ -ը૾ͱςΩετ͕ަޓʹ഑ஔ͞ΕΔઃఆͰͷ $SPTT"UUFOUJPO.BTLJOH -௥Ճͨ͠ $SPTT"UUFOUJPO͕ Ұൠʹ େ͖ͳύϥϝʔλ਺Λ࣋ͭͨΊɺ ֶशʹଟ͘ͷσʔλ͕ඞཁͱͳΔ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ

27 $SPTT"UUFOUJPOΞʔΩςΫνϟͷಛ௃ 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 •࣮૷͸ෳࡶʹͳΔ͕ɺ--.ͷ %FDPEFS#MPDL಺Ͱը૾τʔΫϯΛ શͯల։͢Δඞཁ͕ͳ͘ͳΔͨΊɺܭࢉޮ཰͕ߴ͘ͳΔ ◦࣮૷͕ෳࡶʹͳΔཁҼ -௥Ճͷ
$SPTT"UUFOUJPOϞδϡʔϧͷಋೖ -ը૾ͱςΩετ͕ަޓʹ഑ஔ͞ΕΔઃఆͰͷ $SPTT"UUFOUJPO.BTLJOH -௥Ճͨ͠ $SPTT"UUFOUJPO͕ Ұൠʹ େ͖ͳύϥϝʔλ਺Λ࣋ͭͨΊɺ ֶशʹଟ͘ͷσʔλ͕ඞཁͱͳΔ •$SPTT"UUFOUJPOʹೖྗ͞ΕΔલஈ֊ʹ͓͚Δࢹ֮৘ใͷॲཧ -ը૾Τϯίʔμ͔Βग़ྗ͞Εͨࢹ֮ಛ௃ྔΛͦͷ··࢖༻͢Δ -ྫ -MBNB7 <%VCFZ `> /7-.9 <%BJ `> -ը૾Τϯίʔμ͔Βͷग़ྗ 1FSDFJWFS3FTBNQMFS Λ࢖༻͢Δ -ྫ 'MBNJOHP <"MBZSBD `> *EFGJDT <-BVSFOÇPO `> ը૾Τϯίʔμ ŋŋŋ ŋŋŋ 1FSDFJWFS3FTBNQMFS ˞/7-.9<%BJ `> Ͱ͸ɺ1FSDFJWFS 3FTBNQMFS ΁ͷજࡏ഑ྻ΁ͷ $SPTT"UUFOUJPO͕ೖྗը૾τʔΫϯΛࠞͥ߹ΘͤΔͨΊɺ จॻ 0$3λεΫʹॏཁͳը૾ύονؒͷۭؒతؔ܎͕ཚΕΔՄೳੑΛࢦఠ͠ɺ࣮ࡍʹ 0$3λεΫͷੑೳ͕ѱԽͨ͠ͱͷใࠂ͕͋Δ ˞ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ

28 $SPTT"UUFOUJPOϕʔεͷ -7-.ͷֶश 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 •޿͘࠾༻͞Ε͍ͯΔֶशઓུ ◦ 4UBHF ࣄલֶशஈ֊
USBJOBCMF\Ξμϓλʔ $SPTT"UUO^ GSP[FO\ը૾Τϯίʔμ --.^Ͱֶश -όοναΠζΛେ͖͘͢Δ͜ͱͰɺੑೳ͕վળ <%BJ `> User:<image>What do you see in this image?<eot> Assistant: ը૾Τϯίʔμ --. <s> ŋŋŋ ŋŋŋ ŋŋŋ 1FSDFJWFS3FTBNQMFS લॲཧ "QQMZDIBUUFNQMBUF <s> User:<image>What do you see in this image?<eot> Assistant: User : <image> <s> ŋŋŋ ▁User : <image> τʔΫϯຒΊࠐΈΛ࡞੒ : : -.)&"% ▁A What What Assistant Assistant 4FMG"UUFOUJPO 'FFE'PSXBSE/FUXPSL ''/ (BUFE$SPTT"UUFOUJPO ௨ৗɺ/൪໨ͷ #MPDL͝ͱʹ (BUFE$SPTT"UUFOUJPO ͕ૠೖ͞Ε͍ͯΔ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ

29 $SPTT"UUFOUJPOϕʔεͷ -7-.ͷֶश 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 •޿͘࠾༻͞Ε͍ͯΔֶशઓུ ◦ 4UBHF ࣄલֶशஈ֊
USBJOBCMF\Ξμϓλʔ $SPTT"UUO^ GSP[FO\ը૾Τϯίʔμ --.^Ͱֶश -όοναΠζΛେ͖͘͢Δ͜ͱͰɺੑೳ͕վળ <%BJ `> ◦ 4UBHF 4'5ஈ֊ USBJOBCMF\Ξμϓλʔ $SPTT"UUO^ GSP[FO\ը૾Τϯίʔμ --.^Ͱֶश ---.Λݻఆ͍ͯ͠Δ৔߹ɺࢹ֮ݴޠλεΫͷੑೳ͕௿Լ͢Δ৔߹͕͋Δ ͜Ε͸ɺ૊Έࠐ·Εͨ --.͕աڈʹֶश͍ͯ͠ͳ͍λεΫ΍ࢦࣔΛֶश͢Δ৔߹ʹ ൃੜ͢ΔՄೳੑ͕ߴ͍ ˠ --.ΛֶशՄೳʹ͢Δ ߴ඼࣭ͷςΩετ POMZ*OTUSVDUJPO5VOJOHσʔλΛ ૊ΈࠐΉ͜ͱͰςΩετ POMZͷੑೳ௿ԼΛ཈੍͍ͯ͠Δࣄྫ΋͋Δ <%BJ `> User:<image>What do you see in this image?<eot> Assistant: ը૾Τϯίʔμ --. <s> ŋŋŋ ŋŋŋ ŋŋŋ 1FSDFJWFS3FTBNQMFS લॲཧ "QQMZDIBUUFNQMBUF <s> User:<image>What do you see in this image?<eot> Assistant: User : <image> <s> ŋŋŋ ▁User : <image> τʔΫϯຒΊࠐΈΛ࡞੒ : : -.)&"% ▁A What What Assistant Assistant 4FMG"UUFOUJPO 'FFE'PSXBSE/FUXPSL ''/ (BUFE$SPTT"UUFOUJPO ௨ৗɺ/൪໨ͷ #MPDL͝ͱʹ (BUFE$SPTT"UUFOUJPO ͕ૠೖ͞Ε͍ͯΔ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ

30 $SPTT"UUFOUJPOϕʔεͷ -7-.ͷֶशઃఆͷ۩ମྫ/7-.9 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ 4UBHF 4UBHF •
--. ◦ # /PVT)FSNFT:J# ◦ # 2XFO#*OTUSVDU • ը૾Τϯίʔμ *OUFSO7J5#QY7 • Ξμϓλʔ .-1 (BUFE$SPTT"UUO <>/7-.0QFO'SPOUJFS$MBTT.VMUJNPEBM--.T<%BJ `> 5BCMF 5BCMF <> 40M ਪଌ஋ 10M (34B), 5M (72B) ਪଌ஋ # Samples ਪଌ஋

31 4FMG"UUFOUJPOWT$SPTT"UUFOUJPO௕ॴͱ୹ॴ 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 • $SPTT"UUOϕʔεͷ -7-.͸ɺ$SPTT"UUO͕৽ͨʹ ௥Ճ͞ΕΔͨΊɺύϥϝʔλ͕େ͖͘ͳΓ͕ͪʢ-MBNB7 #Ͱ͸
#ͷ৽ن $SPTT"UUOύϥϝʔλ͕௥Ճ͞Ε͍ͯΔʣ 4FMG "UUFOUJPO $SPTT "UUFOUJPO ௥Ճύϥϝʔλ਺ খ େ ֶशޮ཰ ˛ ˔ ςΩετ POMZੑೳ ͷҡ࣋ͷ͠΍͢͞ ˛ ˔ ࣮૷ͷෳࡶ౓߹͍ ؆қ ෳࡶ • $SPTT"UUOϕʔεͷ -7-.͸ɺ --.ͷ %FDPEFS#MPDLͰ શͯͷը૾τʔΫϯΛల։͢Δඞཁ͕ͳ͍ͷͰɺ ߴղ૾౓ը૾ͷޮ཰తͳॲཧ͕Մೳ • $SPTT"UUOϕʔεͷ -7-.͸ɺֶश࣌ʹ --.ͷॏΈ͕ ݻఆ͞Ε͍ͯΔͷͰɺςΩετ POMZͷੑೳΛҡ࣋͠΍͍͢ • $SPTT"UUOϕʔεͷ -7-.͸ɺ࣮૷͕ෳࡶʹͳΔ Qࢀর -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ

32 4FMG"UUFOUJPOWT$SPTT"UUFOUJPO௕ॴͱ୹ॴ ิ଍ֶशޮ཰ͷৄࡉ 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 4FMG "UUFOUJPO $SPTT "UUFOUJPO
ֶशޮ཰ ˛ ˔ • $SPTT"UUOϕʔεͷ -7-.͸ɺ --.ͷ %FDPEFS#MPDLͰ શͯͷը૾τʔΫϯΛల։͢Δඞཁ͕ͳ͍ͷͰɺ ߴղ૾౓ը૾ͷޮ཰తͳॲཧ͕Մೳ $SPTT"UUOˠ 4FMG"UUOˠ ˞ˠ ˞/7-.)͸ 4FMG"UUOϞσϧͱ $SPTT"UUOϞσϧͷྑ͍ͱ͜औΓΛͨ͠Α͏ͳϞσϧͱͳ͍ͬͯΔɻ ৄࡉ͸ /7-.0QFO'SPOUJFS$MBTT.VMUJNPEBM--.T<%BJ `> Λࢀর͍ͯͩ͘͠͞ɻ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ <> <>/7-.0QFO'SPOUJFS$MBTT.VMUJNPEBM--.T<%BJ `> 5BCMF

33 4FMG"UUFOUJPOWT$SPTT"UUFOUJPO7-#FODINBSLͰͷධՁ݁Ռ 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 <> <>/7-.0QFO'SPOUJFS$MBTT.VMUJNPEBM--.T<%BJ `> 5BCMF •
ϞσϧΞʔΩςΫνϟҎ֎ͷֶश࣌ͷઃఆ ֶशσʔλͳͲ ΛՄೳͳݶΓଗ͑ͨ৔߹ʹ͓͍ͯɺ 4FMG"UUOϞσϧ /7-.% ͸ෳ਺ͷ #FODINBSLͰɺ$SPTT"UUOϞσϧ /7-.9 ΑΓ΋ ༏ΕͨੑೳΛ͍ࣔͯ͠Δ • 4FMG"UUOϞσϧ $SPTT"UUOϞσϧͱ΋ʹɺ4'5࣌ʹߴ඼࣭ͷςΩετ POMZ*OTUSVDUJPO5VOJOH σʔλΛ૊ΈࠐΉ͜ͱͰɺςΩετ POMZλεΫͷੑೳྼԽΛ཈੍͞Βʹ͸޲্Ͱ͖͍ͯΔ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ

35 طଘͷը૾ΤϯίʔμΛ࢖༻ͨ͠ ߴղ૾౓ը૾ͷѻ͍ •-7-.ͷߏங࣌ʹ͸ࣄલֶशࡁΈը૾ΤϯίʔμΛ࢖༻͢Δ ◦ ࠷ऴੑೳ޲্ʹد༩͢ΔͨΊ $-*1༝དྷͷ 7J5 ը૾Τϯίʔμ͕࢖ΘΕΔࣄ͕ଟ͍ <,BSBNDIFUJ
`> - ྫ -$-*17J5 -! -! -4JH-*1 -! -! ͳͲ - ྫ͑͹ɺ-!ͷ৔߹ɺ-BSHFϞσϧͷ 1BUDITJ[F ը૾ղ૾౓ʷQJYFM Ͱֶश͞Εͨ 7J5 Ͱ͋ΔͱಡΊΔ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ 2. 画像のエンコード⽅法: (既存の画像エンコーダを使⽤した) ⾼解像度画像の扱い •ࣄલֶशࡁΈը૾Τϯίʔμͷେ൒͕੩తղ૾౓ ʷͳͲ Ͱֶश͞Ε͍ͯΔ

36 طଘͷը૾ΤϯίʔμΛ࢖༻ͨ͠ ߴղ૾౓ը૾ͷѻ͍ •ࣄલֶशࡁΈը૾Τϯίʔμͷେ൒͕੩తղ૾౓ ʷͳͲ Ͱֶश͞Ε͍ͯΔ •-7-.ͷߏங࣌ʹ͸ࣄલֶशࡁΈը૾ΤϯίʔμΛ࢖༻͢Δ ◦ ࠷ऴੑೳ޲্ʹد༩͢ΔͨΊ $-*1༝དྷͷ
7J5 ը૾Τϯίʔμ͕࢖ΘΕΔࣄ͕ଟ͍ <,BSBNDIFUJ `> - ྫ -$-*17J5 -! -! -4JH-*1 -! -! ͳͲ - ྫ͑͹ɺ-!ͷ৔߹ɺ-BSHFϞσϧͷ 1BUDITJ[F ը૾ղ૾౓ʷQJYFM Ͱֶश͞Εͨ 7J5 Ͱ͋ΔͱಡΊΔ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ 2. 画像のエンコード⽅法: (既存の画像エンコーダを使⽤した) ⾼解像度画像の扱い •ը૾ΛϦαΠζͯ͠੩తղ૾౓ ʷͳͲ ʹམͱͤ͹ѻ͑ΔΑ͏ʹͳΔ͕ɺ ϦαΠζ͢Δࡍʹݩͷղ૾౓ͷը૾ʹؚ·Ε͍ͯͨ৘ใ͕མͪͯ͠·͏ Ͳ͏͢Δʜ 🤔

37 ࠷ۙͷ -7-.Ͱ͸ʮը૾෼ׂઓུʯ͕ඇৗʹΑ͘࢖ΘΕΔ 2. 画像のエンコード⽅法: (既存の画像エンコーダを使⽤した) ⾼解像度画像の扱い •ೖྗը૾ͷΞεϖΫτൺͱղ૾౓ʹج͍ͮͯλΠϧʹ෼ׂ͢Δઓུ ◦ ྫ
$-*17J5-!Λ༻͍ͯɺߴղ૾౓ը૾ ʷQJYFM Λॲཧ͢Δ৔߹ ೖྗը૾ ೖྗը૾ 5JMF 5JMF 5JMF 5JMF 5JMF 5JMF QY QY ᶃ ೖྗը૾ͷΞεϖ Ϋτൺʹج͍ͮͯɺ ࣄલʹఆٛ͞ΕͨΞ εϖΫτൺͷத͔Β ࠷΋͍ۙ΋ͷ͕બ୒ ͞Εɺ͞Βʹղ૾౓ ʹج͍ͮͯλΠϧʹ ෼ׂ͞ΕΔ QY QY શମ ը૾ 5JMF QY ը૾ Τϯίʔμ ŋŋŋ ը૾ Τϯίʔμ ŋŋŋ QY ը૾ Τϯίʔμ ŋŋŋ ŋŋŋ 5JMF ŋŋŋ ᶄ ϦαΠζ͞Εͨશମը૾ͱλΠϧը૾Λ ݸผʹը૾Τϯίʔμʹೖྗ͢Δ ᶅ ͜ΕΒશͯͷը૾τʔΫϯΛ࢖༻ ˠ Ξμϓλʔʹೖྗ͞ΕΔ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ

38 ը૾෼ׂઓུͰؾΛ͚ͭΔ͜ͱλΠϧλάͷಋೖ 2. 画像のエンコード⽅法: (既存の画像エンコーダを使⽤した) ⾼解像度画像の扱い •ը૾෼ׂઓུʹΑΓɺಛʹ 0$3ؔ࿈λεΫͰͷੑೳ͕େ෯ʹ޲্͢Δ •͔͠͠ɺλΠϧ͔ΒಘΒΕͨશͯͷը૾τʔΫϯΛ୯७ʹ࿈݁ͯ͠ --.ʹ௚઀ೖྗͯ͠͠·͏ͱਪ࿦ؔ࿈ͷλεΫͰͷੑೳ͕௿Լ͢Δ৔߹͕͋Δ
◦ λΠϧؒͷؔ܎ੑ͕໌ࣔ͞Ε͍ͯͳ͍ͷͰɺֶश࣌ʹ --.͕ࠞཚ͢ΔՄೳੑ͕͋Δ ˠ λΠϧλάΛಋೖ͢Δ͜ͱͰɺೖྗը૾શମͷλΠϧͷҐஔΛ໌ࣔ͢Δ B /PUBHλΠϧλάΛ࢖༻ͤͣʹ୯७ʹ࿈݁͢Δํ๏ C %UBH<tile_1> <tile_2> ʜ <tile_6> <tile_global> D %HSJEUBH<tile_x0_y0> <tile_x1_y0> ʜ <tile_x2_y1> <tile_global> E %CCPY UBH<box> (x0, y0), (x1, y1) </box> ʜ <box> (x2, y1) (x3, y2) </box> ߴղ૾౓ը૾શମ಺Ͱͷ֘౰λΠϧͷ <box> (ࠨ্࠲ඪ), (ӈԼ࠲ඪ) </box> ྫ /7-. <%BJ `> ʹ͓͚ΔλΠϧλάͷྫ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ

39 ը૾෼ׂઓུ λΠϧλά ͷޮՌ ᶃ 4FMG"UUFOUJPOͷ৔߹ 2. 画像のエンコード⽅法: (既存の画像エンコーダを使⽤した) ⾼解像度画像の扱い
• ը૾෼ׂઓུʹΑΓɺಛʹ 0$3ؔ࿈λεΫ $IBSU2" %PD72" 0$3#FODI Ͱͷੑೳ͕େ෯ʹ޲্ • λΠϧλάΛ෇༩͢Δ͜ͱͰɺੑೳ޲্͕֬ೝͰ͖Δ ಛʹ %UBH͕༗ޮͦ͏ ˛ 4FMG"UUFOUJPOϕʔεͷ -7-. ʹ͓͚Δɺը૾෼ׂઓུ λΠϧλά࢖༻࣌ͷੑೳൺֱ B /P UBHλΠϧλάΛ࢖༻ͤͣʹ୯७ʹ࿈݁͢Δํ๏ C %UBH<tile_1> <tile_2> ʜ <tile_6> <tile_global> D %HSJE UBH <tile_x0_y0> <tile_x1_y0> ʜ <tile_x2_y1> <tile_global> E %CCPY UBH<box> (x0, y0), (x1, y1) </box> ʜ <box> (x2, y1) (x3, y2) </box> ߴղ૾౓ը૾શମ಺Ͱͷ֘౰λΠϧͷ <box> (ࠨ্࠲ඪ), (ӈԼ࠲ඪ) </box> ྫ /7-. <%BJ `> ʹ͓͚ΔλΠϧλάͷྫ <>/7-.0QFO'SPOUJFS$MBTT.VMUJNPEBM--.T<%BJ `> 5BCMF <> -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ

40 ը૾෼ׂઓུ λΠϧλά ͷޮՌ ᶄ $SPTT"UUFOUJPOͷ৔߹ 2. 画像のエンコード⽅法: (既存の画像エンコーダを使⽤した) ⾼解像度画像の扱い
•ը૾෼ׂઓུʹΑΓɺ...6Λআ͘શͯͷ #FODINBSLͰͷੑೳ͕޲্ •λΠϧλάΛ෇༩͢Δ͜ͱͰɺશͯͷ #FODINBSLͰੑೳ޲্Λ֬ೝ ˛ $SPTT"UUFOUJPOϕʔεͷ -7-. ʹ͓͚Δɺը૾෼ׂઓུ λΠϧλά࢖༻࣌ͷੑೳൺֱ <>/7-.0QFO'SPOUJFS$MBTT.VMUJNPEBM--.T<%BJ `> 5BCMF <> B /P UBHλΠϧλάΛ࢖༻ͤͣʹ୯७ʹ࿈݁͢Δํ๏ C %UBH<tile_1> <tile_2> ʜ <tile_6> <tile_global> ྫ /7-. <%BJ `> ʹ͓͚ΔλΠϧλάͷྫ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ ˠ ΞʔΩςΫνϟ 4FMG"UUO $SPTT"UUO ʹΑΒͣɺը૾෼ׂઓུ λΠϧλάઓུ͸༗ޮ

42 ߴղ૾౓ը૾Λ/BUJWFʹѻ͏͜ͱͷͰ͖Δը૾Τϯίʔμͷ࢖༻ 2. 画像のエンコード⽅法 •ͦ΋ͦ΋ɺߴղ૾౓ը૾ͷॲཧʹઌ΄Ͳ঺հͨ͠Α͏ͳը૾෼ׂઓུΛऔΒ͟ΔΛಘͳ͘ ͳͬͨେݩͷཁҼ͸ɺࣄલֶशࡁΈը૾Τϯίʔμͷେ൒͕੩తղ૾౓ ʷͳͲ Ͱ ֶश͞Ε͍ͯΔ ͨΊೖྗը૾ΛϦαΠζ͠ͳ͍ͱ͍͚ͳ͍
͜ͱͰ͋Δ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ

43 ߴղ૾౓ը૾Λ/BUJWFʹѻ͏͜ͱͷͰ͖Δը૾Τϯίʔμͷ࢖༻ 2. 画像のエンコード⽅法 •ೖྗը૾Λݩͷղ૾౓ͱΞεϖΫτൺΛม͑ͣʹɺ/BUJWFʹॲཧͰ͖Δ ࣄલֶशࡁΈը૾Τϯίʔμ͕։ൃ͞ΕΔͱخ͍͠ͷ͕ͩ ◦ 2XFO7-<8BOH `>
◦ 1JYUSBM <"HSBXBM `> Ͱ Α͏΍͘ ಈతղ૾౓Λѻ͑Δը૾Τϯίʔμ͕։ൃɾ࢖༻͞ΕΔʂ •ͦ΋ͦ΋ɺߴղ૾౓ը૾ͷॲཧʹઌ΄Ͳ঺հͨ͠Α͏ͳը૾෼ׂઓུΛऔΒ͟ΔΛಘͳ͘ ͳͬͨେݩͷཁҼ͸ɺࣄલֶशࡁΈը૾Τϯίʔμͷେ൒͕੩తղ૾౓ ʷͳͲ Ͱ ֶश͞Ε͍ͯΔ ͨΊೖྗը૾ΛϦαΠζ͠ͳ͍ͱ͍͚ͳ͍ ͜ͱͰ͋Δ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ

44 ಈతղ૾౓Λѻ͑Δը૾Τϯίʔμ 2. 画像のエンコード⽅法: ⾼解像度画像を Native に扱うことのできる画像エンコーダの使⽤ •ೖྗը૾ͷղ૾౓ͱΞεϖΫτൺ͔Βग़ྗ͞ΕΔը૾τʔΫϯ਺͕ܾ·Δ <> <>1JYUSBM#<"HSBXBM
`> 'JHVSF -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ

45 ಈతղ૾౓Λѻ͑Δը૾ΤϯίʔμΛࢧ͑Δٕज़3P1&% 2. 画像のエンコード⽅法: ⾼解像度画像を Native に扱うことのできる画像エンコーダの使⽤ •࣍ݩʹ֦ு͞ΕͨճసҐஔຒΊࠐΈ 3P1& %
ʹΑΓɺՄมαΠζͷ ղ૾౓Λѻ͏͜ͱ͕ՄೳʹͳΔ <> <>1JYUSBM#<"HSBXBM `> 'JHVSF -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ

46 ಈతղ૾౓Λѻ͑Δը૾ΤϯίʔμΛࢧ͑Δٕज़.3P1& 2. 画像のエンコード⽅法: ⾼解像度画像を Native に扱うことのできる画像エンコーダの使⽤ •.3P1&ճసҐஔຒΊࠐΈΛ ࣍ݩʹ·Ͱ֦ு͠ɺಈը ࣌ؒ࣠ํ޲ͷҐஔ
৘ใ ΋ѻ͑ΔΑ͏ʹ͢Δ <> <>2XFO7-&OIBODJOH7JTJPO-BOHVBHF.PEFMT1FSDFQUJPOPGUIF8PSMEBU"OZ3FTPMVUJPO<8BOH `> 'JHVSF -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ

47 ಈతղ૾౓Λѻ͑Δը૾ΤϯίʔμͷޮՌ 2. 画像のエンコード⽅法: ⾼解像度画像を Native に扱うことのできる画像エンコーダの使⽤ <>2XFO7-&OIBODJOH7JTJPO-BOHVBHF.PEFMT1FSDFQUJPOPGUIF8PSMEBU"OZ3FTPMVUJPO<8BOH `> 5BCMF
<> •ಈతղ૾౓ઓུ͸ฏۉͯ͠τʔΫϯফඅΛ཈͑ͭͭɺ ෳ਺ͷ #FODINBSLͰτοϓϨϕϧͷੑೳΛୡ੒͍ͯ͠Δ ˛ ੩తղ૾౓ઓུͱಈతղ૾౓ઓུ࢖༻࣌ͷੑೳൺֱ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ

48 .VMUJNPEBM3P1&ͷޮՌ 2. 画像のエンコード⽅法: ⾼解像度画像を Native に扱うことのできる画像エンコーダの使⽤ <>2XFO7-&OIBODJOH7JTJPO-BOHVBHF.PEFMT1FSDFQUJPOPGUIF8PSMEBU"OZ3FTPMVUJPO<8BOH `> 5BCMF
<> •.VMUJNPEBM3P1& .3P1& ͸ෳ਺ͷ #FODINBSLͰ %3P1&ΑΓ΋ ༏ΕͨੑೳΛࣔ͢ ˛ %3P1&ͱ .3P1& ͷੑೳൺֱ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ

49 $PGGFFCSFBLᶃը૾Τϯίʔμ͸ඞཁͳ͍ʁ <>'VZV#".VMUJNPEBM"SDIJUFDUVSFGPS"*"HFOUT<#BWJTIJ `> <> •'VZV ͸ɺը૾ΤϯίʔμΛ࢖Θͣʹɺը૾ύονʹ୯७ͳઢܗࣹӨͷΈద༻͢Δ ◦ ར఺ ࣄલֶशࡁΈը૾Τϯίʔμ͕ඞཁͳ͍
◦ ར఺ ৄࡉͳը૾ύονʹؔ͢ΔҐஔ৘ใҎ֎ͷ ݩͷը૾৘ใΛશͯอ࣋Ͱ͖Δ •͔͠͠ɺಉ࣌ظʹϦϦʔε͞Εͨଞͷಉఔ౓ͷαΠζͷϞσϧͱൺֱͯ͠ #FODINBSL Ͱͷੑೳ͕௿͔ͬͨʢͷͰɺݱࡏ͸ը૾ΤϯίʔμΛ࢖༻͢Δํ๏͕޿͘࠾༻͞Ε͍ͯΔͷͩͱࢲ͸ߟ࡯͍ͯ͠·͢ʣ 2. 画像のエンコード⽅法 -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ

50 $PGGFFCSFBLᶄςΩετΫΤϦ΋ߟྀͨ͠ը૾Τϯίʔμ <>7JT'PDVT1SPNQU(VJEFE7JTJPO&ODPEFSTGPS0$3'SFF%FOTF%PDVNFOU6OEFSTUBOEJOH<"CSBNPWJDI `> 'JHVSF <> •7JT'PDVT ͸ɺςΩετΫΤϦ QSPNQU ΋ߟྀͯ͠ɺը૾ΛΤϯίʔυ͢Δ
◦ ࢦࣔ͢Δ಺༰ʹΑͬͯɺඞཁͱ͞ΕΔը૾৘ใྔ͸มΘͬͯ͘ΔͷͰɺࣗવͳൃ૝Ͱ͋Δͱݴ͑Δ - ྫ ʮը૾ͷӈԼͷ؃൘ʹ͸Կ͕ॻ͔Ε͍ͯ·͔͢ʁʯͱ͍͏ࢦࣔʹରͯ͠͸ɺը૾ӈԼͷ৘ใ͚ͩநग़Ͱ͖Ε͹े෼ ◦ ͨͩ͠ɺNVMUJUVSOͷձ࿩ͰɺҎલͷ࣭໰ʹݴٴ͢ΔΑ͏ͳ QSPNQUʹ͸ɺରԠͰ͖ͳ͍ 2. 画像のエンコード⽅法 -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ

51 1BSU·ͱΊ •ը૾Τϯίʔμͱ --.ͷ઀ଓํ๏ͱͯ͠ɺ4FMG"UUFOUJPO $SPTT"UUFOUJPOϕʔε ͷ͍ͣΕ͔͕Α͘༻͍ΒΕ͍ͯΔ ◦ 4FMG"UUFOUJPOϕʔεͷ -7-.͸ -
ෳࡶͳ࣮૷ͳ͠Ͱෳ਺ͷϞμϦςΟΛ౷ҰతʹॲཧͰ͖Δ - Ξμϓλʔ෦෼ʹ޻෉Λࢪ͢͜ͱͰɺը૾τʔΫϯ਺Λ୹ॖͰ͖Δ - ࠾༻͍ͯ͠Δઌߦࣄྫ͕ଟ͘ɺ஌ݟ͕๛෋Ͱ͋Δ ◦ $SPTT"UUFOUJPOϕʔεͷ -7-.͸ɺ - ࣮૷͸ෳࡶʹͳΔ͕ɺ--.ͷ %FDPEFS#MPDL಺Ͱը૾τʔΫϯΛશͯల։͢Δඞཁ͕ͳ͘ޮ཰త - ௨ৗɺ--.ͷॏΈΛݻఆֶͯ͠श͢ΔͷͰɺςΩετ POMZͷੑೳΛҡ࣋͠΍͍͢ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ • طଘͷը૾ΤϯίʔμΛ࢖༻ͯ͠ ߴղ૾౓ը૾Λѻ͏࣌ʹ͸ɺ ϞσϧΞʔΩςΫνϟʹΑΒͣɺը૾෼ׂઓུͱλΠϧλάઓུ͕ޮՌత •࠷ۙʹͳͬͯɺߴղ૾౓ը૾Λ /BUJWFʹѻ͑Δը૾Τϯίʔμ͕࢖༻͞Ε࢝ΊΔ

52 1BSUʹଓ͘ ʜ ⽬次 •ຊεϥΠυͰ͸ɺઌߦݚڀͷΞϓϩʔνΛ ͭʹେผͯ͠঺հ͢Δ ◦ʮը૾Τϯίʔμʯͱʮେن໛ݴޠϞσϧ --. ʯͷ઀ଓํ๏ -4FMG"UUFOUJPOWT$SPTT"UUFOUJPO
◦ը૾ͷΤϯίʔυํ๏ - طଘͷը૾ΤϯίʔμΛ࢖༻ͨ͠ ߴղ૾౓ը૾ͷѻ͍ -ߴղ૾౓ը૾Λ /BUJWFʹѻ͏͜ͱͷͰ͖Δը૾Τϯίʔμͷ࢖༻ ◦ֶशσʔλ ˡ 1BSUͰѻ͏༧ఆͰ͢ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ 🏃

53 ࢀߟɾ͓໾ཱͪࢿྉ • ্ݪ߁ฏࣗવݴޠͱ7JTJPO-BOHVBHF౦ژେֶେֶӃ ೥౓ߨٛʮ஌ೳ৘ใ࿦ʯ 4QFBLFS%FDL ◦ 7-ʹؔ͢Δओཁͳݚڀɾٕज़Λਂ૚ֶशॳظ͔Β ࣌఺·Ͱ֓؍ͨ͠ڭՊॻతͳεϥΠυͰ͢ɻ 7-ॳֶऀͷํ͸͜ͷεϥΠυ͔ΒೖΔͱશମײΛ၆ᛌͰ͖͓ͯ͢͢ΊͰ͢ɻ
-7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ ʢ੣ʹউख ၟӽͳ͕Βʣ׬શʹओ؍Ͱɺ͓໾ཱͪࢿྉΛ͍͔ͭ͘঺հ͠·͢ʂ • ాதྋଠ େن໛ݴޠϞσϧʹΑΔࢹ֮ɾݴޠͷ༥߹ୈճԬࢁେֶ"*ݚڀձ 4QFBLFS%FDL ◦ #&35࣌୅ͷΞϓϩʔν͔Β ࣌఺ͷ --.ͷਪ࿦ೳྗΛ࢖༻ͨ͠Ξϓϩʔν·ͰΛղઆ͞Ε͍ͯ·͢ɻ ஶऀͷాத͞Μ͸จॻը૾ཧղΛઐ໳ʹ͓ͯ͠Γɺଞʹ΋༗ӹͳ࿦จɾεϥΠυΛ਺ଟ͘ެ։͞Ε͍ͯ·͢ɻ • ੢ాژհ ੢ాޫำ ాதྋଠ ੪౻͍ͭΈ /-1ͱ7JTJPOBOE-BOHVBHFͷجૅɾ࠷৽ಈ޲ /-1ͱ7JTJPOBOE-BOHVBHFͷجૅɾ࠷৽ಈ޲ %&*. 4QFBLFS%FDL ◦ #&35࣌୅ͷ /-1ͷؔ࿈ݚڀ͔Β࢝Ίɺॳظͷ -7-. ࣌఺ ·ͰΛղઆ͞Ε͍ͯ·͢ɻ • ඼઒੓ଠ࿕ ϚϧνϞʔμϧର࿩γεςϜ 4QFBLFS%FDL ◦ ࣌఺ͰͷϚϧνϞʔμϧର࿩γεςϜपลͷ৘ใ͕·ͱΊΒΕ͍ͯ·͢ɻ ಛʹ $-*1पΓͷ࿩͕໘ന͍ ஶऀͷ඼઒ઌੜ͸ 7-શൠΛઐ໳ʹ͓ͯ͠Γɺଞʹ΋༗ӹͳ࿦จɾεϥΠυΛ਺ଟ͘ެ։͞Ε͍ͯ·͢ɻ • Ԭ࡚௚؍ େن໛ݴޠϞσϧͷ։ൃ+4"*νϡʔτϦΞϧߨԋ 4QFBLFS%FDL ◦ ࣌఺ͷ --.ͷ։ൃʹؔ࿈͢ΔݚڀΛղઆ͞Ε͓ͯΓɺ--.Λ 7-.ʹ૊ΈࠐΉΑ͏ʹͳͬͨࠓͱͳͬͯ͸ɺ --.ͱ -7-.Ͱؔ࿈͢Δ఺͸ଟ͘ɺ஌͓͍ͬͯͯଛ͸ͳ͍৘ใ͕ඇৗʹଟ͘੝Γࠐ·Ε͍ͯ·͢ɻ • ੁপխಙ ਂ૚ֶशʹΑΔը૾ೝࣝͷجૅ ΦʔϜࣾ ॻ੶ ◦ $//ͱ 7J5 Λ௨ͯ͠ը૾ೝࣝͷجૅΛେม෼͔Γ΍͘͢ղઆ͞Ε͍ͯ·͢ɻ࠷ऴষʹ 7-ͷষ΋ؚ·Ε͓ͯΓେมࢀߟʹͳΓ·͢ɻ

Large Vision Language Model (LVLM) に関する最新知見まとめ ...

Large Vision Language Model (LVLM) に関する最新知見まとめ (Part 1)

More Decks by Daiki Shiono

Other Decks in Research

Featured

Transcript