Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Large Vision Language Model (LVLM) に関する最新知見まとめ ...

Daiki Shiono
November 18, 2024

Large Vision Language Model (LVLM) に関する最新知見まとめ (Part 1)

本資料では、大規模視覚言語モデル (LVLM) に関する最新の知見を包括的にまとめて紹介しています。
Part 1 では、「画像エンコーダ」と「大規模言語モデル (LLM)」の接続方法及び、画像のエンコード方法に焦点を当てて解説しています。
(続編の Part 2 では、学習データに焦点を当てて解説する予定です)

※ 本資料で紹介する知見は 2024-11-12 時点での情報に基づいています。
※ Speaker Deck 上だと、フォントがかすれて見にくくなっているので、気になる方は pdf ファイルをダウンロードして閲覧してください 🙇

Daiki Shiono

November 18, 2024
Tweet

Other Decks in Research

Transcript

  1. 2 ࣗݾ঺հ •໊લԘ໺େً %BJLJ4IJPOP •ॴଐ ◦౦๺େֶླ໦ ५ ݚڀࣨ 5PIPLV/-1 ◦Πϯλʔϯ

    !5VSJOH ੜ੒ "*νʔϜ •ݚڀ෼໺7JTJPO-BOHVBHF 7- -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ 1PSUPGPMJP
  2. 3 7JTJPO-BOHVBHF 7- ͱ͸ 導⼊ •ίϯϐϡʔλϏδϣϯ $7 ͱ ࣗવݴޠॲཧ /-1

    ͷ༥߹෼໺ ◦ $7 /-1෼໺Ͱͷ 5SBOTGPSNFST<7BTXBOJ b> ͷ੒ޭ͕ɺ7-෼໺ʹ΋೾ٴ͠ٸ଎ʹൃల Describe the image with a sentence consisting of Three/Six/Nine words. Three: Seaside dining table Six: Dining table overlooking ocean with beer Nine: Outdoor restaurant table with ocean view and a beer (157 ʹΑΔը૾ʹؔ͢ΔςΩετੜ੒ [Yang+, ʼ23] -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  3. 4 େن໛ࢹ֮ݴޠϞσϧ -7-. ͷ؆୯ͳઆ໌ 導⼊ •ը૾ͱςΩετΛೖྗͱͯ͠ɺςΩετΛग़ྗ͢ΔϞσϧ Ҏ߱ɺ-7-. ͱݺͿ ◦ ࣄલʹֶश͞Εͨʮը૾Τϯίʔμʯͱʮେن໛ݴޠϞσϧ

    --. ʯ Λ૊Έ߹Θͤͯը૾ςΩετσʔλΛ࢖༻ͯ͠௥Ճֶश͢Δ͜ͱͰ -7-. Λߏங͢Δ <image> Describe the image with a sentence consisting of three/six/nine words. Three: Seaside dining table Six: Dining table overlooking ocean with beer Nine: Outdoor restaurant table with ocean view and a beer ը૾ Τϯίʔμʔ େن໛ݴޠϞσϧ --. -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  4. 5 େن໛ࢹ֮ݴޠϞσϧ -7-. ߏங࣌ͷબ୒ࢶ͸ແ਺ʹଘࡏ͢Δ 導⼊ •ը૾ͱςΩετΛೖྗͱͯ͠ɺςΩετΛग़ྗ͢ΔϞσϧ Ҏ߱ɺ-7-. ͱݺͿ ◦ ࣄલʹֶश͞Εͨʮը૾Τϯίʔμʯͱʮେن໛ݴޠϞσϧ

    --. ʯ Λ૊Έ߹Θͤͯը૾ςΩετσʔλΛ࢖༻ͯ͠௥Ճֶश͢Δ͜ͱͰ -7-. Λߏங͢Δ <image> Describe the image with a sentence consisting of three/six/nine words. Three: Seaside dining table Six: Dining table overlooking ocean with beer Nine: Outdoor restaurant table with ocean view and a beer ը૾ Τϯίʔμʔ େن໛ݴޠϞσϧ --. ͔͠͠ɺ-7-.ߏங࣌ͷબ୒ࢶ ΞʔΩςΫνϟ ࢖༻͢Δֶश σʔλͷछྨ -7-.ͷֶश࣌ͷ ϋΠύϥ ͳͲ ͸ແ਺ʹଘࡏ͠ɺ ͲͷΞϓϩʔν͕༏Ε͍ͯΔͷ͔ ෼໺ͱͯ͠ͷಉҙ͸ಘΒΕ͍ͯͳ͍ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  5. 6 େن໛ࢹ֮ݴޠϞσϧ -7-. ߏங࣌ͷબ୒ࢶ͸ແ਺ʹଘࡏ͢Δ 導⼊ •ը૾ͱςΩετΛೖྗͱͯ͠ɺςΩετΛग़ྗ͢ΔϞσϧ Ҏ߱ɺ-7-. ͱݺͿ ◦ ࣄલʹֶश͞Εͨʮը૾Τϯίʔμʯͱʮେن໛ݴޠϞσϧ

    --. ʯ Λ૊Έ߹Θͤͯը૾ςΩετσʔλΛ࢖༻ͯ͠௥Ճֶश͢Δ͜ͱͰ -7-. Λߏங͢Δ <image> Describe the image with a sentence consisting of three/six/nine words. Three: Seaside dining table Six: Dining table overlooking ocean with beer Nine: Outdoor restaurant table with ocean view and a beer ը૾ Τϯίʔμʔ େن໛ݴޠϞσϧ --. ͔͠͠ɺ-7-.ߏங࣌ͷબ୒ࢶ ΞʔΩςΫνϟ ࢖༻͢Δֶश σʔλͷछྨ -7-.ͷֶश࣌ͷ ϋΠύϥ ͳͲ ͸ແ਺ʹଘࡏ͠ɺ ͲͷΞϓϩʔν͕༏Ε͍ͯΔͷ͔ ෼໺ͱͯ͠ͷಉҙ͸ಘΒΕ͍ͯͳ͍ ઌߦݚڀͰߦΘΕ͖ͯͨ ΞϓϩʔνΛෳ਺঺հ͢Δ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  6. 7 ঺հ͢ΔઌߦݚڀΞϓϩʔνͷ෼ྨ ⽬次 •ຊεϥΠυͰ͸ɺઌߦݚڀͷΞϓϩʔνΛ ͭʹେผͯ͠঺հ͢Δ ◦ʮը૾Τϯίʔμʯͱʮେن໛ݴޠϞσϧ --. ʯͷ઀ଓํ๏ -4FMG"UUFOUJPOWT$SPTT"UUFOUJPO ◦ը૾ͷΤϯίʔυํ๏

    - طଘͷը૾ΤϯίʔμΛ࢖༻ͨ͠ ߴղ૾౓ը૾ͷѻ͍ -ߴղ૾౓ը૾Λ /BUJWFʹѻ͏͜ͱͷͰ͖Δը૾Τϯίʔμͷ࢖༻ ◦ֶशσʔλ ˡ 1BSUͰѻ͏༧ఆͰ͢ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  7. 8 ঺հ͢ΔઌߦݚڀΞϓϩʔνͷ෼ྨ ⽬次 •ຊεϥΠυͰ͸ɺઌߦݚڀͷΞϓϩʔνΛ ͭʹେผͯ͠঺հ͢Δ ◦ʮը૾Τϯίʔμʯͱʮେن໛ݴޠϞσϧ --. ʯͷ઀ଓํ๏ -4FMG"UUFOUJPOWT$SPTT"UUFOUJPO ◦ը૾ͷΤϯίʔυํ๏

    - طଘͷը૾ΤϯίʔμΛ࢖༻ͨ͠ ߴղ૾౓ը૾ͷѻ͍ -ߴղ૾౓ը૾Λ /BUJWFʹѻ͏͜ͱͷͰ͖Δը૾Τϯίʔμͷ࢖༻ ◦ֶशσʔλ ˡ 1BSUͰѻ͏༧ఆͰ͢ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  8. 9 4FMG"UUFOUJPOWT$SPTT"UUFOUJPO 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 •'SP[FO <5TJNQPVLFMMJ `>΍ 'MBNJOHP <"MBZSBD

    `>Ͱಋೖ͞ΕͯҎདྷɺ ΄ͱΜͲશͯͷ -7-.͸ʢશͯͷύϥϝʔλΛθϩ͔Βֶशͤ͞ΔͷͰ͸ͳ͘ʣ ࣄલֶश͞Εͨը૾Τϯίʔμͱ --.Λ૊Έ߹Θͤͯ௥Ճֶश͍ͯ͠Δ ◦ ࣄલֶशࡁΈͷ֤όοΫϘʔϯͷੑೳ͕ɺ݁Ռͱͯ͠ಘΒΕΔ -7-.ͷੑೳʹ ڧؔ͘࿈͍ͯ͠Δ͜ͱ͕ෳ਺ͷ࿦จͰࣔ͞Ε͍ͯΔ <-J `> <.D,JO[JF `> <-BVSFOÇPO `> <> <> ˛ όοΫϘʔϯͷมߋʹΑΔ -7-.ͷੑೳൺֱ ˞"WHTDPSF͸ 72"W 0,72" 5FYU72" $0$0ͷ #FODINBSLͷείΞฏۉ஋ ˞ 8IBUNBUUFSTXIFOCVJMEJOHWJTJPOMBOHVBHFNPEFMT <-BVSFOÇPO `> <>5BCMF <>5BCMF -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ ◦ ࣄલֶशࡁΈͷ --.ͷੑೳ͸ը૾ΤϯίʔμͷੑೳΑΓ΋ޮՌత <-J `> ◦ ը૾Τϯίʔμ͸ɺϞσϧαΠζΑΓߏ੒ ೖྗղ૾౓ ग़ྗը૾τʔΫϯ਺ ͕ॏཁ <-J `>
  9. 11 4FMG"UUFOUJPOΞʔΩςΫνϟϕʔεͷ -7-. 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 •--.ͷ 4FMG"UUFOUJPO ૚಺Ͱը૾τʔΫϯΛ ॲཧ͢Δػߏ

    ຒΊࠐΈ࣍ݩ਺ͷΈૢ࡞ ը૾ύον਺ʹมԽͳ͠ ը૾ύον਺࣍ݩͷૢ࡞ ຒΊࠐΈ࣍ݩ਺ʹมԽͳ͠ ը૾τʔΫϯͷຒΊࠐΈ User:<image>What do you see in this image?<eot> Assistant: ը૾Τϯίʔμ Ξμϓλʔ --. <s> ŋŋŋ ŋŋŋ ŋŋŋ ը૾ύον ࠾༻͢Δը૾Τϯίʔμʹ΋ΑΔ͕ جຊతʹݻఆ௕ͷը૾ύονΛग़ྗ .-1૚ 1FSDFJWFS3FTBNQMFS 1JYFM4IVGGMF લॲཧ "QQMZDIBUUFNQMBUF ŋŋŋ <s> User:<image>…<image>What do you see in this image?<eot> Assistant: User : <image> <image> ŋŋŋ <s> ŋŋŋ ▁User : <image> <image> ŋŋŋ JNBHFͷຒΊࠐΈʹ͸ɺ ࠨͷ΋ͷΛར༻͢Δ τʔΫϯຒΊࠐΈΛ࡞੒ : : -.)&"% ▁A What What Assistant Assistant -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  10. 14 4FMG"UUFOUJPOΞʔΩςΫνϟͷಛ௃ 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 •ෳࡶͳ࣮૷ͳ͠Ͱෳ਺ͷϞμϦςΟΛ౷ҰతʹॲཧͰ͖Δ •Ξμϓλʔ෦෼ʹ޻෉Λࢪ͢͜ͱͰɺը૾τʔΫϯΛ୹ॖͰ͖Δ ◦--.ͷݶΒΕͨೖྗܥྻ௕Λઅ໿͢Δࣄ͕Ͱ͖Δ ◦Ξμϓλʔ෦෼ͷ޻෉ʹ͸ɺҎԼͷ୅දతͳબ୒ࢶ͕͋Δ -.-1

    .VMUJMBZFS1FSDFQUSPO ૚͚ͩΛ࢖༻͢Δ ✗ ը૾τʔΫϯ୹ॖ -ྫ --B7" <-JV b> .PMNP <%FJULF b> -.-1૚ 1FSDFJWFS3FTBNQMFS Λ࢖༻͢Δ ̋ ը૾τʔΫϯ୹ॖ -ྫ *EFGJDT <-BVSFOÇPO `> Y(FO.. #-*1 <9VF `> -.-1૚ 1JYFM4IVGGMF Λ࢖༻͢Δ ̋ ը૾τʔΫϯ୹ॖ -ྫ *OUFSO7-  <$IFO `> *EFGJDT <-BVSFOÇPO `> /7-.% <%BJ `> Ξμϓλʔ ŋŋŋ .-1૚ 1FSDFJWFS3FTBNQMFS 1JYFM4IVGGMF ŋŋŋ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  11. 15 Ξμϓλʔͷ޻෉ ᶃ1FSDFJWFS3FTBNQMFS <+BFHMF `> ͱ͸ʁ 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 ◦1FSDFJWFS3FTBNQMFS

    Ͱ͸ɺજࡏม਺Λߋ৽͍ͯ͘͜͠ͱͰɺ ݩͷը૾τʔΫϯ਺ΑΓ΋গͳ͍৽ͨͳը૾τʔΫϯྻΛ࡞੒Ͱ͖Δ όΠτྻ  ೖྗ͞Εͨ ݩͷը૾τʔΫϯ જࡏม਺ྻ  ৽͘͠࡞ΒΕΔ ը૾τʔΫϯ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ <> <>1FSDFJWFS(FOFSBM1FSDFQUJPOXJUI*UFSBUJWF"UUFOUJPO<+BFHMF `> 'JHVSF
  12. 16 Ξμϓλʔͷ޻෉ ᶄ1JYFM4IVGGMFͱ͸ʁ 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 ◦ 1JYFM4IVGGMFͰ͸ɺͭͷྡ઀͢Δը૾τʔΫϯΛνϟϯωϧ࣍ݩʹԊͬͯ݁߹͢Δ ͨΊɺݩͷը૾τʔΫϯ਺ΑΓ΋গͳ͍৽ͨͳը૾τʔΫϯྻΛ࡞੒Ͱ͖Δ <>

    <>*OTQJSFECZ/7-.0QFO'SPOUJFS$MBTT.VMUJNPEBM--.T<%BJ `> 'JHVSF ը૾Τϯίʔμ Ξμϓλʔ ŋŋŋ ŋŋŋ .-1૚ ŋŋŋ ! × !$%& × ' ! × (%×(% × ' 1JYFM4IVGGMF ! × (!*×!*) × &' ! × %,* × &' 'MBUUFO ˣ $PODBU ೖྗ͞Εͨ ݩͷը૾τʔΫϯ਺ ৽͘͠มܗ͞Εͨ ը૾τʔΫϯ਺ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  13. 17 4FMG"UUFOUJPOϕʔεͷ -7-.ͷֶश 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 ຒΊࠐΈ࣍ݩ਺ͷΈૢ࡞ ը૾ύον਺ʹมԽͳ͠ ը૾ύον਺࣍ݩͷૢ࡞ ຒΊࠐΈ࣍ݩ਺ʹมԽͳ͠

    ը૾τʔΫϯͷຒΊࠐΈ User:<image>What do you see in this image?<eot> Assistant: ը૾Τϯίʔμ Ξμϓλʔ --. <s> ŋŋŋ ŋŋŋ ŋŋŋ ը૾ύον ࠾༻͢Δը૾Τϯίʔμʹ΋ΑΔ͕ جຊతʹݻఆ௕ͷը૾ύονΛग़ྗ .-1૚ 1FSDFJWFS3FTBNQMFS 1JYFM4IVGGMF લॲཧ "QQMZDIBUUFNQMBUF ŋŋŋ <s> User:<image>…<image>What do you see in this image?<eot> Assistant: User : <image> <image> ŋŋŋ <s> ŋŋŋ ▁User : <image> <image> ŋŋŋ JNBHFͷຒΊࠐΈʹ͸ɺ ࠨͷ΋ͷΛར༻͢Δ τʔΫϯຒΊࠐΈΛ࡞੒ : : -.)&"% ▁A What What Assistant Assistant •޿͘࠾༻͞Ε͍ͯΔֶशઓུ ◦ 4UBHF ࣄલֶशஈ֊ ը૾ςΩετؒΞϥΠϝϯτ֫ಘ  USBJOBCMF\Ξμϓλʔ^ GSP[FO\ը૾Τϯίʔμ --.^Ͱֶश -ֶश TUFQ਺ͷ૿Ճͱͱ΋ʹऔΓѻ͏ը૾ղ૾౓Λঃʑʹ্͍͛ͯ͘ઓུ͕༗ޮɻ ߴղ૾౓ը૾Λѻ͏ֶशஈ֊Λ৽ͨʹઃ͚͍ͯΔࣄྫ΋͋Δ <-BVSFOÇPO `> <;IBOH `> -ը૾Τϯίʔμ͕ൺֱతऑ͍৔߹ʢྫ7J5-ʣ΍ɺࣄલֶशσʔληοτ͕े෼ ʹଟ༷ͳ৔߹ʹ͸ɺΞμϓλʔͱը૾ΤϯίʔμΛڞಉͰֶश͢Δઓུ͕༗ޮ <%BJ `> -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ ˞࣌఺Ͱɺ 4UBHF ΛϑϧύϥϝʔλͰֶशͤ͞Δࣄྫ΋ෳ਺؍ଌ͞Ε͍ͯ·͢ɻ
  14. 18 4FMG"UUFOUJPOϕʔεͷ -7-.ͷֶश 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 ຒΊࠐΈ࣍ݩ਺ͷΈૢ࡞ ը૾ύον਺ʹมԽͳ͠ ը૾ύον਺࣍ݩͷૢ࡞ ຒΊࠐΈ࣍ݩ਺ʹมԽͳ͠

    ը૾τʔΫϯͷຒΊࠐΈ User:<image>What do you see in this image?<eot> Assistant: ը૾Τϯίʔμ Ξμϓλʔ --. <s> ŋŋŋ ŋŋŋ ŋŋŋ ը૾ύον ࠾༻͢Δը૾Τϯίʔμʹ΋ΑΔ͕ جຊతʹݻఆ௕ͷը૾ύονΛग़ྗ .-1૚ 1FSDFJWFS3FTBNQMFS 1JYFM4IVGGMF લॲཧ "QQMZDIBUUFNQMBUF ŋŋŋ <s> User:<image>…<image>What do you see in this image?<eot> Assistant: User : <image> <image> ŋŋŋ <s> ŋŋŋ ▁User : <image> <image> ŋŋŋ JNBHFͷຒΊࠐΈʹ͸ɺ ࠨͷ΋ͷΛར༻͢Δ τʔΫϯຒΊࠐΈΛ࡞੒ : : -.)&"% ▁A What What Assistant Assistant •޿͘࠾༻͞Ε͍ͯΔֶशઓུ ◦ 4UBHF ࣄલֶशஈ֊ ը૾ςΩετؒΞϥΠϝϯτ֫ಘ  USBJOBCMF\Ξμϓλʔ^ GSP[FO\ը૾Τϯίʔμ --.^Ͱֶश -ֶश TUFQ਺ͷ૿Ճͱͱ΋ʹऔΓѻ͏ը૾ղ૾౓Λঃʑʹ্͍͛ͯ͘ઓུ͕༗ޮɻ ߴղ૾౓ը૾Λѻ͏ֶशஈ֊Λ৽ͨʹઃ͚͍ͯΔࣄྫ΋͋Δ <-BVSFOÇPO `> <;IBOH `> -ը૾Τϯίʔμ͕ൺֱతऑ͍৔߹ʢྫ7J5-ʣ΍ɺࣄલֶशσʔληοτ͕े෼ ʹଟ༷ͳ৔߹ʹ͸ɺΞμϓλʔͱը૾ΤϯίʔμΛڞಉͰֶश͢Δઓུ͕༗ޮ <%BJ `> ◦ 4UBHF 4'5ஈ֊ ࢦࣔ௥ैೳྗ޲্  USBJOBCMF\Ξμϓλʔ --.^ GSP[FO\ը૾Τϯίʔμ^Ͱֶश ---.Λݻఆ͠ͳ͍৔߹ɺςΩετ POMZλεΫͷੑೳ͕ྼԽͯ͠͠·͏ ˠ ߴ඼࣭ͷςΩετ POMZ*OTUSVDUJPO5VOJOHσʔλΛ૊ΈࠐΉ͜ͱͰ཈੍ <%BJ `> -ֶश͕ෆ҆ఆʹͳΔ৔߹ --.ʹ -P3" Λద༻͢Δ৔߹΋͋Δ <-BVSFOÇPO `> -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ ˞ ˞࣌఺Ͱɺ 4UBHF ΛϑϧύϥϝʔλͰֶशͤ͞Δࣄྫ΋ෳ਺؍ଌ͞Ε͍ͯ·͢ɻ
  15. 19 4FMG"UUFOUJPOϕʔεͷ -7-.ͷֶश஌ࣝ֫ಘ΋໨ࢦ͍ͨ͠৔߹ 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 •--B7" 0OF7JTJPO --B7" /F95

    #MPH Ͱ͸஌ࣝ֫ಘஈ֊Λݕ౼ ◦ 4UBHF ࣄલֶशஈ֊ ը૾ςΩετؒΞϥΠϝϯτ֫ಘ  USBJOBCMF\Ξμϓλʔ^ GSP[FO\ը૾Τϯίʔμ --.^Ͱֶश ◦ 4UBHF ஌ࣝ֫ಘஈ֊ ৽ͨͳ஌ࣝͷ֫ಘ  USBJOBCMF\Ξμϓλʔ --.^ GSP[FO\ը૾Τϯίʔμ^Ͱֶश -ࣄલֶशࡁΈͷ --.΍ ը૾Τϯίʔμ͕طʹଟ͘ͷ஌ࣝΛ༗͍ͯ͠Δ͜ͱΛલఏ ͱ͠ɺߴ඼࣭ͳσʔλͰ஌ࣝΛચ࿅ɾڧԽ͢Δ͜ͱΛ໨తͱ͢Δ -஌ࣝΛؚΉσʔλͷ࢖༻8FCϖʔδ ৄࡉը૾આ໌σʔλ จॻ0$3σʔλ ͳͲ -͜͜Ͱɺ৽͍͠ߴ඼࣭σʔλʹܧଓతʹ৮ΕΔ͜ͱͰ৽ͨͳ஌ࣝ֫ಘΛ໨ࢦ͢ ◦ 4UBHF 4'5ஈ֊ ࢦࣔ௥ैೳྗ޲্  USBJOBCMF\Ξμϓλʔ --.^ GSP[FO\ը૾Τϯίʔμ^Ͱֶश -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ ˞ ˞--B7" 0OF7JTJPO --B7" /F95Ͱ͸ɺ 4UBHF  4UBHF ͱ΋ʹϑϧύϥϝʔλΛֶश͍ͤͯ͞Δɻ ͜ͷࡍɺ-7-.ͷֶश͕҆ఆ͢Δͱ͍͏ཧ༝Ͱɺը૾Τϯίʔμͷֶश཰Λ --.ͷֶश཰ΑΓ΋ৗʹഒ௿͘ઃఆ͍ͯ͠Δɻ ৄࡉ͕ؾʹͳΔํ͸ɺ--B7" /F95ͷ #MPH 4FDUJPO -BOHVBHF.PEFMT <-J `> Λࢀর͍ͯͩ͘͠͞ɻ ˞
  16. 20 4FMG"UUFOUJPOϕʔεͷ -7-.1FSDFJWFS3FTBNQMFSपลͷޮՌ 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 • 1FSDFJWFS3FTBNQMFS͔Βग़ྗ͞ΕΔը૾τʔΫϯ਺Λ ૿΍͢ͱɺಛʹ 0$3ؔ࿈λεΫͰͷੑೳ͕޲্͢Δ

    • 1FSDFJWFS3FTBNQMFS ͸୯७ͳઢܗ૚ͷΈͷ Ξμϓλʔͱൺֱͯ͠ -7-.ͷੑೳ͕ߴ͘ͳΔ • 1FSDFJWFS3FTBNQMFS ͷ૚਺Λ૿΍ͯ͠΋ ݮΒͯ͠΋ -7-.ͷੑೳʹ͋·Γد༩͠ͳ͍Մೳੑ • 1FSDFJWFS3FTBNQMFS ͷલʹ .-1૚ΛڬΜͩํ͕ྑ͍ <> ˛ ը૾ UPLFO਺ΛมԽͤͨ࣌͞ͷੑೳൺֱ 8IBUNBUUFSTXIFOCVJMEJOHWJTJPOMBOHVBHFNPEFMT <-BVSFOÇPO `> <>5BCMF <>5BCMF <>5BCMF <>5BCMF <> <> <> ˛ Ξμϓλʔʹ࢖༻͢ΔϞδϡʔϧผͷੑೳൺֱ ˛ 1FSDFJWFS3FTBNQMFS ͷ૚਺ʹΑΔੑೳൺֱ ˛ 1FSDFJWFS3FTBNQMFS ͷલʹ .-1૚Λ௥Ճ͢Δ ͜ͱʹΑΔੑೳൺֱ ˞"WHTDPSF͸ 72"W 0,72" 5FYU72" $0$0ͷ #FODINBSLͷείΞฏۉ஋ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  17. 21 4FMG"UUFOUJPOϕʔεͷ -7-.ͷֶशֶश࣌ͷઃఆʹؔ͢Δ஌ݟ 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ •MPTT஋ <-J `>

    ◦૊Έࠐ·Ε͍ͯΔ --.͕େ͖͍΄Ͳऩଋ͕ૣ͘ MPTT͕௿͘ͳΔ܏޲͕͋Δ •ֶश཰ <-J `> ◦ֶश͕ෆ҆ఆʹͳΔ৔߹ɺֶश཰Λ௿͘͢Δͱֶशͷෆ҆ఆ͕ܰݮ͞ΕΔ܏޲ ◦ը૾Τϯίʔμͷֶश཰͸ --.ͷֶश཰ΑΓ΋ৗʹ ʙഒখ͍͞ํ͕ ֶशͷ҆ఆੑ͕޲্͢Δ ◦--.ͷֶश཰Λ Fˠ Fʹมߋͯ͠΋ MPTT஋ʹ͸େ͖ͳ͕ࠩݟΒΕͳ ͔͕ͬͨɺԼྲྀλεΫͰͷ࠷ऴతͳੑೳʹ͸େ͖ͳ͕ࠩੜͨ͡ͱ͍͏ใࠂ •/&'5VOF <-BVSFOÇPO `> ◦4'5ஈ֊Ͱ /&'5VOF ϊΠζ <+BJO `>ΛೖྗʹՃ͑ͯɺճ౴τʔΫϯͷΈͰ ଛࣦΛܭࢉ͍ͯ͠Δࣄྫ΋͋Δ
  18. 22 4FMG"UUFOUJPOϕʔεͷ -7-.ͷֶशઃఆͷ۩ମྫ*EFGJDT 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ • --. 

    -MBNB#*OTUSVDU • ը૾Τϯίʔμ  4JH-*140. • Ξμϓλʔ  .-1 1JYFM4IVGGMF <>#VJMEJOHBOECFUUFSVOEFSTUBOEJOHWJTJPOMBOHVBHFNPEFMTJOTJHIUTBOEGVUVSFEJSFDUJPOT<-BVSFOÇPO `> 5BCMF <> 1M ਪଌ஋ 3M ਪଌ஋ 1.5M ਪଌ஋ 5M ਪଌ஋ # Samples ਪଌ஋ (DoRA) (DoRA) (DoRA)
  19. 23 4FMG"UUFOUJPOϕʔεͷ -7-.ͷֶशઃఆͷ۩ମྫ/7-.% 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ 4UBHF 4UBHF •

    --.  2XFO#*OTUSVDU • ը૾Τϯίʔμ  *OUFSO7J5#QY7 • Ξμϓλʔ  .-1 1JYFM4IVGGMF <>/7-.0QFO'SPOUJFS$MBTT.VMUJNPEBM--.T<%BJ `> 5BCMF 5BCMF <> 40M ਪଌ஋ 5M ਪଌ஋ # Samples ਪଌ஋
  20. 25 $SPTT"UUFOUJPOΞʔΩςΫνϟϕʔεͷ -7-. 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 •--.಺ͷಛఆͷ %FDPEFS#MPDL͝ͱʹ $SPTT"UUFOUJPO૚Λ ૠೖ͠ɺͦͷதͰը૾

    τʔΫϯΛॲཧ͢Δػߏ User:<image>What do you see in this image?<eot> Assistant: ը૾Τϯίʔμ --. <s> ŋŋŋ ŋŋŋ ŋŋŋ 1FSDFJWFS3FTBNQMFS લॲཧ "QQMZDIBUUFNQMBUF <s> User:<image>What do you see in this image?<eot> Assistant: User : <image> <s> ŋŋŋ ▁User : <image> τʔΫϯຒΊࠐΈΛ࡞੒ : : -.)&"% ▁A What What Assistant Assistant 4FMG"UUFOUJPO 'FFE'PSXBSE/FUXPSL ''/ (BUFE$SPTT"UUFOUJPO ௨ৗɺ/൪໨ͷ #MPDL͝ͱʹ (BUFE$SPTT"UUFOUJPO ͕ૠೖ͞Ε͍ͯΔ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  21. 26 $SPTT"UUFOUJPOΞʔΩςΫνϟͷಛ௃ 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 •࣮૷͸ෳࡶʹͳΔ͕ɺ--.ͷ %FDPEFS#MPDL಺Ͱը૾τʔΫϯΛ શͯల։͢Δඞཁ͕ͳ͘ͳΔͨΊɺܭࢉޮ཰͕ߴ͘ͳΔ ◦࣮૷͕ෳࡶʹͳΔཁҼ -௥Ճͷ

    $SPTT"UUFOUJPOϞδϡʔϧͷಋೖ -ը૾ͱςΩετ͕ަޓʹ഑ஔ͞ΕΔઃఆͰͷ $SPTT"UUFOUJPO.BTLJOH -௥Ճͨ͠ $SPTT"UUFOUJPO͕ Ұൠʹ େ͖ͳύϥϝʔλ਺Λ࣋ͭͨΊɺ ֶशʹଟ͘ͷσʔλ͕ඞཁͱͳΔ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  22. 27 $SPTT"UUFOUJPOΞʔΩςΫνϟͷಛ௃ 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 •࣮૷͸ෳࡶʹͳΔ͕ɺ--.ͷ %FDPEFS#MPDL಺Ͱը૾τʔΫϯΛ શͯల։͢Δඞཁ͕ͳ͘ͳΔͨΊɺܭࢉޮ཰͕ߴ͘ͳΔ ◦࣮૷͕ෳࡶʹͳΔཁҼ -௥Ճͷ

    $SPTT"UUFOUJPOϞδϡʔϧͷಋೖ -ը૾ͱςΩετ͕ަޓʹ഑ஔ͞ΕΔઃఆͰͷ $SPTT"UUFOUJPO.BTLJOH -௥Ճͨ͠ $SPTT"UUFOUJPO͕ Ұൠʹ େ͖ͳύϥϝʔλ਺Λ࣋ͭͨΊɺ ֶशʹଟ͘ͷσʔλ͕ඞཁͱͳΔ •$SPTT"UUFOUJPOʹೖྗ͞ΕΔલஈ֊ʹ͓͚Δࢹ֮৘ใͷॲཧ -ը૾Τϯίʔμ͔Βग़ྗ͞Εͨࢹ֮ಛ௃ྔΛͦͷ··࢖༻͢Δ -ྫ -MBNB7 <%VCFZ `> /7-.9 <%BJ `> -ը૾Τϯίʔμ͔Βͷग़ྗ 1FSDFJWFS3FTBNQMFS Λ࢖༻͢Δ -ྫ 'MBNJOHP <"MBZSBD `> *EFGJDT <-BVSFOÇPO `> ը૾Τϯίʔμ ŋŋŋ ŋŋŋ 1FSDFJWFS3FTBNQMFS ˞/7-.9<%BJ `> Ͱ͸ɺ1FSDFJWFS 3FTBNQMFS ΁ͷજࡏ഑ྻ΁ͷ $SPTT"UUFOUJPO͕ೖྗը૾τʔΫϯΛࠞͥ߹ΘͤΔͨΊɺ จॻ 0$3λεΫʹॏཁͳը૾ύονؒͷۭؒతؔ܎͕ཚΕΔՄೳੑΛࢦఠ͠ɺ࣮ࡍʹ 0$3λεΫͷੑೳ͕ѱԽͨ͠ͱͷใࠂ͕͋Δ ˞ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  23. 28 $SPTT"UUFOUJPOϕʔεͷ -7-.ͷֶश 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 •޿͘࠾༻͞Ε͍ͯΔֶशઓུ ◦ 4UBHF ࣄલֶशஈ֊

    USBJOBCMF\Ξμϓλʔ $SPTT"UUO^ GSP[FO\ը૾Τϯίʔμ --.^Ͱֶश -όοναΠζΛେ͖͘͢Δ͜ͱͰɺੑೳ͕վળ <%BJ `> User:<image>What do you see in this image?<eot> Assistant: ը૾Τϯίʔμ --. <s> ŋŋŋ ŋŋŋ ŋŋŋ 1FSDFJWFS3FTBNQMFS લॲཧ "QQMZDIBUUFNQMBUF <s> User:<image>What do you see in this image?<eot> Assistant: User : <image> <s> ŋŋŋ ▁User : <image> τʔΫϯຒΊࠐΈΛ࡞੒ : : -.)&"% ▁A What What Assistant Assistant 4FMG"UUFOUJPO 'FFE'PSXBSE/FUXPSL ''/ (BUFE$SPTT"UUFOUJPO ௨ৗɺ/൪໨ͷ #MPDL͝ͱʹ (BUFE$SPTT"UUFOUJPO ͕ૠೖ͞Ε͍ͯΔ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  24. 29 $SPTT"UUFOUJPOϕʔεͷ -7-.ͷֶश 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 •޿͘࠾༻͞Ε͍ͯΔֶशઓུ ◦ 4UBHF ࣄલֶशஈ֊

    USBJOBCMF\Ξμϓλʔ $SPTT"UUO^ GSP[FO\ը૾Τϯίʔμ --.^Ͱֶश -όοναΠζΛେ͖͘͢Δ͜ͱͰɺੑೳ͕վળ <%BJ `> ◦ 4UBHF 4'5ஈ֊ USBJOBCMF\Ξμϓλʔ $SPTT"UUO^ GSP[FO\ը૾Τϯίʔμ --.^Ͱֶश ---.Λݻఆ͍ͯ͠Δ৔߹ɺࢹ֮ݴޠλεΫͷੑೳ͕௿Լ͢Δ৔߹͕͋Δ ͜Ε͸ɺ૊Έࠐ·Εͨ --.͕աڈʹֶश͍ͯ͠ͳ͍λεΫ΍ࢦࣔΛֶश͢Δ৔߹ʹ ൃੜ͢ΔՄೳੑ͕ߴ͍ ˠ --.ΛֶशՄೳʹ͢Δ ߴ඼࣭ͷςΩετ POMZ*OTUSVDUJPO5VOJOHσʔλΛ ૊ΈࠐΉ͜ͱͰςΩετ POMZͷੑೳ௿ԼΛ཈੍͍ͯ͠Δࣄྫ΋͋Δ <%BJ `> User:<image>What do you see in this image?<eot> Assistant: ը૾Τϯίʔμ --. <s> ŋŋŋ ŋŋŋ ŋŋŋ 1FSDFJWFS3FTBNQMFS લॲཧ "QQMZDIBUUFNQMBUF <s> User:<image>What do you see in this image?<eot> Assistant: User : <image> <s> ŋŋŋ ▁User : <image> τʔΫϯຒΊࠐΈΛ࡞੒ : : -.)&"% ▁A What What Assistant Assistant 4FMG"UUFOUJPO 'FFE'PSXBSE/FUXPSL ''/ (BUFE$SPTT"UUFOUJPO ௨ৗɺ/൪໨ͷ #MPDL͝ͱʹ (BUFE$SPTT"UUFOUJPO ͕ૠೖ͞Ε͍ͯΔ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  25. 30 $SPTT"UUFOUJPOϕʔεͷ -7-.ͷֶशઃఆͷ۩ମྫ/7-.9 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ 4UBHF 4UBHF •

    --.  ◦ # /PVT)FSNFT:J# ◦ # 2XFO#*OTUSVDU • ը૾Τϯίʔμ  *OUFSO7J5#QY7 • Ξμϓλʔ  .-1 (BUFE$SPTT"UUO <>/7-.0QFO'SPOUJFS$MBTT.VMUJNPEBM--.T<%BJ `> 5BCMF 5BCMF <> 40M ਪଌ஋ 10M (34B), 5M (72B) ਪଌ஋ # Samples ਪଌ஋
  26. 31 4FMG"UUFOUJPOWT$SPTT"UUFOUJPO௕ॴͱ୹ॴ 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 • $SPTT"UUOϕʔεͷ -7-.͸ɺ$SPTT"UUO͕৽ͨʹ ௥Ճ͞ΕΔͨΊɺύϥϝʔλ͕େ͖͘ͳΓ͕ͪʢ-MBNB7 #Ͱ͸

    #ͷ৽ن $SPTT"UUOύϥϝʔλ͕௥Ճ͞Ε͍ͯΔʣ 4FMG "UUFOUJPO $SPTT "UUFOUJPO ௥Ճύϥϝʔλ਺ খ େ ֶशޮ཰ ˛ ˔ ςΩετ POMZੑೳ ͷҡ࣋ͷ͠΍͢͞ ˛ ˔ ࣮૷ͷෳࡶ౓߹͍ ؆қ ෳࡶ • $SPTT"UUOϕʔεͷ -7-.͸ɺ --.ͷ %FDPEFS#MPDLͰ શͯͷը૾τʔΫϯΛల։͢Δඞཁ͕ͳ͍ͷͰɺ ߴղ૾౓ը૾ͷޮ཰తͳॲཧ͕Մೳ • $SPTT"UUOϕʔεͷ -7-.͸ɺֶश࣌ʹ --.ͷॏΈ͕ ݻఆ͞Ε͍ͯΔͷͰɺςΩετ POMZͷੑೳΛҡ࣋͠΍͍͢ • $SPTT"UUOϕʔεͷ -7-.͸ɺ࣮૷͕ෳࡶʹͳΔ Qࢀর -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  27. 32 4FMG"UUFOUJPOWT$SPTT"UUFOUJPO௕ॴͱ୹ॴ ิ଍ֶशޮ཰ͷৄࡉ 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 4FMG "UUFOUJPO $SPTT "UUFOUJPO

    ֶशޮ཰ ˛ ˔ • $SPTT"UUOϕʔεͷ -7-.͸ɺ --.ͷ %FDPEFS#MPDLͰ શͯͷը૾τʔΫϯΛల։͢Δඞཁ͕ͳ͍ͷͰɺ ߴղ૾౓ը૾ͷޮ཰తͳॲཧ͕Մೳ $SPTT"UUOˠ 4FMG"UUOˠ ˞ˠ ˞/7-.)͸ 4FMG"UUOϞσϧͱ $SPTT"UUOϞσϧͷྑ͍ͱ͜औΓΛͨ͠Α͏ͳϞσϧͱͳ͍ͬͯΔɻ ৄࡉ͸ /7-.0QFO'SPOUJFS$MBTT.VMUJNPEBM--.T<%BJ `> Λࢀর͍ͯͩ͘͠͞ɻ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ <> <>/7-.0QFO'SPOUJFS$MBTT.VMUJNPEBM--.T<%BJ `> 5BCMF
  28. 33 4FMG"UUFOUJPOWT$SPTT"UUFOUJPO7-#FODINBSLͰͷධՁ݁Ռ 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 <> <>/7-.0QFO'SPOUJFS$MBTT.VMUJNPEBM--.T<%BJ `> 5BCMF •

    ϞσϧΞʔΩςΫνϟҎ֎ͷֶश࣌ͷઃఆ ֶशσʔλͳͲ ΛՄೳͳݶΓଗ͑ͨ৔߹ʹ͓͍ͯɺ 4FMG"UUOϞσϧ /7-.% ͸ෳ਺ͷ #FODINBSLͰɺ$SPTT"UUOϞσϧ /7-.9 ΑΓ΋ ༏ΕͨੑೳΛ͍ࣔͯ͠Δ • 4FMG"UUOϞσϧ $SPTT"UUOϞσϧͱ΋ʹɺ4'5࣌ʹߴ඼࣭ͷςΩετ POMZ*OTUSVDUJPO5VOJOH σʔλΛ૊ΈࠐΉ͜ͱͰɺςΩετ POMZλεΫͷੑೳྼԽΛ཈੍͞Βʹ͸޲্Ͱ͖͍ͯΔ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  29. 34 ঺հ͢ΔઌߦݚڀΞϓϩʔνͷ෼ྨ ⽬次 •ຊεϥΠυͰ͸ɺઌߦݚڀͷΞϓϩʔνΛ ͭʹେผͯ͠঺հ͢Δ ◦ʮը૾Τϯίʔμʯͱʮେن໛ݴޠϞσϧ --. ʯͷ઀ଓํ๏ -4FMG"UUFOUJPOWT$SPTT"UUFOUJPO ◦ը૾ͷΤϯίʔυํ๏

    - طଘͷը૾ΤϯίʔμΛ࢖༻ͨ͠ ߴղ૾౓ը૾ͷѻ͍ -ߴղ૾౓ը૾Λ /BUJWFʹѻ͏͜ͱͷͰ͖Δը૾Τϯίʔμͷ࢖༻ ◦ֶशσʔλ ˡ 1BSUͰѻ͏༧ఆͰ͢ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  30. 35 طଘͷը૾ΤϯίʔμΛ࢖༻ͨ͠ ߴղ૾౓ը૾ͷѻ͍ •-7-.ͷߏங࣌ʹ͸ࣄલֶशࡁΈը૾ΤϯίʔμΛ࢖༻͢Δ ◦ ࠷ऴੑೳ޲্ʹد༩͢ΔͨΊ $-*1༝དྷͷ 7J5 ը૾Τϯίʔμ͕࢖ΘΕΔࣄ͕ଟ͍ <,BSBNDIFUJ

    `> - ྫ -$-*17J5 -! -! -4JH-*1 -! -! ͳͲ - ྫ͑͹ɺ-!ͷ৔߹ɺ-BSHFϞσϧͷ 1BUDITJ[F ը૾ղ૾౓ʷQJYFM Ͱֶश͞Εͨ 7J5 Ͱ͋ΔͱಡΊΔ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ 2. 画像のエンコード⽅法: (既存の画像エンコーダを使⽤した) ⾼解像度画像の扱い •ࣄલֶशࡁΈը૾Τϯίʔμͷେ൒͕੩తղ૾౓ ʷͳͲ Ͱֶश͞Ε͍ͯΔ
  31. 36 طଘͷը૾ΤϯίʔμΛ࢖༻ͨ͠ ߴղ૾౓ը૾ͷѻ͍ •ࣄલֶशࡁΈը૾Τϯίʔμͷେ൒͕੩తղ૾౓ ʷͳͲ Ͱֶश͞Ε͍ͯΔ •-7-.ͷߏங࣌ʹ͸ࣄલֶशࡁΈը૾ΤϯίʔμΛ࢖༻͢Δ ◦ ࠷ऴੑೳ޲্ʹد༩͢ΔͨΊ $-*1༝དྷͷ

    7J5 ը૾Τϯίʔμ͕࢖ΘΕΔࣄ͕ଟ͍ <,BSBNDIFUJ `> - ྫ -$-*17J5 -! -! -4JH-*1 -! -! ͳͲ - ྫ͑͹ɺ-!ͷ৔߹ɺ-BSHFϞσϧͷ 1BUDITJ[F ը૾ղ૾౓ʷQJYFM Ͱֶश͞Εͨ 7J5 Ͱ͋ΔͱಡΊΔ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ 2. 画像のエンコード⽅法: (既存の画像エンコーダを使⽤した) ⾼解像度画像の扱い •ը૾ΛϦαΠζͯ͠੩తղ૾౓ ʷͳͲ ʹམͱͤ͹ѻ͑ΔΑ͏ʹͳΔ͕ɺ ϦαΠζ͢Δࡍʹݩͷղ૾౓ͷը૾ʹؚ·Ε͍ͯͨ৘ใ͕མͪͯ͠·͏ Ͳ͏͢Δʜ 🤔
  32. 37 ࠷ۙͷ -7-.Ͱ͸ʮը૾෼ׂઓུʯ͕ඇৗʹΑ͘࢖ΘΕΔ 2. 画像のエンコード⽅法: (既存の画像エンコーダを使⽤した) ⾼解像度画像の扱い •ೖྗը૾ͷΞεϖΫτൺͱղ૾౓ʹج͍ͮͯλΠϧʹ෼ׂ͢Δઓུ ◦ ྫ

    $-*17J5-!Λ༻͍ͯɺߴղ૾౓ը૾ ʷQJYFM Λॲཧ͢Δ৔߹ ೖྗը૾ ೖྗը૾ 5JMF  5JMF  5JMF  5JMF  5JMF  5JMF  QY QY ᶃ ೖྗը૾ͷΞεϖ Ϋτൺʹج͍ͮͯɺ ࣄલʹఆٛ͞ΕͨΞ εϖΫτൺͷத͔Β ࠷΋͍ۙ΋ͷ͕બ୒ ͞Εɺ͞Βʹղ૾౓ ʹج͍ͮͯλΠϧʹ ෼ׂ͞ΕΔ QY QY શମ ը૾ 5JMF  QY ը૾ Τϯίʔμ ŋŋŋ ը૾ Τϯίʔμ ŋŋŋ QY ը૾ Τϯίʔμ ŋŋŋ ŋŋŋ 5JMF  ŋŋŋ ᶄ ϦαΠζ͞Εͨશମը૾ͱλΠϧը૾Λ ݸผʹը૾Τϯίʔμʹೖྗ͢Δ ᶅ ͜ΕΒશͯͷը૾τʔΫϯΛ࢖༻ ˠ Ξμϓλʔʹೖྗ͞ΕΔ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  33. 38 ը૾෼ׂઓུͰؾΛ͚ͭΔ͜ͱλΠϧλάͷಋೖ 2. 画像のエンコード⽅法: (既存の画像エンコーダを使⽤した) ⾼解像度画像の扱い •ը૾෼ׂઓུʹΑΓɺಛʹ 0$3ؔ࿈λεΫͰͷੑೳ͕େ෯ʹ޲্͢Δ •͔͠͠ɺλΠϧ͔ΒಘΒΕͨશͯͷը૾τʔΫϯΛ୯७ʹ࿈݁ͯ͠ --.ʹ௚઀ೖྗͯ͠͠·͏ͱਪ࿦ؔ࿈ͷλεΫͰͷੑೳ͕௿Լ͢Δ৔߹͕͋Δ

    ◦ λΠϧؒͷؔ܎ੑ͕໌ࣔ͞Ε͍ͯͳ͍ͷͰɺֶश࣌ʹ --.͕ࠞཚ͢ΔՄೳੑ͕͋Δ ˠ λΠϧλάΛಋೖ͢Δ͜ͱͰɺೖྗը૾શମͷλΠϧͷҐஔΛ໌ࣔ͢Δ B /PUBHλΠϧλάΛ࢖༻ͤͣʹ୯७ʹ࿈݁͢Δํ๏ C %UBH<tile_1> <tile_2> ʜ <tile_6> <tile_global> D %HSJEUBH<tile_x0_y0> <tile_x1_y0> ʜ <tile_x2_y1> <tile_global> E %CCPY UBH<box> (x0, y0), (x1, y1) </box> ʜ <box> (x2, y1) (x3, y2) </box> ߴղ૾౓ը૾શମ಺Ͱͷ֘౰λΠϧͷ <box> (ࠨ্࠲ඪ), (ӈԼ࠲ඪ) </box> ྫ /7-. <%BJ `> ʹ͓͚ΔλΠϧλάͷྫ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  34. 39 ը૾෼ׂઓུ λΠϧλά ͷޮՌ ᶃ 4FMG"UUFOUJPOͷ৔߹ 2. 画像のエンコード⽅法: (既存の画像エンコーダを使⽤した) ⾼解像度画像の扱い

    • ը૾෼ׂઓུʹΑΓɺಛʹ 0$3ؔ࿈λεΫ $IBSU2" %PD72" 0$3#FODI Ͱͷੑೳ͕େ෯ʹ޲্ • λΠϧλάΛ෇༩͢Δ͜ͱͰɺੑೳ޲্͕֬ೝͰ͖Δ ಛʹ %UBH͕༗ޮͦ͏ ˛ 4FMG"UUFOUJPOϕʔεͷ -7-. ʹ͓͚Δɺը૾෼ׂઓུ λΠϧλά࢖༻࣌ͷੑೳൺֱ B /P UBHλΠϧλάΛ࢖༻ͤͣʹ୯७ʹ࿈݁͢Δํ๏ C %UBH<tile_1> <tile_2> ʜ <tile_6> <tile_global> D %HSJE UBH <tile_x0_y0> <tile_x1_y0> ʜ <tile_x2_y1> <tile_global> E %CCPY UBH<box> (x0, y0), (x1, y1) </box> ʜ <box> (x2, y1) (x3, y2) </box> ߴղ૾౓ը૾શମ಺Ͱͷ֘౰λΠϧͷ <box> (ࠨ্࠲ඪ), (ӈԼ࠲ඪ) </box> ྫ /7-. <%BJ `> ʹ͓͚ΔλΠϧλάͷྫ <>/7-.0QFO'SPOUJFS$MBTT.VMUJNPEBM--.T<%BJ `> 5BCMF <> -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  35. 40 ը૾෼ׂઓུ λΠϧλά ͷޮՌ ᶄ $SPTT"UUFOUJPOͷ৔߹ 2. 画像のエンコード⽅法: (既存の画像エンコーダを使⽤した) ⾼解像度画像の扱い

    •ը૾෼ׂઓུʹΑΓɺ...6Λআ͘શͯͷ #FODINBSLͰͷੑೳ͕޲্ •λΠϧλάΛ෇༩͢Δ͜ͱͰɺશͯͷ #FODINBSLͰੑೳ޲্Λ֬ೝ ˛ $SPTT"UUFOUJPOϕʔεͷ -7-. ʹ͓͚Δɺը૾෼ׂઓུ λΠϧλά࢖༻࣌ͷੑೳൺֱ <>/7-.0QFO'SPOUJFS$MBTT.VMUJNPEBM--.T<%BJ `> 5BCMF <> B /P UBHλΠϧλάΛ࢖༻ͤͣʹ୯७ʹ࿈݁͢Δํ๏ C %UBH<tile_1> <tile_2> ʜ <tile_6> <tile_global> ྫ /7-. <%BJ `> ʹ͓͚ΔλΠϧλάͷྫ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ ˠ ΞʔΩςΫνϟ 4FMG"UUO $SPTT"UUO ʹΑΒͣɺը૾෼ׂઓུ λΠϧλάઓུ͸༗ޮ
  36. 41 ঺հ͢ΔઌߦݚڀΞϓϩʔνͷ෼ྨ ⽬次 •ຊεϥΠυͰ͸ɺઌߦݚڀͷΞϓϩʔνΛ ͭʹେผͯ͠঺հ͢Δ ◦ʮը૾Τϯίʔμʯͱʮେن໛ݴޠϞσϧ --. ʯͷ઀ଓํ๏ -4FMG"UUFOUJPOWT$SPTT"UUFOUJPO ◦ը૾ͷΤϯίʔυํ๏

    - طଘͷը૾ΤϯίʔμΛ࢖༻ͨ͠ ߴղ૾౓ը૾ͷѻ͍ -ߴղ૾౓ը૾Λ /BUJWFʹѻ͏͜ͱͷͰ͖Δը૾Τϯίʔμͷ࢖༻ ◦ֶशσʔλ ˡ 1BSUͰѻ͏༧ఆͰ͢ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  37. 43 ߴղ૾౓ը૾Λ/BUJWFʹѻ͏͜ͱͷͰ͖Δը૾Τϯίʔμͷ࢖༻ 2. 画像のエンコード⽅法 •ೖྗը૾Λݩͷղ૾౓ͱΞεϖΫτൺΛม͑ͣʹɺ/BUJWFʹॲཧͰ͖Δ ࣄલֶशࡁΈը૾Τϯίʔμ͕։ൃ͞ΕΔͱخ͍͠ͷ͕ͩ  ◦ 2XFO7-<8BOH `>

    ◦ 1JYUSBM <"HSBXBM `> Ͱ Α͏΍͘ ಈతղ૾౓Λѻ͑Δը૾Τϯίʔμ͕։ൃɾ࢖༻͞ΕΔʂ •ͦ΋ͦ΋ɺߴղ૾౓ը૾ͷॲཧʹઌ΄Ͳ঺հͨ͠Α͏ͳը૾෼ׂઓུΛऔΒ͟ΔΛಘͳ͘ ͳͬͨେݩͷཁҼ͸ɺࣄલֶशࡁΈը૾Τϯίʔμͷେ൒͕੩తղ૾౓ ʷͳͲ Ͱ ֶश͞Ε͍ͯΔ ͨΊೖྗը૾ΛϦαΠζ͠ͳ͍ͱ͍͚ͳ͍ ͜ͱͰ͋Δ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  38. 47 ಈతղ૾౓Λѻ͑Δը૾ΤϯίʔμͷޮՌ 2. 画像のエンコード⽅法: ⾼解像度画像を Native に扱うことのできる画像エンコーダの使⽤ <>2XFO7-&OIBODJOH7JTJPO-BOHVBHF.PEFMT1FSDFQUJPOPGUIF8PSMEBU"OZ3FTPMVUJPO<8BOH `> 5BCMF

    <> •ಈతղ૾౓ઓུ͸ฏۉͯ͠τʔΫϯফඅΛ཈͑ͭͭɺ ෳ਺ͷ #FODINBSLͰτοϓϨϕϧͷੑೳΛୡ੒͍ͯ͠Δ ˛ ੩తղ૾౓ઓུͱಈతղ૾౓ઓུ࢖༻࣌ͷੑೳൺֱ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  39. 49 $PGGFFCSFBLᶃը૾Τϯίʔμ͸ඞཁͳ͍ʁ <>'VZV#".VMUJNPEBM"SDIJUFDUVSFGPS"*"HFOUT<#BWJTIJ `> <> •'VZV ͸ɺը૾ΤϯίʔμΛ࢖Θͣʹɺը૾ύονʹ୯७ͳઢܗࣹӨͷΈద༻͢Δ ◦ ར఺ ࣄલֶशࡁΈը૾Τϯίʔμ͕ඞཁͳ͍

    ◦ ར఺  ৄࡉͳը૾ύονʹؔ͢ΔҐஔ৘ใҎ֎ͷ ݩͷը૾৘ใΛશͯอ࣋Ͱ͖Δ •͔͠͠ɺಉ࣌ظʹϦϦʔε͞Εͨଞͷಉఔ౓ͷαΠζͷϞσϧͱൺֱͯ͠ #FODINBSL Ͱͷੑೳ͕௿͔ͬͨʢͷͰɺݱࡏ͸ը૾ΤϯίʔμΛ࢖༻͢Δํ๏͕޿͘࠾༻͞Ε͍ͯΔͷͩͱࢲ͸ߟ࡯͍ͯ͠·͢ʣ 2. 画像のエンコード⽅法 -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  40. 50 $PGGFFCSFBLᶄςΩετΫΤϦ΋ߟྀͨ͠ը૾Τϯίʔμ <>7JT'PDVT1SPNQU(VJEFE7JTJPO&ODPEFSTGPS0$3'SFF%FOTF%PDVNFOU6OEFSTUBOEJOH<"CSBNPWJDI `> 'JHVSF <> •7JT'PDVT ͸ɺςΩετΫΤϦ QSPNQU ΋ߟྀͯ͠ɺը૾ΛΤϯίʔυ͢Δ

    ◦ ࢦࣔ͢Δ಺༰ʹΑͬͯɺඞཁͱ͞ΕΔը૾৘ใྔ͸มΘͬͯ͘ΔͷͰɺࣗવͳൃ૝Ͱ͋Δͱݴ͑Δ - ྫ ʮը૾ͷӈԼͷ؃൘ʹ͸Կ͕ॻ͔Ε͍ͯ·͔͢ʁʯͱ͍͏ࢦࣔʹରͯ͠͸ɺը૾ӈԼͷ৘ใ͚ͩநग़Ͱ͖Ε͹े෼ ◦ ͨͩ͠ɺNVMUJUVSOͷձ࿩ͰɺҎલͷ࣭໰ʹݴٴ͢ΔΑ͏ͳ QSPNQUʹ͸ɺରԠͰ͖ͳ͍ 2. 画像のエンコード⽅法 -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  41. 51 1BSU·ͱΊ •ը૾Τϯίʔμͱ --.ͷ઀ଓํ๏ͱͯ͠ɺ4FMG"UUFOUJPO $SPTT"UUFOUJPOϕʔε ͷ͍ͣΕ͔͕Α͘༻͍ΒΕ͍ͯΔ ◦ 4FMG"UUFOUJPOϕʔεͷ -7-.͸ -

    ෳࡶͳ࣮૷ͳ͠Ͱෳ਺ͷϞμϦςΟΛ౷ҰతʹॲཧͰ͖Δ - Ξμϓλʔ෦෼ʹ޻෉Λࢪ͢͜ͱͰɺը૾τʔΫϯ਺Λ୹ॖͰ͖Δ - ࠾༻͍ͯ͠Δઌߦࣄྫ͕ଟ͘ɺ஌ݟ͕๛෋Ͱ͋Δ ◦ $SPTT"UUFOUJPOϕʔεͷ -7-.͸ɺ - ࣮૷͸ෳࡶʹͳΔ͕ɺ--.ͷ %FDPEFS#MPDL಺Ͱը૾τʔΫϯΛશͯల։͢Δඞཁ͕ͳ͘ޮ཰త - ௨ৗɺ--.ͷॏΈΛݻఆֶͯ͠श͢ΔͷͰɺςΩετ POMZͷੑೳΛҡ࣋͠΍͍͢ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ • طଘͷը૾ΤϯίʔμΛ࢖༻ͯ͠ ߴղ૾౓ը૾Λѻ͏࣌ʹ͸ɺ ϞσϧΞʔΩςΫνϟʹΑΒͣɺը૾෼ׂઓུͱλΠϧλάઓུ͕ޮՌత •࠷ۙʹͳͬͯɺߴղ૾౓ը૾Λ /BUJWFʹѻ͑Δը૾Τϯίʔμ͕࢖༻͞Ε࢝ΊΔ
  42. 52 1BSUʹଓ͘ ʜ ⽬次 •ຊεϥΠυͰ͸ɺઌߦݚڀͷΞϓϩʔνΛ ͭʹେผͯ͠঺հ͢Δ ◦ʮը૾Τϯίʔμʯͱʮେن໛ݴޠϞσϧ --. ʯͷ઀ଓํ๏ -4FMG"UUFOUJPOWT$SPTT"UUFOUJPO

    ◦ը૾ͷΤϯίʔυํ๏ - طଘͷը૾ΤϯίʔμΛ࢖༻ͨ͠ ߴղ૾౓ը૾ͷѻ͍ -ߴղ૾౓ը૾Λ /BUJWFʹѻ͏͜ͱͷͰ͖Δը૾Τϯίʔμͷ࢖༻ ◦ֶशσʔλ ˡ 1BSUͰѻ͏༧ఆͰ͢ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ 🏃
  43. 53 ࢀߟɾ͓໾ཱͪࢿྉ • ্ݪ߁ฏࣗવݴޠͱ7JTJPO-BOHVBHF౦ژେֶେֶӃ ೥౓ߨٛʮ஌ೳ৘ใ࿦ʯ 4QFBLFS%FDL ◦ 7-ʹؔ͢Δओཁͳݚڀɾٕज़Λਂ૚ֶशॳظ͔Β ࣌఺·Ͱ֓؍ͨ͠ڭՊॻతͳεϥΠυͰ͢ɻ 7-ॳֶऀͷํ͸͜ͷεϥΠυ͔ΒೖΔͱશମײΛ၆ᛌͰ͖͓ͯ͢͢ΊͰ͢ɻ

    -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ ʢ੣ʹউख ၟӽͳ͕Βʣ׬શʹओ؍Ͱɺ͓໾ཱͪࢿྉΛ͍͔ͭ͘঺հ͠·͢ʂ • ాதྋଠ େن໛ݴޠϞσϧʹΑΔࢹ֮ɾݴޠͷ༥߹ୈճԬࢁେֶ"*ݚڀձ 4QFBLFS%FDL ◦ #&35࣌୅ͷΞϓϩʔν͔Β ࣌఺ͷ --.ͷਪ࿦ೳྗΛ࢖༻ͨ͠Ξϓϩʔν·ͰΛղઆ͞Ε͍ͯ·͢ɻ ஶऀͷాத͞Μ͸จॻը૾ཧղΛઐ໳ʹ͓ͯ͠Γɺଞʹ΋༗ӹͳ࿦จɾεϥΠυΛ਺ଟ͘ެ։͞Ε͍ͯ·͢ɻ • ੢ాژհ ੢ాޫำ ాதྋଠ ੪౻͍ͭΈ /-1ͱ7JTJPOBOE-BOHVBHFͷجૅɾ࠷৽ಈ޲  /-1ͱ7JTJPOBOE-BOHVBHFͷجૅɾ࠷৽ಈ޲  %&*. 4QFBLFS%FDL ◦ #&35࣌୅ͷ /-1ͷؔ࿈ݚڀ͔Β࢝Ίɺॳظͷ -7-. ࣌఺ ·ͰΛղઆ͞Ε͍ͯ·͢ɻ • ඼઒੓ଠ࿕ ϚϧνϞʔμϧର࿩γεςϜ 4QFBLFS%FDL ◦ ࣌఺ͰͷϚϧνϞʔμϧର࿩γεςϜपลͷ৘ใ͕·ͱΊΒΕ͍ͯ·͢ɻ ಛʹ $-*1पΓͷ࿩͕໘ന͍ ஶऀͷ඼઒ઌੜ͸ 7-શൠΛઐ໳ʹ͓ͯ͠Γɺଞʹ΋༗ӹͳ࿦จɾεϥΠυΛ਺ଟ͘ެ։͞Ε͍ͯ·͢ɻ • Ԭ࡚௚؍ େن໛ݴޠϞσϧͷ։ൃ+4"*νϡʔτϦΞϧߨԋ 4QFBLFS%FDL ◦ ࣌఺ͷ --.ͷ։ൃʹؔ࿈͢ΔݚڀΛղઆ͞Ε͓ͯΓɺ--.Λ 7-.ʹ૊ΈࠐΉΑ͏ʹͳͬͨࠓͱͳͬͯ͸ɺ --.ͱ -7-.Ͱؔ࿈͢Δ఺͸ଟ͘ɺ஌͓͍ͬͯͯଛ͸ͳ͍৘ใ͕ඇৗʹଟ͘੝Γࠐ·Ε͍ͯ·͢ɻ • ੁপխಙ ਂ૚ֶशʹΑΔը૾ೝࣝͷجૅ ΦʔϜࣾ ॻ੶ ◦ $//ͱ 7J5 Λ௨ͯ͠ը૾ೝࣝͷجૅΛେม෼͔Γ΍͘͢ղઆ͞Ε͍ͯ·͢ɻ࠷ऴষʹ 7-ͷষ΋ؚ·Ε͓ͯΓେมࢀߟʹͳΓ·͢ɻ