Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Large Vision Language Model (LVLM) に関する最新知見まとめ ...

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for Daiki Shiono Daiki Shiono
November 18, 2024

Large Vision Language Model (LVLM) に関する最新知見まとめ (Part 1)

本資料では、大規模視覚言語モデル (LVLM) に関する最新の知見を包括的にまとめて紹介しています。
Part 1 では、「画像エンコーダ」と「大規模言語モデル (LLM)」の接続方法及び、画像のエンコード方法に焦点を当てて解説しています。
(続編の Part 2 では、学習データに焦点を当てて解説する予定です)

※ 本資料で紹介する知見は 2024-11-12 時点での情報に基づいています。
※ Speaker Deck 上だと、フォントがかすれて見にくくなっているので、気になる方は pdf ファイルをダウンロードして閲覧してください 🙇

Avatar for Daiki Shiono

Daiki Shiono

November 18, 2024
Tweet

More Decks by Daiki Shiono

Other Decks in Research

Transcript

  1. 2 ࣗݾ঺հ •໊લԘ໺େً %BJLJ4IJPOP •ॴଐ ◦౦๺େֶླ໦ ५ ݚڀࣨ 5PIPLV/-1 ◦Πϯλʔϯ

    !5VSJOH ੜ੒ "*νʔϜ •ݚڀ෼໺7JTJPO-BOHVBHF 7- -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ 1PSUPGPMJP
  2. 3 7JTJPO-BOHVBHF 7- ͱ͸ 導⼊ •ίϯϐϡʔλϏδϣϯ $7 ͱ ࣗવݴޠॲཧ /-1

    ͷ༥߹෼໺ ◦ $7 /-1෼໺Ͱͷ 5SBOTGPSNFST<7BTXBOJ b> ͷ੒ޭ͕ɺ7-෼໺ʹ΋೾ٴ͠ٸ଎ʹൃల Describe the image with a sentence consisting of Three/Six/Nine words. Three: Seaside dining table Six: Dining table overlooking ocean with beer Nine: Outdoor restaurant table with ocean view and a beer (157 ʹΑΔը૾ʹؔ͢ΔςΩετੜ੒ [Yang+, ʼ23] -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  3. 4 େن໛ࢹ֮ݴޠϞσϧ -7-. ͷ؆୯ͳઆ໌ 導⼊ •ը૾ͱςΩετΛೖྗͱͯ͠ɺςΩετΛग़ྗ͢ΔϞσϧ Ҏ߱ɺ-7-. ͱݺͿ ◦ ࣄલʹֶश͞Εͨʮը૾Τϯίʔμʯͱʮେن໛ݴޠϞσϧ

    --. ʯ Λ૊Έ߹Θͤͯը૾ςΩετσʔλΛ࢖༻ͯ͠௥Ճֶश͢Δ͜ͱͰ -7-. Λߏங͢Δ <image> Describe the image with a sentence consisting of three/six/nine words. Three: Seaside dining table Six: Dining table overlooking ocean with beer Nine: Outdoor restaurant table with ocean view and a beer ը૾ Τϯίʔμʔ େن໛ݴޠϞσϧ --. -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  4. 5 େن໛ࢹ֮ݴޠϞσϧ -7-. ߏங࣌ͷબ୒ࢶ͸ແ਺ʹଘࡏ͢Δ 導⼊ •ը૾ͱςΩετΛೖྗͱͯ͠ɺςΩετΛग़ྗ͢ΔϞσϧ Ҏ߱ɺ-7-. ͱݺͿ ◦ ࣄલʹֶश͞Εͨʮը૾Τϯίʔμʯͱʮେن໛ݴޠϞσϧ

    --. ʯ Λ૊Έ߹Θͤͯը૾ςΩετσʔλΛ࢖༻ͯ͠௥Ճֶश͢Δ͜ͱͰ -7-. Λߏங͢Δ <image> Describe the image with a sentence consisting of three/six/nine words. Three: Seaside dining table Six: Dining table overlooking ocean with beer Nine: Outdoor restaurant table with ocean view and a beer ը૾ Τϯίʔμʔ େن໛ݴޠϞσϧ --. ͔͠͠ɺ-7-.ߏங࣌ͷબ୒ࢶ ΞʔΩςΫνϟ ࢖༻͢Δֶश σʔλͷछྨ -7-.ͷֶश࣌ͷ ϋΠύϥ ͳͲ ͸ແ਺ʹଘࡏ͠ɺ ͲͷΞϓϩʔν͕༏Ε͍ͯΔͷ͔ ෼໺ͱͯ͠ͷಉҙ͸ಘΒΕ͍ͯͳ͍ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  5. 6 େن໛ࢹ֮ݴޠϞσϧ -7-. ߏங࣌ͷબ୒ࢶ͸ແ਺ʹଘࡏ͢Δ 導⼊ •ը૾ͱςΩετΛೖྗͱͯ͠ɺςΩετΛग़ྗ͢ΔϞσϧ Ҏ߱ɺ-7-. ͱݺͿ ◦ ࣄલʹֶश͞Εͨʮը૾Τϯίʔμʯͱʮେن໛ݴޠϞσϧ

    --. ʯ Λ૊Έ߹Θͤͯը૾ςΩετσʔλΛ࢖༻ͯ͠௥Ճֶश͢Δ͜ͱͰ -7-. Λߏங͢Δ <image> Describe the image with a sentence consisting of three/six/nine words. Three: Seaside dining table Six: Dining table overlooking ocean with beer Nine: Outdoor restaurant table with ocean view and a beer ը૾ Τϯίʔμʔ େن໛ݴޠϞσϧ --. ͔͠͠ɺ-7-.ߏங࣌ͷબ୒ࢶ ΞʔΩςΫνϟ ࢖༻͢Δֶश σʔλͷछྨ -7-.ͷֶश࣌ͷ ϋΠύϥ ͳͲ ͸ແ਺ʹଘࡏ͠ɺ ͲͷΞϓϩʔν͕༏Ε͍ͯΔͷ͔ ෼໺ͱͯ͠ͷಉҙ͸ಘΒΕ͍ͯͳ͍ ઌߦݚڀͰߦΘΕ͖ͯͨ ΞϓϩʔνΛෳ਺঺հ͢Δ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  6. 7 ঺հ͢ΔઌߦݚڀΞϓϩʔνͷ෼ྨ ⽬次 •ຊεϥΠυͰ͸ɺઌߦݚڀͷΞϓϩʔνΛ ͭʹେผͯ͠঺հ͢Δ ◦ʮը૾Τϯίʔμʯͱʮେن໛ݴޠϞσϧ --. ʯͷ઀ଓํ๏ -4FMG"UUFOUJPOWT$SPTT"UUFOUJPO ◦ը૾ͷΤϯίʔυํ๏

    - طଘͷը૾ΤϯίʔμΛ࢖༻ͨ͠ ߴղ૾౓ը૾ͷѻ͍ -ߴղ૾౓ը૾Λ /BUJWFʹѻ͏͜ͱͷͰ͖Δը૾Τϯίʔμͷ࢖༻ ◦ֶशσʔλ ˡ 1BSUͰѻ͏༧ఆͰ͢ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  7. 8 ঺հ͢ΔઌߦݚڀΞϓϩʔνͷ෼ྨ ⽬次 •ຊεϥΠυͰ͸ɺઌߦݚڀͷΞϓϩʔνΛ ͭʹେผͯ͠঺հ͢Δ ◦ʮը૾Τϯίʔμʯͱʮେن໛ݴޠϞσϧ --. ʯͷ઀ଓํ๏ -4FMG"UUFOUJPOWT$SPTT"UUFOUJPO ◦ը૾ͷΤϯίʔυํ๏

    - طଘͷը૾ΤϯίʔμΛ࢖༻ͨ͠ ߴղ૾౓ը૾ͷѻ͍ -ߴղ૾౓ը૾Λ /BUJWFʹѻ͏͜ͱͷͰ͖Δը૾Τϯίʔμͷ࢖༻ ◦ֶशσʔλ ˡ 1BSUͰѻ͏༧ఆͰ͢ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  8. 9 4FMG"UUFOUJPOWT$SPTT"UUFOUJPO 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 •'SP[FO <5TJNQPVLFMMJ `>΍ 'MBNJOHP <"MBZSBD

    `>Ͱಋೖ͞ΕͯҎདྷɺ ΄ͱΜͲશͯͷ -7-.͸ʢશͯͷύϥϝʔλΛθϩ͔Βֶशͤ͞ΔͷͰ͸ͳ͘ʣ ࣄલֶश͞Εͨը૾Τϯίʔμͱ --.Λ૊Έ߹Θͤͯ௥Ճֶश͍ͯ͠Δ ◦ ࣄલֶशࡁΈͷ֤όοΫϘʔϯͷੑೳ͕ɺ݁Ռͱͯ͠ಘΒΕΔ -7-.ͷੑೳʹ ڧؔ͘࿈͍ͯ͠Δ͜ͱ͕ෳ਺ͷ࿦จͰࣔ͞Ε͍ͯΔ <-J `> <.D,JO[JF `> <-BVSFOÇPO `> <> <> ˛ όοΫϘʔϯͷมߋʹΑΔ -7-.ͷੑೳൺֱ ˞"WHTDPSF͸ 72"W 0,72" 5FYU72" $0$0ͷ #FODINBSLͷείΞฏۉ஋ ˞ 8IBUNBUUFSTXIFOCVJMEJOHWJTJPOMBOHVBHFNPEFMT <-BVSFOÇPO `> <>5BCMF <>5BCMF -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ ◦ ࣄલֶशࡁΈͷ --.ͷੑೳ͸ը૾ΤϯίʔμͷੑೳΑΓ΋ޮՌత <-J `> ◦ ը૾Τϯίʔμ͸ɺϞσϧαΠζΑΓߏ੒ ೖྗղ૾౓ ग़ྗը૾τʔΫϯ਺ ͕ॏཁ <-J `>
  9. 11 4FMG"UUFOUJPOΞʔΩςΫνϟϕʔεͷ -7-. 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 •--.ͷ 4FMG"UUFOUJPO ૚಺Ͱը૾τʔΫϯΛ ॲཧ͢Δػߏ

    ຒΊࠐΈ࣍ݩ਺ͷΈૢ࡞ ը૾ύον਺ʹมԽͳ͠ ը૾ύον਺࣍ݩͷૢ࡞ ຒΊࠐΈ࣍ݩ਺ʹมԽͳ͠ ը૾τʔΫϯͷຒΊࠐΈ User:<image>What do you see in this image?<eot> Assistant: ը૾Τϯίʔμ Ξμϓλʔ --. <s> ŋŋŋ ŋŋŋ ŋŋŋ ը૾ύον ࠾༻͢Δը૾Τϯίʔμʹ΋ΑΔ͕ جຊతʹݻఆ௕ͷը૾ύονΛग़ྗ .-1૚ 1FSDFJWFS3FTBNQMFS 1JYFM4IVGGMF લॲཧ "QQMZDIBUUFNQMBUF ŋŋŋ <s> User:<image>…<image>What do you see in this image?<eot> Assistant: User : <image> <image> ŋŋŋ <s> ŋŋŋ ▁User : <image> <image> ŋŋŋ JNBHFͷຒΊࠐΈʹ͸ɺ ࠨͷ΋ͷΛར༻͢Δ τʔΫϯຒΊࠐΈΛ࡞੒ : : -.)&"% ▁A What What Assistant Assistant -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  10. 14 4FMG"UUFOUJPOΞʔΩςΫνϟͷಛ௃ 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 •ෳࡶͳ࣮૷ͳ͠Ͱෳ਺ͷϞμϦςΟΛ౷ҰతʹॲཧͰ͖Δ •Ξμϓλʔ෦෼ʹ޻෉Λࢪ͢͜ͱͰɺը૾τʔΫϯΛ୹ॖͰ͖Δ ◦--.ͷݶΒΕͨೖྗܥྻ௕Λઅ໿͢Δࣄ͕Ͱ͖Δ ◦Ξμϓλʔ෦෼ͷ޻෉ʹ͸ɺҎԼͷ୅දతͳબ୒ࢶ͕͋Δ -.-1

    .VMUJMBZFS1FSDFQUSPO ૚͚ͩΛ࢖༻͢Δ ✗ ը૾τʔΫϯ୹ॖ -ྫ --B7" <-JV b> .PMNP <%FJULF b> -.-1૚ 1FSDFJWFS3FTBNQMFS Λ࢖༻͢Δ ̋ ը૾τʔΫϯ୹ॖ -ྫ *EFGJDT <-BVSFOÇPO `> Y(FO.. #-*1 <9VF `> -.-1૚ 1JYFM4IVGGMF Λ࢖༻͢Δ ̋ ը૾τʔΫϯ୹ॖ -ྫ *OUFSO7-  <$IFO `> *EFGJDT <-BVSFOÇPO `> /7-.% <%BJ `> Ξμϓλʔ ŋŋŋ .-1૚ 1FSDFJWFS3FTBNQMFS 1JYFM4IVGGMF ŋŋŋ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  11. 15 Ξμϓλʔͷ޻෉ ᶃ1FSDFJWFS3FTBNQMFS <+BFHMF `> ͱ͸ʁ 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 ◦1FSDFJWFS3FTBNQMFS

    Ͱ͸ɺજࡏม਺Λߋ৽͍ͯ͘͜͠ͱͰɺ ݩͷը૾τʔΫϯ਺ΑΓ΋গͳ͍৽ͨͳը૾τʔΫϯྻΛ࡞੒Ͱ͖Δ όΠτྻ  ೖྗ͞Εͨ ݩͷը૾τʔΫϯ જࡏม਺ྻ  ৽͘͠࡞ΒΕΔ ը૾τʔΫϯ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ <> <>1FSDFJWFS(FOFSBM1FSDFQUJPOXJUI*UFSBUJWF"UUFOUJPO<+BFHMF `> 'JHVSF
  12. 16 Ξμϓλʔͷ޻෉ ᶄ1JYFM4IVGGMFͱ͸ʁ 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 ◦ 1JYFM4IVGGMFͰ͸ɺͭͷྡ઀͢Δը૾τʔΫϯΛνϟϯωϧ࣍ݩʹԊͬͯ݁߹͢Δ ͨΊɺݩͷը૾τʔΫϯ਺ΑΓ΋গͳ͍৽ͨͳը૾τʔΫϯྻΛ࡞੒Ͱ͖Δ <>

    <>*OTQJSFECZ/7-.0QFO'SPOUJFS$MBTT.VMUJNPEBM--.T<%BJ `> 'JHVSF ը૾Τϯίʔμ Ξμϓλʔ ŋŋŋ ŋŋŋ .-1૚ ŋŋŋ ! × !$%& × ' ! × (%×(% × ' 1JYFM4IVGGMF ! × (!*×!*) × &' ! × %,* × &' 'MBUUFO ˣ $PODBU ೖྗ͞Εͨ ݩͷը૾τʔΫϯ਺ ৽͘͠มܗ͞Εͨ ը૾τʔΫϯ਺ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  13. 17 4FMG"UUFOUJPOϕʔεͷ -7-.ͷֶश 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 ຒΊࠐΈ࣍ݩ਺ͷΈૢ࡞ ը૾ύον਺ʹมԽͳ͠ ը૾ύον਺࣍ݩͷૢ࡞ ຒΊࠐΈ࣍ݩ਺ʹมԽͳ͠

    ը૾τʔΫϯͷຒΊࠐΈ User:<image>What do you see in this image?<eot> Assistant: ը૾Τϯίʔμ Ξμϓλʔ --. <s> ŋŋŋ ŋŋŋ ŋŋŋ ը૾ύον ࠾༻͢Δը૾Τϯίʔμʹ΋ΑΔ͕ جຊతʹݻఆ௕ͷը૾ύονΛग़ྗ .-1૚ 1FSDFJWFS3FTBNQMFS 1JYFM4IVGGMF લॲཧ "QQMZDIBUUFNQMBUF ŋŋŋ <s> User:<image>…<image>What do you see in this image?<eot> Assistant: User : <image> <image> ŋŋŋ <s> ŋŋŋ ▁User : <image> <image> ŋŋŋ JNBHFͷຒΊࠐΈʹ͸ɺ ࠨͷ΋ͷΛར༻͢Δ τʔΫϯຒΊࠐΈΛ࡞੒ : : -.)&"% ▁A What What Assistant Assistant •޿͘࠾༻͞Ε͍ͯΔֶशઓུ ◦ 4UBHF ࣄલֶशஈ֊ ը૾ςΩετؒΞϥΠϝϯτ֫ಘ  USBJOBCMF\Ξμϓλʔ^ GSP[FO\ը૾Τϯίʔμ --.^Ͱֶश -ֶश TUFQ਺ͷ૿Ճͱͱ΋ʹऔΓѻ͏ը૾ղ૾౓Λঃʑʹ্͍͛ͯ͘ઓུ͕༗ޮɻ ߴղ૾౓ը૾Λѻ͏ֶशஈ֊Λ৽ͨʹઃ͚͍ͯΔࣄྫ΋͋Δ <-BVSFOÇPO `> <;IBOH `> -ը૾Τϯίʔμ͕ൺֱతऑ͍৔߹ʢྫ7J5-ʣ΍ɺࣄલֶशσʔληοτ͕े෼ ʹଟ༷ͳ৔߹ʹ͸ɺΞμϓλʔͱը૾ΤϯίʔμΛڞಉͰֶश͢Δઓུ͕༗ޮ <%BJ `> -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ ˞࣌఺Ͱɺ 4UBHF ΛϑϧύϥϝʔλͰֶशͤ͞Δࣄྫ΋ෳ਺؍ଌ͞Ε͍ͯ·͢ɻ
  14. 18 4FMG"UUFOUJPOϕʔεͷ -7-.ͷֶश 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 ຒΊࠐΈ࣍ݩ਺ͷΈૢ࡞ ը૾ύον਺ʹมԽͳ͠ ը૾ύον਺࣍ݩͷૢ࡞ ຒΊࠐΈ࣍ݩ਺ʹมԽͳ͠

    ը૾τʔΫϯͷຒΊࠐΈ User:<image>What do you see in this image?<eot> Assistant: ը૾Τϯίʔμ Ξμϓλʔ --. <s> ŋŋŋ ŋŋŋ ŋŋŋ ը૾ύον ࠾༻͢Δը૾Τϯίʔμʹ΋ΑΔ͕ جຊతʹݻఆ௕ͷը૾ύονΛग़ྗ .-1૚ 1FSDFJWFS3FTBNQMFS 1JYFM4IVGGMF લॲཧ "QQMZDIBUUFNQMBUF ŋŋŋ <s> User:<image>…<image>What do you see in this image?<eot> Assistant: User : <image> <image> ŋŋŋ <s> ŋŋŋ ▁User : <image> <image> ŋŋŋ JNBHFͷຒΊࠐΈʹ͸ɺ ࠨͷ΋ͷΛར༻͢Δ τʔΫϯຒΊࠐΈΛ࡞੒ : : -.)&"% ▁A What What Assistant Assistant •޿͘࠾༻͞Ε͍ͯΔֶशઓུ ◦ 4UBHF ࣄલֶशஈ֊ ը૾ςΩετؒΞϥΠϝϯτ֫ಘ  USBJOBCMF\Ξμϓλʔ^ GSP[FO\ը૾Τϯίʔμ --.^Ͱֶश -ֶश TUFQ਺ͷ૿Ճͱͱ΋ʹऔΓѻ͏ը૾ղ૾౓Λঃʑʹ্͍͛ͯ͘ઓུ͕༗ޮɻ ߴղ૾౓ը૾Λѻ͏ֶशஈ֊Λ৽ͨʹઃ͚͍ͯΔࣄྫ΋͋Δ <-BVSFOÇPO `> <;IBOH `> -ը૾Τϯίʔμ͕ൺֱతऑ͍৔߹ʢྫ7J5-ʣ΍ɺࣄલֶशσʔληοτ͕े෼ ʹଟ༷ͳ৔߹ʹ͸ɺΞμϓλʔͱը૾ΤϯίʔμΛڞಉͰֶश͢Δઓུ͕༗ޮ <%BJ `> ◦ 4UBHF 4'5ஈ֊ ࢦࣔ௥ैೳྗ޲্  USBJOBCMF\Ξμϓλʔ --.^ GSP[FO\ը૾Τϯίʔμ^Ͱֶश ---.Λݻఆ͠ͳ͍৔߹ɺςΩετ POMZλεΫͷੑೳ͕ྼԽͯ͠͠·͏ ˠ ߴ඼࣭ͷςΩετ POMZ*OTUSVDUJPO5VOJOHσʔλΛ૊ΈࠐΉ͜ͱͰ཈੍ <%BJ `> -ֶश͕ෆ҆ఆʹͳΔ৔߹ --.ʹ -P3" Λద༻͢Δ৔߹΋͋Δ <-BVSFOÇPO `> -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ ˞ ˞࣌఺Ͱɺ 4UBHF ΛϑϧύϥϝʔλͰֶशͤ͞Δࣄྫ΋ෳ਺؍ଌ͞Ε͍ͯ·͢ɻ
  15. 19 4FMG"UUFOUJPOϕʔεͷ -7-.ͷֶश஌ࣝ֫ಘ΋໨ࢦ͍ͨ͠৔߹ 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 •--B7" 0OF7JTJPO --B7" /F95

    #MPH Ͱ͸஌ࣝ֫ಘஈ֊Λݕ౼ ◦ 4UBHF ࣄલֶशஈ֊ ը૾ςΩετؒΞϥΠϝϯτ֫ಘ  USBJOBCMF\Ξμϓλʔ^ GSP[FO\ը૾Τϯίʔμ --.^Ͱֶश ◦ 4UBHF ஌ࣝ֫ಘஈ֊ ৽ͨͳ஌ࣝͷ֫ಘ  USBJOBCMF\Ξμϓλʔ --.^ GSP[FO\ը૾Τϯίʔμ^Ͱֶश -ࣄલֶशࡁΈͷ --.΍ ը૾Τϯίʔμ͕طʹଟ͘ͷ஌ࣝΛ༗͍ͯ͠Δ͜ͱΛલఏ ͱ͠ɺߴ඼࣭ͳσʔλͰ஌ࣝΛચ࿅ɾڧԽ͢Δ͜ͱΛ໨తͱ͢Δ -஌ࣝΛؚΉσʔλͷ࢖༻8FCϖʔδ ৄࡉը૾આ໌σʔλ จॻ0$3σʔλ ͳͲ -͜͜Ͱɺ৽͍͠ߴ඼࣭σʔλʹܧଓతʹ৮ΕΔ͜ͱͰ৽ͨͳ஌ࣝ֫ಘΛ໨ࢦ͢ ◦ 4UBHF 4'5ஈ֊ ࢦࣔ௥ैೳྗ޲্  USBJOBCMF\Ξμϓλʔ --.^ GSP[FO\ը૾Τϯίʔμ^Ͱֶश -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ ˞ ˞--B7" 0OF7JTJPO --B7" /F95Ͱ͸ɺ 4UBHF  4UBHF ͱ΋ʹϑϧύϥϝʔλΛֶश͍ͤͯ͞Δɻ ͜ͷࡍɺ-7-.ͷֶश͕҆ఆ͢Δͱ͍͏ཧ༝Ͱɺը૾Τϯίʔμͷֶश཰Λ --.ͷֶश཰ΑΓ΋ৗʹഒ௿͘ઃఆ͍ͯ͠Δɻ ৄࡉ͕ؾʹͳΔํ͸ɺ--B7" /F95ͷ #MPH 4FDUJPO -BOHVBHF.PEFMT <-J `> Λࢀর͍ͯͩ͘͠͞ɻ ˞
  16. 20 4FMG"UUFOUJPOϕʔεͷ -7-.1FSDFJWFS3FTBNQMFSपลͷޮՌ 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 • 1FSDFJWFS3FTBNQMFS͔Βग़ྗ͞ΕΔը૾τʔΫϯ਺Λ ૿΍͢ͱɺಛʹ 0$3ؔ࿈λεΫͰͷੑೳ͕޲্͢Δ

    • 1FSDFJWFS3FTBNQMFS ͸୯७ͳઢܗ૚ͷΈͷ Ξμϓλʔͱൺֱͯ͠ -7-.ͷੑೳ͕ߴ͘ͳΔ • 1FSDFJWFS3FTBNQMFS ͷ૚਺Λ૿΍ͯ͠΋ ݮΒͯ͠΋ -7-.ͷੑೳʹ͋·Γد༩͠ͳ͍Մೳੑ • 1FSDFJWFS3FTBNQMFS ͷલʹ .-1૚ΛڬΜͩํ͕ྑ͍ <> ˛ ը૾ UPLFO਺ΛมԽͤͨ࣌͞ͷੑೳൺֱ 8IBUNBUUFSTXIFOCVJMEJOHWJTJPOMBOHVBHFNPEFMT <-BVSFOÇPO `> <>5BCMF <>5BCMF <>5BCMF <>5BCMF <> <> <> ˛ Ξμϓλʔʹ࢖༻͢ΔϞδϡʔϧผͷੑೳൺֱ ˛ 1FSDFJWFS3FTBNQMFS ͷ૚਺ʹΑΔੑೳൺֱ ˛ 1FSDFJWFS3FTBNQMFS ͷલʹ .-1૚Λ௥Ճ͢Δ ͜ͱʹΑΔੑೳൺֱ ˞"WHTDPSF͸ 72"W 0,72" 5FYU72" $0$0ͷ #FODINBSLͷείΞฏۉ஋ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  17. 21 4FMG"UUFOUJPOϕʔεͷ -7-.ͷֶशֶश࣌ͷઃఆʹؔ͢Δ஌ݟ 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ •MPTT஋ <-J `>

    ◦૊Έࠐ·Ε͍ͯΔ --.͕େ͖͍΄Ͳऩଋ͕ૣ͘ MPTT͕௿͘ͳΔ܏޲͕͋Δ •ֶश཰ <-J `> ◦ֶश͕ෆ҆ఆʹͳΔ৔߹ɺֶश཰Λ௿͘͢Δͱֶशͷෆ҆ఆ͕ܰݮ͞ΕΔ܏޲ ◦ը૾Τϯίʔμͷֶश཰͸ --.ͷֶश཰ΑΓ΋ৗʹ ʙഒখ͍͞ํ͕ ֶशͷ҆ఆੑ͕޲্͢Δ ◦--.ͷֶश཰Λ Fˠ Fʹมߋͯ͠΋ MPTT஋ʹ͸େ͖ͳ͕ࠩݟΒΕͳ ͔͕ͬͨɺԼྲྀλεΫͰͷ࠷ऴతͳੑೳʹ͸େ͖ͳ͕ࠩੜͨ͡ͱ͍͏ใࠂ •/&'5VOF <-BVSFOÇPO `> ◦4'5ஈ֊Ͱ /&'5VOF ϊΠζ <+BJO `>ΛೖྗʹՃ͑ͯɺճ౴τʔΫϯͷΈͰ ଛࣦΛܭࢉ͍ͯ͠Δࣄྫ΋͋Δ
  18. 22 4FMG"UUFOUJPOϕʔεͷ -7-.ͷֶशઃఆͷ۩ମྫ*EFGJDT 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ • --. 

    -MBNB#*OTUSVDU • ը૾Τϯίʔμ  4JH-*140. • Ξμϓλʔ  .-1 1JYFM4IVGGMF <>#VJMEJOHBOECFUUFSVOEFSTUBOEJOHWJTJPOMBOHVBHFNPEFMTJOTJHIUTBOEGVUVSFEJSFDUJPOT<-BVSFOÇPO `> 5BCMF <> 1M ਪଌ஋ 3M ਪଌ஋ 1.5M ਪଌ஋ 5M ਪଌ஋ # Samples ਪଌ஋ (DoRA) (DoRA) (DoRA)
  19. 23 4FMG"UUFOUJPOϕʔεͷ -7-.ͷֶशઃఆͷ۩ମྫ/7-.% 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ 4UBHF 4UBHF •

    --.  2XFO#*OTUSVDU • ը૾Τϯίʔμ  *OUFSO7J5#QY7 • Ξμϓλʔ  .-1 1JYFM4IVGGMF <>/7-.0QFO'SPOUJFS$MBTT.VMUJNPEBM--.T<%BJ `> 5BCMF 5BCMF <> 40M ਪଌ஋ 5M ਪଌ஋ # Samples ਪଌ஋
  20. 25 $SPTT"UUFOUJPOΞʔΩςΫνϟϕʔεͷ -7-. 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 •--.಺ͷಛఆͷ %FDPEFS#MPDL͝ͱʹ $SPTT"UUFOUJPO૚Λ ૠೖ͠ɺͦͷதͰը૾

    τʔΫϯΛॲཧ͢Δػߏ User:<image>What do you see in this image?<eot> Assistant: ը૾Τϯίʔμ --. <s> ŋŋŋ ŋŋŋ ŋŋŋ 1FSDFJWFS3FTBNQMFS લॲཧ "QQMZDIBUUFNQMBUF <s> User:<image>What do you see in this image?<eot> Assistant: User : <image> <s> ŋŋŋ ▁User : <image> τʔΫϯຒΊࠐΈΛ࡞੒ : : -.)&"% ▁A What What Assistant Assistant 4FMG"UUFOUJPO 'FFE'PSXBSE/FUXPSL ''/ (BUFE$SPTT"UUFOUJPO ௨ৗɺ/൪໨ͷ #MPDL͝ͱʹ (BUFE$SPTT"UUFOUJPO ͕ૠೖ͞Ε͍ͯΔ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  21. 26 $SPTT"UUFOUJPOΞʔΩςΫνϟͷಛ௃ 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 •࣮૷͸ෳࡶʹͳΔ͕ɺ--.ͷ %FDPEFS#MPDL಺Ͱը૾τʔΫϯΛ શͯల։͢Δඞཁ͕ͳ͘ͳΔͨΊɺܭࢉޮ཰͕ߴ͘ͳΔ ◦࣮૷͕ෳࡶʹͳΔཁҼ -௥Ճͷ

    $SPTT"UUFOUJPOϞδϡʔϧͷಋೖ -ը૾ͱςΩετ͕ަޓʹ഑ஔ͞ΕΔઃఆͰͷ $SPTT"UUFOUJPO.BTLJOH -௥Ճͨ͠ $SPTT"UUFOUJPO͕ Ұൠʹ େ͖ͳύϥϝʔλ਺Λ࣋ͭͨΊɺ ֶशʹଟ͘ͷσʔλ͕ඞཁͱͳΔ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  22. 27 $SPTT"UUFOUJPOΞʔΩςΫνϟͷಛ௃ 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 •࣮૷͸ෳࡶʹͳΔ͕ɺ--.ͷ %FDPEFS#MPDL಺Ͱը૾τʔΫϯΛ શͯల։͢Δඞཁ͕ͳ͘ͳΔͨΊɺܭࢉޮ཰͕ߴ͘ͳΔ ◦࣮૷͕ෳࡶʹͳΔཁҼ -௥Ճͷ

    $SPTT"UUFOUJPOϞδϡʔϧͷಋೖ -ը૾ͱςΩετ͕ަޓʹ഑ஔ͞ΕΔઃఆͰͷ $SPTT"UUFOUJPO.BTLJOH -௥Ճͨ͠ $SPTT"UUFOUJPO͕ Ұൠʹ େ͖ͳύϥϝʔλ਺Λ࣋ͭͨΊɺ ֶशʹଟ͘ͷσʔλ͕ඞཁͱͳΔ •$SPTT"UUFOUJPOʹೖྗ͞ΕΔલஈ֊ʹ͓͚Δࢹ֮৘ใͷॲཧ -ը૾Τϯίʔμ͔Βग़ྗ͞Εͨࢹ֮ಛ௃ྔΛͦͷ··࢖༻͢Δ -ྫ -MBNB7 <%VCFZ `> /7-.9 <%BJ `> -ը૾Τϯίʔμ͔Βͷग़ྗ 1FSDFJWFS3FTBNQMFS Λ࢖༻͢Δ -ྫ 'MBNJOHP <"MBZSBD `> *EFGJDT <-BVSFOÇPO `> ը૾Τϯίʔμ ŋŋŋ ŋŋŋ 1FSDFJWFS3FTBNQMFS ˞/7-.9<%BJ `> Ͱ͸ɺ1FSDFJWFS 3FTBNQMFS ΁ͷજࡏ഑ྻ΁ͷ $SPTT"UUFOUJPO͕ೖྗը૾τʔΫϯΛࠞͥ߹ΘͤΔͨΊɺ จॻ 0$3λεΫʹॏཁͳը૾ύονؒͷۭؒతؔ܎͕ཚΕΔՄೳੑΛࢦఠ͠ɺ࣮ࡍʹ 0$3λεΫͷੑೳ͕ѱԽͨ͠ͱͷใࠂ͕͋Δ ˞ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  23. 28 $SPTT"UUFOUJPOϕʔεͷ -7-.ͷֶश 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 •޿͘࠾༻͞Ε͍ͯΔֶशઓུ ◦ 4UBHF ࣄલֶशஈ֊

    USBJOBCMF\Ξμϓλʔ $SPTT"UUO^ GSP[FO\ը૾Τϯίʔμ --.^Ͱֶश -όοναΠζΛେ͖͘͢Δ͜ͱͰɺੑೳ͕վળ <%BJ `> User:<image>What do you see in this image?<eot> Assistant: ը૾Τϯίʔμ --. <s> ŋŋŋ ŋŋŋ ŋŋŋ 1FSDFJWFS3FTBNQMFS લॲཧ "QQMZDIBUUFNQMBUF <s> User:<image>What do you see in this image?<eot> Assistant: User : <image> <s> ŋŋŋ ▁User : <image> τʔΫϯຒΊࠐΈΛ࡞੒ : : -.)&"% ▁A What What Assistant Assistant 4FMG"UUFOUJPO 'FFE'PSXBSE/FUXPSL ''/ (BUFE$SPTT"UUFOUJPO ௨ৗɺ/൪໨ͷ #MPDL͝ͱʹ (BUFE$SPTT"UUFOUJPO ͕ૠೖ͞Ε͍ͯΔ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  24. 29 $SPTT"UUFOUJPOϕʔεͷ -7-.ͷֶश 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 •޿͘࠾༻͞Ε͍ͯΔֶशઓུ ◦ 4UBHF ࣄલֶशஈ֊

    USBJOBCMF\Ξμϓλʔ $SPTT"UUO^ GSP[FO\ը૾Τϯίʔμ --.^Ͱֶश -όοναΠζΛେ͖͘͢Δ͜ͱͰɺੑೳ͕վળ <%BJ `> ◦ 4UBHF 4'5ஈ֊ USBJOBCMF\Ξμϓλʔ $SPTT"UUO^ GSP[FO\ը૾Τϯίʔμ --.^Ͱֶश ---.Λݻఆ͍ͯ͠Δ৔߹ɺࢹ֮ݴޠλεΫͷੑೳ͕௿Լ͢Δ৔߹͕͋Δ ͜Ε͸ɺ૊Έࠐ·Εͨ --.͕աڈʹֶश͍ͯ͠ͳ͍λεΫ΍ࢦࣔΛֶश͢Δ৔߹ʹ ൃੜ͢ΔՄೳੑ͕ߴ͍ ˠ --.ΛֶशՄೳʹ͢Δ ߴ඼࣭ͷςΩετ POMZ*OTUSVDUJPO5VOJOHσʔλΛ ૊ΈࠐΉ͜ͱͰςΩετ POMZͷੑೳ௿ԼΛ཈੍͍ͯ͠Δࣄྫ΋͋Δ <%BJ `> User:<image>What do you see in this image?<eot> Assistant: ը૾Τϯίʔμ --. <s> ŋŋŋ ŋŋŋ ŋŋŋ 1FSDFJWFS3FTBNQMFS લॲཧ "QQMZDIBUUFNQMBUF <s> User:<image>What do you see in this image?<eot> Assistant: User : <image> <s> ŋŋŋ ▁User : <image> τʔΫϯຒΊࠐΈΛ࡞੒ : : -.)&"% ▁A What What Assistant Assistant 4FMG"UUFOUJPO 'FFE'PSXBSE/FUXPSL ''/ (BUFE$SPTT"UUFOUJPO ௨ৗɺ/൪໨ͷ #MPDL͝ͱʹ (BUFE$SPTT"UUFOUJPO ͕ૠೖ͞Ε͍ͯΔ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  25. 30 $SPTT"UUFOUJPOϕʔεͷ -7-.ͷֶशઃఆͷ۩ମྫ/7-.9 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ 4UBHF 4UBHF •

    --.  ◦ # /PVT)FSNFT:J# ◦ # 2XFO#*OTUSVDU • ը૾Τϯίʔμ  *OUFSO7J5#QY7 • Ξμϓλʔ  .-1 (BUFE$SPTT"UUO <>/7-.0QFO'SPOUJFS$MBTT.VMUJNPEBM--.T<%BJ `> 5BCMF 5BCMF <> 40M ਪଌ஋ 10M (34B), 5M (72B) ਪଌ஋ # Samples ਪଌ஋
  26. 31 4FMG"UUFOUJPOWT$SPTT"UUFOUJPO௕ॴͱ୹ॴ 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 • $SPTT"UUOϕʔεͷ -7-.͸ɺ$SPTT"UUO͕৽ͨʹ ௥Ճ͞ΕΔͨΊɺύϥϝʔλ͕େ͖͘ͳΓ͕ͪʢ-MBNB7 #Ͱ͸

    #ͷ৽ن $SPTT"UUOύϥϝʔλ͕௥Ճ͞Ε͍ͯΔʣ 4FMG "UUFOUJPO $SPTT "UUFOUJPO ௥Ճύϥϝʔλ਺ খ େ ֶशޮ཰ ˛ ˔ ςΩετ POMZੑೳ ͷҡ࣋ͷ͠΍͢͞ ˛ ˔ ࣮૷ͷෳࡶ౓߹͍ ؆қ ෳࡶ • $SPTT"UUOϕʔεͷ -7-.͸ɺ --.ͷ %FDPEFS#MPDLͰ શͯͷը૾τʔΫϯΛల։͢Δඞཁ͕ͳ͍ͷͰɺ ߴղ૾౓ը૾ͷޮ཰తͳॲཧ͕Մೳ • $SPTT"UUOϕʔεͷ -7-.͸ɺֶश࣌ʹ --.ͷॏΈ͕ ݻఆ͞Ε͍ͯΔͷͰɺςΩετ POMZͷੑೳΛҡ࣋͠΍͍͢ • $SPTT"UUOϕʔεͷ -7-.͸ɺ࣮૷͕ෳࡶʹͳΔ Qࢀর -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  27. 32 4FMG"UUFOUJPOWT$SPTT"UUFOUJPO௕ॴͱ୹ॴ ิ଍ֶशޮ཰ͷৄࡉ 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 4FMG "UUFOUJPO $SPTT "UUFOUJPO

    ֶशޮ཰ ˛ ˔ • $SPTT"UUOϕʔεͷ -7-.͸ɺ --.ͷ %FDPEFS#MPDLͰ શͯͷը૾τʔΫϯΛల։͢Δඞཁ͕ͳ͍ͷͰɺ ߴղ૾౓ը૾ͷޮ཰తͳॲཧ͕Մೳ $SPTT"UUOˠ 4FMG"UUOˠ ˞ˠ ˞/7-.)͸ 4FMG"UUOϞσϧͱ $SPTT"UUOϞσϧͷྑ͍ͱ͜औΓΛͨ͠Α͏ͳϞσϧͱͳ͍ͬͯΔɻ ৄࡉ͸ /7-.0QFO'SPOUJFS$MBTT.VMUJNPEBM--.T<%BJ `> Λࢀর͍ͯͩ͘͠͞ɻ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ <> <>/7-.0QFO'SPOUJFS$MBTT.VMUJNPEBM--.T<%BJ `> 5BCMF
  28. 33 4FMG"UUFOUJPOWT$SPTT"UUFOUJPO7-#FODINBSLͰͷධՁ݁Ռ 1. 「画像エンコーダ」と「⼤規模⾔語モデル (LLM)」の接続⽅法 <> <>/7-.0QFO'SPOUJFS$MBTT.VMUJNPEBM--.T<%BJ `> 5BCMF •

    ϞσϧΞʔΩςΫνϟҎ֎ͷֶश࣌ͷઃఆ ֶशσʔλͳͲ ΛՄೳͳݶΓଗ͑ͨ৔߹ʹ͓͍ͯɺ 4FMG"UUOϞσϧ /7-.% ͸ෳ਺ͷ #FODINBSLͰɺ$SPTT"UUOϞσϧ /7-.9 ΑΓ΋ ༏ΕͨੑೳΛ͍ࣔͯ͠Δ • 4FMG"UUOϞσϧ $SPTT"UUOϞσϧͱ΋ʹɺ4'5࣌ʹߴ඼࣭ͷςΩετ POMZ*OTUSVDUJPO5VOJOH σʔλΛ૊ΈࠐΉ͜ͱͰɺςΩετ POMZλεΫͷੑೳྼԽΛ཈੍͞Βʹ͸޲্Ͱ͖͍ͯΔ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  29. 34 ঺հ͢ΔઌߦݚڀΞϓϩʔνͷ෼ྨ ⽬次 •ຊεϥΠυͰ͸ɺઌߦݚڀͷΞϓϩʔνΛ ͭʹେผͯ͠঺հ͢Δ ◦ʮը૾Τϯίʔμʯͱʮେن໛ݴޠϞσϧ --. ʯͷ઀ଓํ๏ -4FMG"UUFOUJPOWT$SPTT"UUFOUJPO ◦ը૾ͷΤϯίʔυํ๏

    - طଘͷը૾ΤϯίʔμΛ࢖༻ͨ͠ ߴղ૾౓ը૾ͷѻ͍ -ߴղ૾౓ը૾Λ /BUJWFʹѻ͏͜ͱͷͰ͖Δը૾Τϯίʔμͷ࢖༻ ◦ֶशσʔλ ˡ 1BSUͰѻ͏༧ఆͰ͢ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  30. 35 طଘͷը૾ΤϯίʔμΛ࢖༻ͨ͠ ߴղ૾౓ը૾ͷѻ͍ •-7-.ͷߏங࣌ʹ͸ࣄલֶशࡁΈը૾ΤϯίʔμΛ࢖༻͢Δ ◦ ࠷ऴੑೳ޲্ʹد༩͢ΔͨΊ $-*1༝དྷͷ 7J5 ը૾Τϯίʔμ͕࢖ΘΕΔࣄ͕ଟ͍ <,BSBNDIFUJ

    `> - ྫ -$-*17J5 -! -! -4JH-*1 -! -! ͳͲ - ྫ͑͹ɺ-!ͷ৔߹ɺ-BSHFϞσϧͷ 1BUDITJ[F ը૾ղ૾౓ʷQJYFM Ͱֶश͞Εͨ 7J5 Ͱ͋ΔͱಡΊΔ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ 2. 画像のエンコード⽅法: (既存の画像エンコーダを使⽤した) ⾼解像度画像の扱い •ࣄલֶशࡁΈը૾Τϯίʔμͷେ൒͕੩తղ૾౓ ʷͳͲ Ͱֶश͞Ε͍ͯΔ
  31. 36 طଘͷը૾ΤϯίʔμΛ࢖༻ͨ͠ ߴղ૾౓ը૾ͷѻ͍ •ࣄલֶशࡁΈը૾Τϯίʔμͷେ൒͕੩తղ૾౓ ʷͳͲ Ͱֶश͞Ε͍ͯΔ •-7-.ͷߏங࣌ʹ͸ࣄલֶशࡁΈը૾ΤϯίʔμΛ࢖༻͢Δ ◦ ࠷ऴੑೳ޲্ʹد༩͢ΔͨΊ $-*1༝དྷͷ

    7J5 ը૾Τϯίʔμ͕࢖ΘΕΔࣄ͕ଟ͍ <,BSBNDIFUJ `> - ྫ -$-*17J5 -! -! -4JH-*1 -! -! ͳͲ - ྫ͑͹ɺ-!ͷ৔߹ɺ-BSHFϞσϧͷ 1BUDITJ[F ը૾ղ૾౓ʷQJYFM Ͱֶश͞Εͨ 7J5 Ͱ͋ΔͱಡΊΔ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ 2. 画像のエンコード⽅法: (既存の画像エンコーダを使⽤した) ⾼解像度画像の扱い •ը૾ΛϦαΠζͯ͠੩తղ૾౓ ʷͳͲ ʹམͱͤ͹ѻ͑ΔΑ͏ʹͳΔ͕ɺ ϦαΠζ͢Δࡍʹݩͷղ૾౓ͷը૾ʹؚ·Ε͍ͯͨ৘ใ͕མͪͯ͠·͏ Ͳ͏͢Δʜ 🤔
  32. 37 ࠷ۙͷ -7-.Ͱ͸ʮը૾෼ׂઓུʯ͕ඇৗʹΑ͘࢖ΘΕΔ 2. 画像のエンコード⽅法: (既存の画像エンコーダを使⽤した) ⾼解像度画像の扱い •ೖྗը૾ͷΞεϖΫτൺͱղ૾౓ʹج͍ͮͯλΠϧʹ෼ׂ͢Δઓུ ◦ ྫ

    $-*17J5-!Λ༻͍ͯɺߴղ૾౓ը૾ ʷQJYFM Λॲཧ͢Δ৔߹ ೖྗը૾ ೖྗը૾ 5JMF  5JMF  5JMF  5JMF  5JMF  5JMF  QY QY ᶃ ೖྗը૾ͷΞεϖ Ϋτൺʹج͍ͮͯɺ ࣄલʹఆٛ͞ΕͨΞ εϖΫτൺͷத͔Β ࠷΋͍ۙ΋ͷ͕બ୒ ͞Εɺ͞Βʹղ૾౓ ʹج͍ͮͯλΠϧʹ ෼ׂ͞ΕΔ QY QY શମ ը૾ 5JMF  QY ը૾ Τϯίʔμ ŋŋŋ ը૾ Τϯίʔμ ŋŋŋ QY ը૾ Τϯίʔμ ŋŋŋ ŋŋŋ 5JMF  ŋŋŋ ᶄ ϦαΠζ͞Εͨશମը૾ͱλΠϧը૾Λ ݸผʹը૾Τϯίʔμʹೖྗ͢Δ ᶅ ͜ΕΒશͯͷը૾τʔΫϯΛ࢖༻ ˠ Ξμϓλʔʹೖྗ͞ΕΔ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  33. 38 ը૾෼ׂઓུͰؾΛ͚ͭΔ͜ͱλΠϧλάͷಋೖ 2. 画像のエンコード⽅法: (既存の画像エンコーダを使⽤した) ⾼解像度画像の扱い •ը૾෼ׂઓུʹΑΓɺಛʹ 0$3ؔ࿈λεΫͰͷੑೳ͕େ෯ʹ޲্͢Δ •͔͠͠ɺλΠϧ͔ΒಘΒΕͨશͯͷը૾τʔΫϯΛ୯७ʹ࿈݁ͯ͠ --.ʹ௚઀ೖྗͯ͠͠·͏ͱਪ࿦ؔ࿈ͷλεΫͰͷੑೳ͕௿Լ͢Δ৔߹͕͋Δ

    ◦ λΠϧؒͷؔ܎ੑ͕໌ࣔ͞Ε͍ͯͳ͍ͷͰɺֶश࣌ʹ --.͕ࠞཚ͢ΔՄೳੑ͕͋Δ ˠ λΠϧλάΛಋೖ͢Δ͜ͱͰɺೖྗը૾શମͷλΠϧͷҐஔΛ໌ࣔ͢Δ B /PUBHλΠϧλάΛ࢖༻ͤͣʹ୯७ʹ࿈݁͢Δํ๏ C %UBH<tile_1> <tile_2> ʜ <tile_6> <tile_global> D %HSJEUBH<tile_x0_y0> <tile_x1_y0> ʜ <tile_x2_y1> <tile_global> E %CCPY UBH<box> (x0, y0), (x1, y1) </box> ʜ <box> (x2, y1) (x3, y2) </box> ߴղ૾౓ը૾શମ಺Ͱͷ֘౰λΠϧͷ <box> (ࠨ্࠲ඪ), (ӈԼ࠲ඪ) </box> ྫ /7-. <%BJ `> ʹ͓͚ΔλΠϧλάͷྫ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  34. 39 ը૾෼ׂઓུ λΠϧλά ͷޮՌ ᶃ 4FMG"UUFOUJPOͷ৔߹ 2. 画像のエンコード⽅法: (既存の画像エンコーダを使⽤した) ⾼解像度画像の扱い

    • ը૾෼ׂઓུʹΑΓɺಛʹ 0$3ؔ࿈λεΫ $IBSU2" %PD72" 0$3#FODI Ͱͷੑೳ͕େ෯ʹ޲্ • λΠϧλάΛ෇༩͢Δ͜ͱͰɺੑೳ޲্͕֬ೝͰ͖Δ ಛʹ %UBH͕༗ޮͦ͏ ˛ 4FMG"UUFOUJPOϕʔεͷ -7-. ʹ͓͚Δɺը૾෼ׂઓུ λΠϧλά࢖༻࣌ͷੑೳൺֱ B /P UBHλΠϧλάΛ࢖༻ͤͣʹ୯७ʹ࿈݁͢Δํ๏ C %UBH<tile_1> <tile_2> ʜ <tile_6> <tile_global> D %HSJE UBH <tile_x0_y0> <tile_x1_y0> ʜ <tile_x2_y1> <tile_global> E %CCPY UBH<box> (x0, y0), (x1, y1) </box> ʜ <box> (x2, y1) (x3, y2) </box> ߴղ૾౓ը૾શମ಺Ͱͷ֘౰λΠϧͷ <box> (ࠨ্࠲ඪ), (ӈԼ࠲ඪ) </box> ྫ /7-. <%BJ `> ʹ͓͚ΔλΠϧλάͷྫ <>/7-.0QFO'SPOUJFS$MBTT.VMUJNPEBM--.T<%BJ `> 5BCMF <> -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  35. 40 ը૾෼ׂઓུ λΠϧλά ͷޮՌ ᶄ $SPTT"UUFOUJPOͷ৔߹ 2. 画像のエンコード⽅法: (既存の画像エンコーダを使⽤した) ⾼解像度画像の扱い

    •ը૾෼ׂઓུʹΑΓɺ...6Λআ͘શͯͷ #FODINBSLͰͷੑೳ͕޲্ •λΠϧλάΛ෇༩͢Δ͜ͱͰɺશͯͷ #FODINBSLͰੑೳ޲্Λ֬ೝ ˛ $SPTT"UUFOUJPOϕʔεͷ -7-. ʹ͓͚Δɺը૾෼ׂઓུ λΠϧλά࢖༻࣌ͷੑೳൺֱ <>/7-.0QFO'SPOUJFS$MBTT.VMUJNPEBM--.T<%BJ `> 5BCMF <> B /P UBHλΠϧλάΛ࢖༻ͤͣʹ୯७ʹ࿈݁͢Δํ๏ C %UBH<tile_1> <tile_2> ʜ <tile_6> <tile_global> ྫ /7-. <%BJ `> ʹ͓͚ΔλΠϧλάͷྫ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ ˠ ΞʔΩςΫνϟ 4FMG"UUO $SPTT"UUO ʹΑΒͣɺը૾෼ׂઓུ λΠϧλάઓུ͸༗ޮ
  36. 41 ঺հ͢ΔઌߦݚڀΞϓϩʔνͷ෼ྨ ⽬次 •ຊεϥΠυͰ͸ɺઌߦݚڀͷΞϓϩʔνΛ ͭʹେผͯ͠঺հ͢Δ ◦ʮը૾Τϯίʔμʯͱʮେن໛ݴޠϞσϧ --. ʯͷ઀ଓํ๏ -4FMG"UUFOUJPOWT$SPTT"UUFOUJPO ◦ը૾ͷΤϯίʔυํ๏

    - طଘͷը૾ΤϯίʔμΛ࢖༻ͨ͠ ߴղ૾౓ը૾ͷѻ͍ -ߴղ૾౓ը૾Λ /BUJWFʹѻ͏͜ͱͷͰ͖Δը૾Τϯίʔμͷ࢖༻ ◦ֶशσʔλ ˡ 1BSUͰѻ͏༧ఆͰ͢ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  37. 43 ߴղ૾౓ը૾Λ/BUJWFʹѻ͏͜ͱͷͰ͖Δը૾Τϯίʔμͷ࢖༻ 2. 画像のエンコード⽅法 •ೖྗը૾Λݩͷղ૾౓ͱΞεϖΫτൺΛม͑ͣʹɺ/BUJWFʹॲཧͰ͖Δ ࣄલֶशࡁΈը૾Τϯίʔμ͕։ൃ͞ΕΔͱخ͍͠ͷ͕ͩ  ◦ 2XFO7-<8BOH `>

    ◦ 1JYUSBM <"HSBXBM `> Ͱ Α͏΍͘ ಈతղ૾౓Λѻ͑Δը૾Τϯίʔμ͕։ൃɾ࢖༻͞ΕΔʂ •ͦ΋ͦ΋ɺߴղ૾౓ը૾ͷॲཧʹઌ΄Ͳ঺հͨ͠Α͏ͳը૾෼ׂઓུΛऔΒ͟ΔΛಘͳ͘ ͳͬͨେݩͷཁҼ͸ɺࣄલֶशࡁΈը૾Τϯίʔμͷେ൒͕੩తղ૾౓ ʷͳͲ Ͱ ֶश͞Ε͍ͯΔ ͨΊೖྗը૾ΛϦαΠζ͠ͳ͍ͱ͍͚ͳ͍ ͜ͱͰ͋Δ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  38. 47 ಈతղ૾౓Λѻ͑Δը૾ΤϯίʔμͷޮՌ 2. 画像のエンコード⽅法: ⾼解像度画像を Native に扱うことのできる画像エンコーダの使⽤ <>2XFO7-&OIBODJOH7JTJPO-BOHVBHF.PEFMT1FSDFQUJPOPGUIF8PSMEBU"OZ3FTPMVUJPO<8BOH `> 5BCMF

    <> •ಈతղ૾౓ઓུ͸ฏۉͯ͠τʔΫϯফඅΛ཈͑ͭͭɺ ෳ਺ͷ #FODINBSLͰτοϓϨϕϧͷੑೳΛୡ੒͍ͯ͠Δ ˛ ੩తղ૾౓ઓུͱಈతղ૾౓ઓུ࢖༻࣌ͷੑೳൺֱ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  39. 49 $PGGFFCSFBLᶃը૾Τϯίʔμ͸ඞཁͳ͍ʁ <>'VZV#".VMUJNPEBM"SDIJUFDUVSFGPS"*"HFOUT<#BWJTIJ `> <> •'VZV ͸ɺը૾ΤϯίʔμΛ࢖Θͣʹɺը૾ύονʹ୯७ͳઢܗࣹӨͷΈద༻͢Δ ◦ ར఺ ࣄલֶशࡁΈը૾Τϯίʔμ͕ඞཁͳ͍

    ◦ ར఺  ৄࡉͳը૾ύονʹؔ͢ΔҐஔ৘ใҎ֎ͷ ݩͷը૾৘ใΛશͯอ࣋Ͱ͖Δ •͔͠͠ɺಉ࣌ظʹϦϦʔε͞Εͨଞͷಉఔ౓ͷαΠζͷϞσϧͱൺֱͯ͠ #FODINBSL Ͱͷੑೳ͕௿͔ͬͨʢͷͰɺݱࡏ͸ը૾ΤϯίʔμΛ࢖༻͢Δํ๏͕޿͘࠾༻͞Ε͍ͯΔͷͩͱࢲ͸ߟ࡯͍ͯ͠·͢ʣ 2. 画像のエンコード⽅法 -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  40. 50 $PGGFFCSFBLᶄςΩετΫΤϦ΋ߟྀͨ͠ը૾Τϯίʔμ <>7JT'PDVT1SPNQU(VJEFE7JTJPO&ODPEFSTGPS0$3'SFF%FOTF%PDVNFOU6OEFSTUBOEJOH<"CSBNPWJDI `> 'JHVSF <> •7JT'PDVT ͸ɺςΩετΫΤϦ QSPNQU ΋ߟྀͯ͠ɺը૾ΛΤϯίʔυ͢Δ

    ◦ ࢦࣔ͢Δ಺༰ʹΑͬͯɺඞཁͱ͞ΕΔը૾৘ใྔ͸มΘͬͯ͘ΔͷͰɺࣗવͳൃ૝Ͱ͋Δͱݴ͑Δ - ྫ ʮը૾ͷӈԼͷ؃൘ʹ͸Կ͕ॻ͔Ε͍ͯ·͔͢ʁʯͱ͍͏ࢦࣔʹରͯ͠͸ɺը૾ӈԼͷ৘ใ͚ͩநग़Ͱ͖Ε͹े෼ ◦ ͨͩ͠ɺNVMUJUVSOͷձ࿩ͰɺҎલͷ࣭໰ʹݴٴ͢ΔΑ͏ͳ QSPNQUʹ͸ɺରԠͰ͖ͳ͍ 2. 画像のエンコード⽅法 -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ
  41. 51 1BSU·ͱΊ •ը૾Τϯίʔμͱ --.ͷ઀ଓํ๏ͱͯ͠ɺ4FMG"UUFOUJPO $SPTT"UUFOUJPOϕʔε ͷ͍ͣΕ͔͕Α͘༻͍ΒΕ͍ͯΔ ◦ 4FMG"UUFOUJPOϕʔεͷ -7-.͸ -

    ෳࡶͳ࣮૷ͳ͠Ͱෳ਺ͷϞμϦςΟΛ౷ҰతʹॲཧͰ͖Δ - Ξμϓλʔ෦෼ʹ޻෉Λࢪ͢͜ͱͰɺը૾τʔΫϯ਺Λ୹ॖͰ͖Δ - ࠾༻͍ͯ͠Δઌߦࣄྫ͕ଟ͘ɺ஌ݟ͕๛෋Ͱ͋Δ ◦ $SPTT"UUFOUJPOϕʔεͷ -7-.͸ɺ - ࣮૷͸ෳࡶʹͳΔ͕ɺ--.ͷ %FDPEFS#MPDL಺Ͱը૾τʔΫϯΛશͯల։͢Δඞཁ͕ͳ͘ޮ཰త - ௨ৗɺ--.ͷॏΈΛݻఆֶͯ͠श͢ΔͷͰɺςΩετ POMZͷੑೳΛҡ࣋͠΍͍͢ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ • طଘͷը૾ΤϯίʔμΛ࢖༻ͯ͠ ߴղ૾౓ը૾Λѻ͏࣌ʹ͸ɺ ϞσϧΞʔΩςΫνϟʹΑΒͣɺը૾෼ׂઓུͱλΠϧλάઓུ͕ޮՌత •࠷ۙʹͳͬͯɺߴղ૾౓ը૾Λ /BUJWFʹѻ͑Δը૾Τϯίʔμ͕࢖༻͞Ε࢝ΊΔ
  42. 52 1BSUʹଓ͘ ʜ ⽬次 •ຊεϥΠυͰ͸ɺઌߦݚڀͷΞϓϩʔνΛ ͭʹେผͯ͠঺հ͢Δ ◦ʮը૾Τϯίʔμʯͱʮେن໛ݴޠϞσϧ --. ʯͷ઀ଓํ๏ -4FMG"UUFOUJPOWT$SPTT"UUFOUJPO

    ◦ը૾ͷΤϯίʔυํ๏ - طଘͷը૾ΤϯίʔμΛ࢖༻ͨ͠ ߴղ૾౓ը૾ͷѻ͍ -ߴղ૾౓ը૾Λ /BUJWFʹѻ͏͜ͱͷͰ͖Δը૾Τϯίʔμͷ࢖༻ ◦ֶशσʔλ ˡ 1BSUͰѻ͏༧ఆͰ͢ -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ 🏃
  43. 53 ࢀߟɾ͓໾ཱͪࢿྉ • ্ݪ߁ฏࣗવݴޠͱ7JTJPO-BOHVBHF౦ژେֶେֶӃ ೥౓ߨٛʮ஌ೳ৘ใ࿦ʯ 4QFBLFS%FDL ◦ 7-ʹؔ͢Δओཁͳݚڀɾٕज़Λਂ૚ֶशॳظ͔Β ࣌఺·Ͱ֓؍ͨ͠ڭՊॻతͳεϥΠυͰ͢ɻ 7-ॳֶऀͷํ͸͜ͷεϥΠυ͔ΒೖΔͱશମײΛ၆ᛌͰ͖͓ͯ͢͢ΊͰ͢ɻ

    -7-.ʹؔ͢Δ࠷৽஌ݟ·ͱΊ ʢ੣ʹউख ၟӽͳ͕Βʣ׬શʹओ؍Ͱɺ͓໾ཱͪࢿྉΛ͍͔ͭ͘঺հ͠·͢ʂ • ాதྋଠ େن໛ݴޠϞσϧʹΑΔࢹ֮ɾݴޠͷ༥߹ୈճԬࢁେֶ"*ݚڀձ 4QFBLFS%FDL ◦ #&35࣌୅ͷΞϓϩʔν͔Β ࣌఺ͷ --.ͷਪ࿦ೳྗΛ࢖༻ͨ͠Ξϓϩʔν·ͰΛղઆ͞Ε͍ͯ·͢ɻ ஶऀͷాத͞Μ͸จॻը૾ཧղΛઐ໳ʹ͓ͯ͠Γɺଞʹ΋༗ӹͳ࿦จɾεϥΠυΛ਺ଟ͘ެ։͞Ε͍ͯ·͢ɻ • ੢ాژհ ੢ాޫำ ాதྋଠ ੪౻͍ͭΈ /-1ͱ7JTJPOBOE-BOHVBHFͷجૅɾ࠷৽ಈ޲  /-1ͱ7JTJPOBOE-BOHVBHFͷجૅɾ࠷৽ಈ޲  %&*. 4QFBLFS%FDL ◦ #&35࣌୅ͷ /-1ͷؔ࿈ݚڀ͔Β࢝Ίɺॳظͷ -7-. ࣌఺ ·ͰΛղઆ͞Ε͍ͯ·͢ɻ • ඼઒੓ଠ࿕ ϚϧνϞʔμϧର࿩γεςϜ 4QFBLFS%FDL ◦ ࣌఺ͰͷϚϧνϞʔμϧର࿩γεςϜपลͷ৘ใ͕·ͱΊΒΕ͍ͯ·͢ɻ ಛʹ $-*1पΓͷ࿩͕໘ന͍ ஶऀͷ඼઒ઌੜ͸ 7-શൠΛઐ໳ʹ͓ͯ͠Γɺଞʹ΋༗ӹͳ࿦จɾεϥΠυΛ਺ଟ͘ެ։͞Ε͍ͯ·͢ɻ • Ԭ࡚௚؍ େن໛ݴޠϞσϧͷ։ൃ+4"*νϡʔτϦΞϧߨԋ 4QFBLFS%FDL ◦ ࣌఺ͷ --.ͷ։ൃʹؔ࿈͢ΔݚڀΛղઆ͞Ε͓ͯΓɺ--.Λ 7-.ʹ૊ΈࠐΉΑ͏ʹͳͬͨࠓͱͳͬͯ͸ɺ --.ͱ -7-.Ͱؔ࿈͢Δ఺͸ଟ͘ɺ஌͓͍ͬͯͯଛ͸ͳ͍৘ใ͕ඇৗʹଟ͘੝Γࠐ·Ε͍ͯ·͢ɻ • ੁপխಙ ਂ૚ֶशʹΑΔը૾ೝࣝͷجૅ ΦʔϜࣾ ॻ੶ ◦ $//ͱ 7J5 Λ௨ͯ͠ը૾ೝࣝͷجૅΛେม෼͔Γ΍͘͢ղઆ͞Ε͍ͯ·͢ɻ࠷ऴষʹ 7-ͷষ΋ؚ·Ε͓ͯΓେมࢀߟʹͳΓ·͢ɻ