マルチモーダル対話システム

Slide 1

Slide 1 text

マルチモーダル対話システム品川政太朗（NAIST）

Slide 2

Slide 2 text

品川政太朗奈良先端科学技術大学院大学先端科学技術研究科 [経歴] • 2015年東北大学大学院情報科学研究科修士課程修了 • 2015年奈良先端科学技術大学院大学博士後期課程入学 • 2020年奈良先端科学技術大学院大学博士（工学） • 2020年奈良先端科学技術大学院大学助教 [専門] • Vision and Language • 対話的な画像生成システム [書籍] • コンピュータビジョン最前線2021Winter ニュウモン Vision and Language（共立出版） • コンピュータビジョン最前線2023 Summer フカヨミCLIP（共立出版） • Vision Transformer入門 7章8章（技術評論社） S eit aro S h in agaw a 1/51

Slide 50

Slide 50 text

参考文献 [Wu+,2023] Wu, C. et al. Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models. arXiv, 2023. [You+,2023] You, H. et al. IdealGPT: Iteratively Decomposing Vision and Language Reasoning via Large Language Models. arXiv, 2023. [Oord+,2017] Aaron van den Oord et al. Neural Discrete Representation Learning. NIPS2017. [Ramesh+,2021] Aditya Ramesh, et al. Zero-Shot Text-to-Image generation. arXiv, 2021. [Mizrahi+,2017] Mizrahi, D. et al. 4M: Massively Multimodal Masked Modeling. NeurIPS, 2023. [Ramesh+,2022] Ramesh, A., Dhariwal, P., Nichol, A., Chu, C. & Chen, M. Hierarchical Text-Conditional Image Generation with CLIP Latents. arXiv, 2022. [Cha+,2023] Cha, J., Kang, W., Mun, J. & Roh, B. Honeybee: Locality-enhanced Projector for Multimodal LLM. arXiv, 2023. [LI+,2023] Li, J., Li, D., Savarese, S. & Hoi, S. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. arXiv, 2023. [Dai+,2023] Dai, W. et al. InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning. arXiv, 2023. [Li+,2023] Li, K. et al. VideoChat: Chat-Centric Video Understanding. arXiv, 2023. [Zhu+,2023] Zhu, D., Chen, J., Shen, X., Li, X. & Elhoseiny, M. MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models. arXiv, 2023. [Liu+,2023a] Liu, H., Li, C., Wu, Q. & Lee, Y. J. Visual Instruction Tuning. arXiv, 2023. [Liu+,2023b] Liu, H., Li, C., Li, Y. & Lee, Y. J. Improved Baselines with Visual Instruction Tuning. arXiv, 2023. [Zhang+,2023] Zhang, H. et al. LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models. arXiv, 2023. [Radford+,2021] Alec Radford, et al. Learning transferable visual models from natural language supervision. ICML, Vol. 139, pp. 8748–8763, 2021. [Maini+,2023] Maini, P., Goyal, S., Lipton, Z. C., Zico Kolter, J. & Raghunathan, A. T-MARS: Improving Visual Representations by Circumventing Text Feature Learning. arXiv, 2023. [Shtedritski+,2023] Shtedritski, A., Rupprecht, C. & Vedaldi, A. What does CLIP know about a red circle? Visual prompt engineering for VLMs. ICCV, 2023. 49/51

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Slide 24

Slide 24 text

Slide 25

Slide 25 text

Slide 26

Slide 26 text

Slide 27

Slide 27 text

Slide 28

Slide 28 text

Slide 29

Slide 29 text

Slide 30

Slide 30 text

Slide 31

Slide 31 text

Slide 32

Slide 32 text

Slide 33

Slide 33 text

Slide 34

Slide 34 text

Slide 35

Slide 35 text

Slide 36

Slide 36 text

Slide 37

Slide 37 text

Slide 38

Slide 38 text

Slide 39

Slide 39 text

Slide 40

Slide 40 text