Slide 1

Slide 1 text

大規模言語モデルと Vision & Languageのこれから 2024.6.13 栗田 修平(画像センシング技術研究会)

Slide 2

Slide 2 text

目次 • 自己紹介 • 最近の仕事の紹介 • 「GPT-4Vで画像認識は終わるのか」に対する見解 • GPT-4Vの登場前後で自身の研究目標・仕事の仕方は変わった か?

Slide 3

Slide 3 text

1. RefEgo: Referring Expression Comprehension Dataset from First-Person Perception of Ego4D, Shuhei Kurita, Naoki Katsura, Eri Onami, (ICCV2023). 2. ScanQA: 3D Question Answering, Daichi Azuma(*), Taiki Miyanishi(*), Shuhei Kurita(*) and Motoaki Kawanabe. (CVPR2022). (*): eq. cont. 3. Generative Language-Grounded Policy in Vision-and-Language Navigation with Bayes’ Rule, Shuhei Kurita and Kyunghyun Cho, (ICLR2021). 4. Reconstructing neuronal circuitry from parallel spike trains, Ryota Kobayashi, Shuhei Kurita, …, Shinomoto Shigeru, Nature Communications (2019). 5. Neural Joint Model for Transition-based Chinese Syntactic Analysis, Shuhei Kurita, Daisuke Kawahara and Sadao Kurohashi, (ACL2017). Selected as Out-standing Paper in ACL2017. 栗田修平 (Shuhei Kurita) 2019年 3月 博士(情報学) 京都大学 黒橋・河原研究室 自然言語処理 2019年 4月 - 2023年3月 理化学研究所 特別研究員 2020年 1月 - NYU訪問研究員 2020年 12月 - JST さきがけ 2023年 4月 - 理化学研究所 研究員 2024年 4月 - 現職 Selected Publications 国立情報学研究所 助教 研究テーマ: テキストと実世界・物理世界を繋げる Career

Slide 4

Slide 4 text

最近の仕事:テキストと実世界を繋げる [2] 大規模3次元質問応答データセット ScanQA の提案 [1] Vision and Language Navigationに対する 言語モデル(画像キャプションモデル)を用いた手法 視覚・動作情報 キャプションモデル 指示文章 [3] テキストによる主観視点動画からの物体追跡 “the large white bowl with broccoli inside that is used to load the pan of broccol” ScanQA (CVPR2022). RefEgo (ICCV2023). Generative Language Grounded Policy (ICLR2021). • 文書処理 • 図表の読解 • 文書質問応答 • OCR • 実世界認識 • 参照表現理解 Visual grounding • 一人称動画理解 • ロボット応用

Slide 5

Slide 5 text

RefEgo: Ego4D上でのテキストからの物体追跡 A large tire with a gray rim in the hands of the person. A red crate on the flat shopping cart in the middle of the isle. A small blue plate of broccoli to left of other plate. The red container near the wall, behind the two trays. Garage Kitchen Lab Supermarket

Slide 6

Slide 6 text

RefEgo: Dataset 5-sec. 24.8% 10-sec. 24.6% 15-sec. 36.7% 20-sec. 13.9% • We constructed a object localization & tracking tdataset on Ego4D • 12,038 annotated clips of 41 hours total. • 2FPS for annotation bboxes with two textual referring expressions for a single object. • Objects can be out-of-frame (no-referred-object).

Slide 7

Slide 7 text

MDETR+BH Model The referred object in the images Blue colored strainer inside the kitchen sink MDETR: 0.110 MDETR: 0.908 MDETR: 0.998 MDETR: 0.991 The referred object is difficult to detect The brown box with red writing, sitting on top of a blue box on the table

Slide 8

Slide 8 text

物体が「写っていない」ことをとらえる A red crate on the flat shopping cart in the middle of the isle. MDETR (RefEgo) w/ Binary Head MDETR (RefCOCOg) off-the-shelf False positive detections!

Slide 9

Slide 9 text

JDocQA Dataset JDocQA: Japanese Document Ques on Answering Dataset for Generative Language Models, Eri Onami, Shuhei Kurita, Taiki Miyanishi, Taro Watanabe (LREC-COLING2024).

Slide 10

Slide 10 text

GPT-4Vで画像認識は終わるのか • まだ終わらなそう • そもそもGPT-4Vの精度はまだ不完全 • 画像処理に近い所ではGPT-4Vにはできないタスクが多い • しかし5年後10年後にはかなり広いタスクに使えるかも?

Slide 11

Slide 11 text

(参考)ChatGPT 4o

Slide 12

Slide 12 text

(参考)ChatGPT 4

Slide 13

Slide 13 text

(参考)ChatGPT 4o Ego4Dからとってきた5枚画像 → 行動認識チョットデキル…? → まだHallucination問題は 残っている?

Slide 14

Slide 14 text

(参考)ChatGPT 4

Slide 15

Slide 15 text

GPT-4Vの登場前後で自身の研究目標・仕事 の仕方は変わったか? • 変わった • 複数のタスクを解けるモデルを重視するようになった • 単一タスクでのSoTAを必ずしも追わなくなった • ゼロショットでV&Lタスクを解けるモデルへ • ただし、ここは目的によるかも • データを重視するようになった • OpenAIと他の企業・大学の違いは何か? 1. OpenAIだけが知っている特殊な手法で実装している? → × 2. OpenAIは他よりもGPUを持っている? → × 3. OpenAIは他よりも量・質にすぐれたデータを持っている? → 〇 強力かつデータリッチな他社が追いつけていないところを見るに 自動手法によるデータ構築だけでは厳しい? • 手法とデータの双方が重視される時代が来るかも