Slide 1

Slide 1 text

MSさんの論⽂で学ぶChatGPT-4Vision (45min版) 2023/10/21 NOB DATA株式会社 代表取締役 ⼤城 信晃

Slide 2

Slide 2 text

Copyright © 2023 NOB DATA All Rights Reserved. アンケート • Q : ChatGPTを 使ったことがない ( 0 ) GPT-3.5を使ってる ( 1 ) GPT-4を使ってる ( 2 ) GPT-4Vを使ってる ( 3 )

Slide 3

Slide 3 text

Copyright © 2023 NOB DATA All Rights Reserved. ⾃⼰紹介 ⼤城信晃(twitter @doradora09) NOB DATA株式会社 代表取締役社⻑ / データサイエンティスト協会九州⽀部 ⽀部⻑ ・住まい 沖縄 -> 東京 -> 福岡 ・職歴 ヤフー-> DATUM STUDIO -> LINE Fukuoka -> NOB DATA(株) 創業 ・運営コミュニティ ・Tokyo.R(2010-2016) ・fukuoka.R、PyData.Fukuoka、 オモシロAIごった煮勉強会、ChatGPT部、 他2つ ChatGPT部では部⻑をやってます NEW: 11/11発売

Slide 4

Slide 4 text

Copyright © 2023 NOB DATA All Rights Reserved. GPT-4Vとはなんぞや(1/2) • OpenAI社が10/10頃に公開し た画像認識機能 • 10/21現在ではChatGPTプラ スユーザーに配布済み (2週間ほどかけて順次配布) コレ

Slide 5

Slide 5 text

Copyright © 2023 NOB DATA All Rights Reserved. GPT-4Vとはなんぞや(2/2) • トマト画像で私が過去に実験した例はこちら • https://note.com/chatgpt_nobdata/n/n998ed3dc285b • カウンティングの正確性だけでなく、バルコニーを推測しているのもすごい

Slide 6

Slide 6 text

Copyright © 2023 NOB DATA All Rights Reserved. 本⽇はMSさんのこちらの論⽂をベースにご紹介(10/11) • https://arxiv.org/abs/2309.17421 • 166ページに渡る⼤作 ここからDL可能

Slide 7

Slide 7 text

Copyright © 2023 NOB DATA All Rights Reserved. 機械翻訳して 本⽇は機械翻訳してますので⼀部変な⽇本語はどうぞご容赦ください 参考:https://arxiv.org/abs/2309.17421

Slide 8

Slide 8 text

Copyright © 2023 NOB DATA All Rights Reserved. この論⽂の⽬的と注意点 • 定性的なポテンシャル調査がメイン (p9) 参考:https://arxiv.org/abs/2309.17421

Slide 9

Slide 9 text

Copyright © 2023 NOB DATA All Rights Reserved. ⽬次抜粋(pp4-7をChatGPTでサマリ, 1/3) • ⾮常に多岐に渡る • 個⼈的にはポインティング系も⾯⽩いなと こちらの⽬次をトピックでまとめてサマ リし、ページレンジを表形式で出⼒して ください。 また⽇本語に翻訳し、セク ションの概要も付与してください。表形 式で。 ・⽬次(その1) List of Figures 1 Section 2.3: multi- image inputs and interleaved image- text pairs. . . . . . . . . . . 11 2 Section3.1:followingtextinstructions. ..... .................. 12 3 Section3.1:constrainedprompting. ......... ................ 13 ・・・ 参考:https://arxiv.org/abs/2309.17421

Slide 10

Slide 10 text

Copyright © 2023 NOB DATA All Rights Reserved. ⽬次抜粋(pp4-7をChatGPTでサマリ, 2/3) • ⾮常に多岐に渡る • 個⼈的にはポインティング系も⾯⽩いなと こちらの⽬次をトピックでまとめてサマ リし、ページレンジを表形式で出⼒して ください。 また⽇本語に翻訳し、セク ションの概要も付与してください。表形 式で。 ・⽬次(その1) List of Figures 1 Section 2.3: multi- image inputs and interleaved image- text pairs. . . . . . . . . . . 11 2 Section3.1:followingtextinstructions. ..... .................. 12 3 Section3.1:constrainedprompting. ......... ................ 13 ・・・ 参考:https://arxiv.org/abs/2309.17421

Slide 11

Slide 11 text

Copyright © 2023 NOB DATA All Rights Reserved. ⽬次抜粋(pp4-7をChatGPTでサマリ, 3/3) • ⾮常に多岐に渡る • 個⼈的にはポインティング系も⾯⽩いなと こちらの⽬次をトピックでまとめてサマ リし、ページレンジを表形式で出⼒して ください。 また⽇本語に翻訳し、セク ションの概要も付与してください。表形 式で。 ・⽬次(その1) List of Figures 1 Section 2.3: multi- image inputs and interleaved image- text pairs. . . . . . . . . . . 11 2 Section3.1:followingtextinstructions. ..... .................. 12 3 Section3.1:constrainedprompting. ......... ................ 13 ・・・ 参考:https://arxiv.org/abs/2309.17421

Slide 12

Slide 12 text

Copyright © 2023 NOB DATA All Rights Reserved. 以下、⼤城が⾯⽩いと思ったものを論⽂からいくつか抜粋

Slide 13

Slide 13 text

Copyright © 2023 NOB DATA All Rights Reserved. p12, 図形の推測 • ヒントを与えれば類推で解ける模様 (⾚のマーカーは間違えている部分) 参考:https://arxiv.org/abs/2309.17421

Slide 14

Slide 14 text

Copyright © 2023 NOB DATA All Rights Reserved. p13, IDカードからの情報抽出 • 8割くらいは上⼿く抽出できている雰囲気 参考:https://arxiv.org/abs/2309.17421

Slide 15

Slide 15 text

Copyright © 2023 NOB DATA All Rights Reserved. p64, 表の読み取りは8-9割くらい • まだまだ精度は不⼗ 分なので、厳密な計 算を⾏いたい場合は CSVとかを⼊れたほ うが良さげ

Slide 16

Slide 16 text

Copyright © 2023 NOB DATA All Rights Reserved. p14, カウンティングもある程度はできる • ただし、完璧ではない (なお、ステップバイステップはここでも有効) 参考:https://arxiv.org/abs/2309.17421

Slide 17

Slide 17 text

Copyright © 2023 NOB DATA All Rights Reserved. p17, ポインティングの理解 • ちょっと未来 感ある。 • あとAR系と組 み合わせると ⾯⽩そう 参考:https://arxiv.org/abs/2309.17421

Slide 18

Slide 18 text

Copyright © 2023 NOB DATA All Rights Reserved. p22, アナログメーター読み取りは苦⼿そう • 2ショットの画像付 きプロンプティン グを⾏えば正解す るが・・⼤変そう (1枚⽬は省略)、以下2枚⽬から 参考:https://arxiv.org/abs/2309.17421

Slide 19

Slide 19 text

Copyright © 2023 NOB DATA All Rights Reserved. p28, 有名⼈の認識は得意かも • 画像検索より効率 的かもしれない 参考:https://arxiv.org/abs/2309.17421

Slide 20

Slide 20 text

Copyright © 2023 NOB DATA All Rights Reserved. p29, ランドマーク認識も同じく得意そう • Web上に学習デー タが多いから? 参考:https://arxiv.org/abs/2309.17421

Slide 21

Slide 21 text

Copyright © 2023 NOB DATA All Rights Reserved. p31, 料理認識も⾏ける • カロリー計算とか はできないかし ら・・?? 参考:https://arxiv.org/abs/2309.17421

Slide 22

Slide 22 text

Copyright © 2023 NOB DATA All Rights Reserved. pp32-33, 簡単な診断的なもの(1/4) • 親知らず、くらいはわかる • ただ医療画像系はプロの医療関係者から⾔わせると、まだまだらしい 参考:https://arxiv.org/abs/2309.17421

Slide 23

Slide 23 text

Copyright © 2023 NOB DATA All Rights Reserved. pp32-33, 簡単な診断的なもの(2/4) ⾻折、くらいはわかる 参考:https://arxiv.org/abs/2309.17421

Slide 24

Slide 24 text

Copyright © 2023 NOB DATA All Rights Reserved. pp32-33, 簡単な診断的なもの(3/4) • 肺のCTスキャン • ただ、⾔い回しはま だふわっとしている らしい 参考:https://arxiv.org/abs/2309.17421

Slide 25

Slide 25 text

Copyright © 2023 NOB DATA All Rights Reserved. pp100, 簡単な診断的なもの(4/4) • これは素⼈⽬線では凄 そうな気もする・・ 参考:https://arxiv.org/abs/2309.17421

Slide 26

Slide 26 text

Copyright © 2023 NOB DATA All Rights Reserved. p36, シーン理解はいい感じ • ⾃動運転とかにも使 える・・?? • 天下⼀品のロゴも誤 認識しない、という 話もある 参考:https://arxiv.org/abs/2309.17421

Slide 27

Slide 27 text

Copyright © 2023 NOB DATA All Rights Reserved. p37, 無いものをちゃんと「無い」と⾔ってくれる • 画像内のオブジェクトのサーチ系タスクにも使えそう 参考:https://arxiv.org/abs/2309.17421

Slide 28

Slide 28 text

Copyright © 2023 NOB DATA All Rights Reserved. p39, 位置の検出は6-7割くらい • 座標を出⼒させ る、などの使い⽅ 参考:https://arxiv.org/abs/2309.17421

Slide 29

Slide 29 text

Copyright © 2023 NOB DATA All Rights Reserved. p42, 詳細情報の付与 • AR関係と組み合わ せると便利そう 参考:https://arxiv.org/abs/2309.17421 イメージ

Slide 30

Slide 30 text

Copyright © 2023 NOB DATA All Rights Reserved. p46, 関係性把握・教育など(1/2) • 家庭教師としては 良いかも 参考:https://arxiv.org/abs/2309.17421

Slide 31

Slide 31 text

Copyright © 2023 NOB DATA All Rights Reserved. p46, 関係性把握・教育など(2/2) • 家庭教師としては 良いかも 参考:https://arxiv.org/abs/2309.17421

Slide 32

Slide 32 text

Copyright © 2023 NOB DATA All Rights Reserved. p48, プロファイリング • 事件現場の考察と かもしてくれない か・・? 参考:https://arxiv.org/abs/2309.17421

Slide 33

Slide 33 text

Copyright © 2023 NOB DATA All Rights Reserved. p50, ⽂字認識 • この例では上⼿くいっている • 個⼈的には⽇本語は苦⼿な印象 参考:https://arxiv.org/abs/2309.17421

Slide 34

Slide 34 text

Copyright © 2023 NOB DATA All Rights Reserved. p51, 数式理解 • ⼿書きを認識してくれるのは嬉しい 参考:https://arxiv.org/abs/2309.17421

Slide 35

Slide 35 text

Copyright © 2023 NOB DATA All Rights Reserved. p63, ⼿書きを綺麗に • LaTeX書いてくれる 参考:https://arxiv.org/abs/2309.17421

Slide 36

Slide 36 text

Copyright © 2023 NOB DATA All Rights Reserved. p52, フローチャート理解 • パシャっと撮れば解説してくれる未来も近い 参考:https://arxiv.org/abs/2309.17421

Slide 37

Slide 37 text

Copyright © 2023 NOB DATA All Rights Reserved. p54, グラフから簡単な計算も可能 • 便利 参考:https://arxiv.org/abs/2309.17421

Slide 38

Slide 38 text

Copyright © 2023 NOB DATA All Rights Reserved. p65, ビジョンコーディングはまだまだ • ステップバイステッ プ、とか試すとまた 変わるかもしれない が・・ 参考:https://arxiv.org/abs/2309.17421

Slide 39

Slide 39 text

Copyright © 2023 NOB DATA All Rights Reserved. p71, 解説系は結構便利かもしれない • UIを⾒せて、使い⽅ を質問するなど 参考:https://arxiv.org/abs/2309.17421

Slide 40

Slide 40 text

Copyright © 2023 NOB DATA All Rights Reserved. p75, 動画理解はすごい • バラバラの画像でも 順番を理解してい る。謎。 参考:https://arxiv.org/abs/2309.17421

Slide 41

Slide 41 text

Copyright © 2023 NOB DATA All Rights Reserved. p78, シーン解析 • スポーツの分析とか 中継にも使えるか も? 参考:https://arxiv.org/abs/2309.17421

Slide 42

Slide 42 text

Copyright © 2023 NOB DATA All Rights Reserved. p81, アスキーアート理解 • これは4VじゃないChatGPTでもある程度できた気がする 参考:https://arxiv.org/abs/2309.17421

Slide 43

Slide 43 text

Copyright © 2023 NOB DATA All Rights Reserved. p86, 表情からの感情分析(1/2) • 結構良い気がする • そのうちオンラインMTGの感情分析もできるのでは? 参考:https://arxiv.org/abs/2309.17421

Slide 44

Slide 44 text

Copyright © 2023 NOB DATA All Rights Reserved. p86, 表情からの感情分析(2/2) • 結構良い気がする • そのうちオンラインMTGの感情分析もできるのでは? 参考:https://arxiv.org/abs/2309.17421

Slide 45

Slide 45 text

Copyright © 2023 NOB DATA All Rights Reserved. p87, シーンからの感情分析(2/2) • 結構良い気がする 参考:https://arxiv.org/abs/2309.17421

Slide 46

Slide 46 text

Copyright © 2023 NOB DATA All Rights Reserved. p88, 美的センス(1/2) • 好みは分かれ そうだが、分 からなくもな い • レイアウト提 案や地価の分 析とかに使え る? 参考:https://arxiv.org/abs/2309.17421

Slide 47

Slide 47 text

Copyright © 2023 NOB DATA All Rights Reserved. p88, 美的センス(2/2) • 好みは分かれ そうだが、分 からなくもな い • レイアウト提 案や地価の分 析とかに使え る? 参考:https://arxiv.org/abs/2309.17421

Slide 48

Slide 48 text

Copyright © 2023 NOB DATA All Rights Reserved. p92, 間違い探しも⼀部できる • 3個中2個正解の例 • 昔、ウォーリーをさがせ、を Bingの画像解析機能で試した 際は全くダメだったので、今 度試してみたいと思います 参考:https://arxiv.org/abs/2309.17421

Slide 49

Slide 49 text

Copyright © 2023 NOB DATA All Rights Reserved. p94, ⽋陥の検出 • ほぼゼロショットでここまでいけるのはすごい • ただ、間違いがある、という前提の問いなので、正常の画像とセットにした 場合にどうなるかは要検証 参考:https://arxiv.org/abs/2309.17421

Slide 50

Slide 50 text

Copyright © 2023 NOB DATA All Rights Reserved. p97, 安全検査 • まとめての処理は⼀部間違う、1個1個分類す るといける 参考:https://arxiv.org/abs/2309.17421 分解して input

Slide 51

Slide 51 text

Copyright © 2023 NOB DATA All Rights Reserved. p98, バスケットの中⾝の分析 • 6割くらい? • 画像付きfew shotを すると正答率は上が る 参考:https://arxiv.org/abs/2309.17421

Slide 52

Slide 52 text

Copyright © 2023 NOB DATA All Rights Reserved. p106, 保険レポート作成 • プレースホルダーは 結構効いている • しかし、⼤破・・ 参考:https://arxiv.org/abs/2309.17421

Slide 53

Slide 53 text

Copyright © 2023 NOB DATA All Rights Reserved. p108, 画像ラベル付けの上の解釈 • これはすごい。 参考:https://arxiv.org/abs/2309.17421

Slide 54

Slide 54 text

Copyright © 2023 NOB DATA All Rights Reserved. p112, 画像に対するテキストベースの類似度評価 • 「こういう画像に近いもの」という評価も⼀定できそう 参考:https://arxiv.org/abs/2309.17421

Slide 55

Slide 55 text

Copyright © 2023 NOB DATA All Rights Reserved. p114, 画像⽣成AIに対するプロンプト案 • こちらはPix2Pixらしいですが、DALL-E 3などでも使えそう 参考:https://arxiv.org/abs/2309.17421 プロンプト 変更

Slide 56

Slide 56 text

Copyright © 2023 NOB DATA All Rights Reserved. p119, リアルのエージェントとの組み合わせ • ロボティクス との繋ぎの可 能性。 (でもちょっと 怖い気も・・) 参考:https://arxiv.org/abs/2309.17421

Slide 57

Slide 57 text

Copyright © 2023 NOB DATA All Rights Reserved. p123, Web IFの操作指⽰ (1/3) • RPAとかもう個別 に組まなくても良 くなるかも・・? ( 実⾏コストの問 題を別とすればで すが ) 参考:https://arxiv.org/abs/2309.17421

Slide 58

Slide 58 text

Copyright © 2023 NOB DATA All Rights Reserved. p123, Web IFの操作指⽰ (2/3) 参考:https://arxiv.org/abs/2309.17421 • RPAとかもう個別 に組まなくても良 くなるかも・・? ( 実⾏コストの問 題を別とすればで すが )

Slide 59

Slide 59 text

Copyright © 2023 NOB DATA All Rights Reserved. p123, Web IFの操作指⽰ (3/3) 参考:https://arxiv.org/abs/2309.17421 • RPAとかもう個別 に組まなくても良 くなるかも・・? ( 実⾏コストの問 題を別とすればで すが )

Slide 60

Slide 60 text

Copyright © 2023 NOB DATA All Rights Reserved. 番外編その1:参考⽂献等 (pp157-166) • 160個くらい乗ってました、が⽇本勢はおそらく2個くらい・・? • 時間があれば関連の論⽂も眺めてみたいなと思いました 参考:https://arxiv.org/abs/2309.17421

Slide 61

Slide 61 text

Copyright © 2023 NOB DATA All Rights Reserved. 番外編その2:11/6(アメリカ現地時間)のDevDeyに注⽬ • 噂レベルでは、ChatGPT-4VisionのAPIが出るかもしれない、という話 • 本当かどうかは当⽇分かりますので、注⽬して待ちましょう https://twitter.com/masahirochaen/status/1712638572371841075 https://devday.openai.com/

Slide 62

Slide 62 text

Copyright © 2023 NOB DATA All Rights Reserved. ご清聴、ありがとうございました・・! 何か個別のご相談やご質問がございましたら [email protected] (NOB DATA問い合わせ窓⼝) までお気軽にどうぞ。