Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20231021_MSさんの論文で学ぶChatGPT-4Vision(45min版)_v1.00.pdf

 20231021_MSさんの論文で学ぶChatGPT-4Vision(45min版)_v1.00.pdf

NobuakiOshiro

October 21, 2023
Tweet

More Decks by NobuakiOshiro

Other Decks in Technology

Transcript

  1. Copyright © 2023 NOB DATA All Rights Reserved. アンケート •

    Q : ChatGPTを 使ったことがない ( 0 ) GPT-3.5を使ってる ( 1 ) GPT-4を使ってる ( 2 ) GPT-4Vを使ってる ( 3 )
  2. Copyright © 2023 NOB DATA All Rights Reserved. ⾃⼰紹介 ⼤城信晃(twitter

    @doradora09) NOB DATA株式会社 代表取締役社⻑ / データサイエンティスト協会九州⽀部 ⽀部⻑ ・住まい 沖縄 -> 東京 -> 福岡 ・職歴 ヤフー-> DATUM STUDIO -> LINE Fukuoka -> NOB DATA(株) 創業 ・運営コミュニティ ・Tokyo.R(2010-2016) ・fukuoka.R、PyData.Fukuoka、 オモシロAIごった煮勉強会、ChatGPT部、 他2つ ChatGPT部では部⻑をやってます NEW: 11/11発売
  3. Copyright © 2023 NOB DATA All Rights Reserved. GPT-4Vとはなんぞや(1/2) •

    OpenAI社が10/10頃に公開し た画像認識機能 • 10/21現在ではChatGPTプラ スユーザーに配布済み (2週間ほどかけて順次配布) コレ
  4. Copyright © 2023 NOB DATA All Rights Reserved. GPT-4Vとはなんぞや(2/2) •

    トマト画像で私が過去に実験した例はこちら • https://note.com/chatgpt_nobdata/n/n998ed3dc285b • カウンティングの正確性だけでなく、バルコニーを推測しているのもすごい
  5. Copyright © 2023 NOB DATA All Rights Reserved. 本⽇はMSさんのこちらの論⽂をベースにご紹介(10/11) •

    https://arxiv.org/abs/2309.17421 • 166ページに渡る⼤作 ここからDL可能
  6. Copyright © 2023 NOB DATA All Rights Reserved. この論⽂の⽬的と注意点 •

    定性的なポテンシャル調査がメイン (p9) 参考:https://arxiv.org/abs/2309.17421
  7. Copyright © 2023 NOB DATA All Rights Reserved. ⽬次抜粋(pp4-7をChatGPTでサマリ, 1/3)

    • ⾮常に多岐に渡る • 個⼈的にはポインティング系も⾯⽩いなと こちらの⽬次をトピックでまとめてサマ リし、ページレンジを表形式で出⼒して ください。 また⽇本語に翻訳し、セク ションの概要も付与してください。表形 式で。 ・⽬次(その1) List of Figures 1 Section 2.3: multi- image inputs and interleaved image- text pairs. . . . . . . . . . . 11 2 Section3.1:followingtextinstructions. ..... .................. 12 3 Section3.1:constrainedprompting. ......... ................ 13 ・・・ 参考:https://arxiv.org/abs/2309.17421
  8. Copyright © 2023 NOB DATA All Rights Reserved. ⽬次抜粋(pp4-7をChatGPTでサマリ, 2/3)

    • ⾮常に多岐に渡る • 個⼈的にはポインティング系も⾯⽩いなと こちらの⽬次をトピックでまとめてサマ リし、ページレンジを表形式で出⼒して ください。 また⽇本語に翻訳し、セク ションの概要も付与してください。表形 式で。 ・⽬次(その1) List of Figures 1 Section 2.3: multi- image inputs and interleaved image- text pairs. . . . . . . . . . . 11 2 Section3.1:followingtextinstructions. ..... .................. 12 3 Section3.1:constrainedprompting. ......... ................ 13 ・・・ 参考:https://arxiv.org/abs/2309.17421
  9. Copyright © 2023 NOB DATA All Rights Reserved. ⽬次抜粋(pp4-7をChatGPTでサマリ, 3/3)

    • ⾮常に多岐に渡る • 個⼈的にはポインティング系も⾯⽩いなと こちらの⽬次をトピックでまとめてサマ リし、ページレンジを表形式で出⼒して ください。 また⽇本語に翻訳し、セク ションの概要も付与してください。表形 式で。 ・⽬次(その1) List of Figures 1 Section 2.3: multi- image inputs and interleaved image- text pairs. . . . . . . . . . . 11 2 Section3.1:followingtextinstructions. ..... .................. 12 3 Section3.1:constrainedprompting. ......... ................ 13 ・・・ 参考:https://arxiv.org/abs/2309.17421
  10. Copyright © 2023 NOB DATA All Rights Reserved. p12, 図形の推測

    • ヒントを与えれば類推で解ける模様 (⾚のマーカーは間違えている部分) 参考:https://arxiv.org/abs/2309.17421
  11. Copyright © 2023 NOB DATA All Rights Reserved. p13, IDカードからの情報抽出

    • 8割くらいは上⼿く抽出できている雰囲気 参考:https://arxiv.org/abs/2309.17421
  12. Copyright © 2023 NOB DATA All Rights Reserved. p64, 表の読み取りは8-9割くらい

    • まだまだ精度は不⼗ 分なので、厳密な計 算を⾏いたい場合は CSVとかを⼊れたほ うが良さげ
  13. Copyright © 2023 NOB DATA All Rights Reserved. p14, カウンティングもある程度はできる

    • ただし、完璧ではない (なお、ステップバイステップはここでも有効) 参考:https://arxiv.org/abs/2309.17421
  14. Copyright © 2023 NOB DATA All Rights Reserved. p17, ポインティングの理解

    • ちょっと未来 感ある。 • あとAR系と組 み合わせると ⾯⽩そう 参考:https://arxiv.org/abs/2309.17421
  15. Copyright © 2023 NOB DATA All Rights Reserved. p22, アナログメーター読み取りは苦⼿そう

    • 2ショットの画像付 きプロンプティン グを⾏えば正解す るが・・⼤変そう (1枚⽬は省略)、以下2枚⽬から 参考:https://arxiv.org/abs/2309.17421
  16. Copyright © 2023 NOB DATA All Rights Reserved. p28, 有名⼈の認識は得意かも

    • 画像検索より効率 的かもしれない 参考:https://arxiv.org/abs/2309.17421
  17. Copyright © 2023 NOB DATA All Rights Reserved. p29, ランドマーク認識も同じく得意そう

    • Web上に学習デー タが多いから? 参考:https://arxiv.org/abs/2309.17421
  18. Copyright © 2023 NOB DATA All Rights Reserved. p31, 料理認識も⾏ける

    • カロリー計算とか はできないかし ら・・?? 参考:https://arxiv.org/abs/2309.17421
  19. Copyright © 2023 NOB DATA All Rights Reserved. pp32-33, 簡単な診断的なもの(1/4)

    • 親知らず、くらいはわかる • ただ医療画像系はプロの医療関係者から⾔わせると、まだまだらしい 参考:https://arxiv.org/abs/2309.17421
  20. Copyright © 2023 NOB DATA All Rights Reserved. pp32-33, 簡単な診断的なもの(2/4)

    ⾻折、くらいはわかる 参考:https://arxiv.org/abs/2309.17421
  21. Copyright © 2023 NOB DATA All Rights Reserved. pp32-33, 簡単な診断的なもの(3/4)

    • 肺のCTスキャン • ただ、⾔い回しはま だふわっとしている らしい 参考:https://arxiv.org/abs/2309.17421
  22. Copyright © 2023 NOB DATA All Rights Reserved. pp100, 簡単な診断的なもの(4/4)

    • これは素⼈⽬線では凄 そうな気もする・・ 参考:https://arxiv.org/abs/2309.17421
  23. Copyright © 2023 NOB DATA All Rights Reserved. p36, シーン理解はいい感じ

    • ⾃動運転とかにも使 える・・?? • 天下⼀品のロゴも誤 認識しない、という 話もある 参考:https://arxiv.org/abs/2309.17421
  24. Copyright © 2023 NOB DATA All Rights Reserved. p37, 無いものをちゃんと「無い」と⾔ってくれる

    • 画像内のオブジェクトのサーチ系タスクにも使えそう 参考:https://arxiv.org/abs/2309.17421
  25. Copyright © 2023 NOB DATA All Rights Reserved. p39, 位置の検出は6-7割くらい

    • 座標を出⼒させ る、などの使い⽅ 参考:https://arxiv.org/abs/2309.17421
  26. Copyright © 2023 NOB DATA All Rights Reserved. p42, 詳細情報の付与

    • AR関係と組み合わ せると便利そう 参考:https://arxiv.org/abs/2309.17421 イメージ
  27. Copyright © 2023 NOB DATA All Rights Reserved. p46, 関係性把握・教育など(1/2)

    • 家庭教師としては 良いかも 参考:https://arxiv.org/abs/2309.17421
  28. Copyright © 2023 NOB DATA All Rights Reserved. p46, 関係性把握・教育など(2/2)

    • 家庭教師としては 良いかも 参考:https://arxiv.org/abs/2309.17421
  29. Copyright © 2023 NOB DATA All Rights Reserved. p48, プロファイリング

    • 事件現場の考察と かもしてくれない か・・? 参考:https://arxiv.org/abs/2309.17421
  30. Copyright © 2023 NOB DATA All Rights Reserved. p50, ⽂字認識

    • この例では上⼿くいっている • 個⼈的には⽇本語は苦⼿な印象 参考:https://arxiv.org/abs/2309.17421
  31. Copyright © 2023 NOB DATA All Rights Reserved. p51, 数式理解

    • ⼿書きを認識してくれるのは嬉しい 参考:https://arxiv.org/abs/2309.17421
  32. Copyright © 2023 NOB DATA All Rights Reserved. p63, ⼿書きを綺麗に

    • LaTeX書いてくれる 参考:https://arxiv.org/abs/2309.17421
  33. Copyright © 2023 NOB DATA All Rights Reserved. p52, フローチャート理解

    • パシャっと撮れば解説してくれる未来も近い 参考:https://arxiv.org/abs/2309.17421
  34. Copyright © 2023 NOB DATA All Rights Reserved. p65, ビジョンコーディングはまだまだ

    • ステップバイステッ プ、とか試すとまた 変わるかもしれない が・・ 参考:https://arxiv.org/abs/2309.17421
  35. Copyright © 2023 NOB DATA All Rights Reserved. p71, 解説系は結構便利かもしれない

    • UIを⾒せて、使い⽅ を質問するなど 参考:https://arxiv.org/abs/2309.17421
  36. Copyright © 2023 NOB DATA All Rights Reserved. p75, 動画理解はすごい

    • バラバラの画像でも 順番を理解してい る。謎。 参考:https://arxiv.org/abs/2309.17421
  37. Copyright © 2023 NOB DATA All Rights Reserved. p78, シーン解析

    • スポーツの分析とか 中継にも使えるか も? 参考:https://arxiv.org/abs/2309.17421
  38. Copyright © 2023 NOB DATA All Rights Reserved. p81, アスキーアート理解

    • これは4VじゃないChatGPTでもある程度できた気がする 参考:https://arxiv.org/abs/2309.17421
  39. Copyright © 2023 NOB DATA All Rights Reserved. p86, 表情からの感情分析(1/2)

    • 結構良い気がする • そのうちオンラインMTGの感情分析もできるのでは? 参考:https://arxiv.org/abs/2309.17421
  40. Copyright © 2023 NOB DATA All Rights Reserved. p86, 表情からの感情分析(2/2)

    • 結構良い気がする • そのうちオンラインMTGの感情分析もできるのでは? 参考:https://arxiv.org/abs/2309.17421
  41. Copyright © 2023 NOB DATA All Rights Reserved. p87, シーンからの感情分析(2/2)

    • 結構良い気がする 参考:https://arxiv.org/abs/2309.17421
  42. Copyright © 2023 NOB DATA All Rights Reserved. p88, 美的センス(1/2)

    • 好みは分かれ そうだが、分 からなくもな い • レイアウト提 案や地価の分 析とかに使え る? 参考:https://arxiv.org/abs/2309.17421
  43. Copyright © 2023 NOB DATA All Rights Reserved. p88, 美的センス(2/2)

    • 好みは分かれ そうだが、分 からなくもな い • レイアウト提 案や地価の分 析とかに使え る? 参考:https://arxiv.org/abs/2309.17421
  44. Copyright © 2023 NOB DATA All Rights Reserved. p92, 間違い探しも⼀部できる

    • 3個中2個正解の例 • 昔、ウォーリーをさがせ、を Bingの画像解析機能で試した 際は全くダメだったので、今 度試してみたいと思います 参考:https://arxiv.org/abs/2309.17421
  45. Copyright © 2023 NOB DATA All Rights Reserved. p94, ⽋陥の検出

    • ほぼゼロショットでここまでいけるのはすごい • ただ、間違いがある、という前提の問いなので、正常の画像とセットにした 場合にどうなるかは要検証 参考:https://arxiv.org/abs/2309.17421
  46. Copyright © 2023 NOB DATA All Rights Reserved. p97, 安全検査

    • まとめての処理は⼀部間違う、1個1個分類す るといける 参考:https://arxiv.org/abs/2309.17421 分解して input
  47. Copyright © 2023 NOB DATA All Rights Reserved. p98, バスケットの中⾝の分析

    • 6割くらい? • 画像付きfew shotを すると正答率は上が る 参考:https://arxiv.org/abs/2309.17421
  48. Copyright © 2023 NOB DATA All Rights Reserved. p106, 保険レポート作成

    • プレースホルダーは 結構効いている • しかし、⼤破・・ 参考:https://arxiv.org/abs/2309.17421
  49. Copyright © 2023 NOB DATA All Rights Reserved. p108, 画像ラベル付けの上の解釈

    • これはすごい。 参考:https://arxiv.org/abs/2309.17421
  50. Copyright © 2023 NOB DATA All Rights Reserved. p112, 画像に対するテキストベースの類似度評価

    • 「こういう画像に近いもの」という評価も⼀定できそう 参考:https://arxiv.org/abs/2309.17421
  51. Copyright © 2023 NOB DATA All Rights Reserved. p114, 画像⽣成AIに対するプロンプト案

    • こちらはPix2Pixらしいですが、DALL-E 3などでも使えそう 参考:https://arxiv.org/abs/2309.17421 プロンプト 変更
  52. Copyright © 2023 NOB DATA All Rights Reserved. p119, リアルのエージェントとの組み合わせ

    • ロボティクス との繋ぎの可 能性。 (でもちょっと 怖い気も・・) 参考:https://arxiv.org/abs/2309.17421
  53. Copyright © 2023 NOB DATA All Rights Reserved. p123, Web

    IFの操作指⽰ (1/3) • RPAとかもう個別 に組まなくても良 くなるかも・・? ( 実⾏コストの問 題を別とすればで すが ) 参考:https://arxiv.org/abs/2309.17421
  54. Copyright © 2023 NOB DATA All Rights Reserved. p123, Web

    IFの操作指⽰ (2/3) 参考:https://arxiv.org/abs/2309.17421 • RPAとかもう個別 に組まなくても良 くなるかも・・? ( 実⾏コストの問 題を別とすればで すが )
  55. Copyright © 2023 NOB DATA All Rights Reserved. p123, Web

    IFの操作指⽰ (3/3) 参考:https://arxiv.org/abs/2309.17421 • RPAとかもう個別 に組まなくても良 くなるかも・・? ( 実⾏コストの問 題を別とすればで すが )
  56. Copyright © 2023 NOB DATA All Rights Reserved. 番外編その1:参考⽂献等 (pp157-166)

    • 160個くらい乗ってました、が⽇本勢はおそらく2個くらい・・? • 時間があれば関連の論⽂も眺めてみたいなと思いました 参考:https://arxiv.org/abs/2309.17421
  57. Copyright © 2023 NOB DATA All Rights Reserved. 番外編その2:11/6(アメリカ現地時間)のDevDeyに注⽬ •

    噂レベルでは、ChatGPT-4VisionのAPIが出るかもしれない、という話 • 本当かどうかは当⽇分かりますので、注⽬して待ちましょう https://twitter.com/masahirochaen/status/1712638572371841075 https://devday.openai.com/