Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20231021_MSさんの論文で学ぶChatGPT-4Vision(45min版)_v1.00.pdf

 20231021_MSさんの論文で学ぶChatGPT-4Vision(45min版)_v1.00.pdf

NobuakiOshiro

October 21, 2023
Tweet

More Decks by NobuakiOshiro

Other Decks in Technology

Transcript

  1. MSさんの論⽂で学ぶChatGPT-4Vision
    (45min版)
    2023/10/21
    NOB DATA株式会社
    代表取締役 ⼤城 信晃

    View full-size slide

  2. Copyright © 2023 NOB DATA All Rights Reserved.
    アンケート
    • Q : ChatGPTを
    使ったことがない
    ( 0 )
    GPT-3.5を使ってる
    ( 1 )
    GPT-4を使ってる
    ( 2 )
    GPT-4Vを使ってる
    ( 3 )

    View full-size slide

  3. Copyright © 2023 NOB DATA All Rights Reserved.
    ⾃⼰紹介
    ⼤城信晃(twitter @doradora09)
    NOB DATA株式会社 代表取締役社⻑ /
    データサイエンティスト協会九州⽀部 ⽀部⻑
    ・住まい
    沖縄 -> 東京 -> 福岡
    ・職歴
    ヤフー-> DATUM STUDIO ->
    LINE Fukuoka -> NOB DATA(株) 創業
    ・運営コミュニティ
    ・Tokyo.R(2010-2016)
    ・fukuoka.R、PyData.Fukuoka、
    オモシロAIごった煮勉強会、ChatGPT部、
    他2つ
    ChatGPT部では部⻑をやってます
    NEW:
    11/11発売

    View full-size slide

  4. Copyright © 2023 NOB DATA All Rights Reserved.
    GPT-4Vとはなんぞや(1/2)
    • OpenAI社が10/10頃に公開し
    た画像認識機能
    • 10/21現在ではChatGPTプラ
    スユーザーに配布済み
    (2週間ほどかけて順次配布)
    コレ

    View full-size slide

  5. Copyright © 2023 NOB DATA All Rights Reserved.
    GPT-4Vとはなんぞや(2/2)
    • トマト画像で私が過去に実験した例はこちら
    • https://note.com/chatgpt_nobdata/n/n998ed3dc285b
    • カウンティングの正確性だけでなく、バルコニーを推測しているのもすごい

    View full-size slide

  6. Copyright © 2023 NOB DATA All Rights Reserved.
    本⽇はMSさんのこちらの論⽂をベースにご紹介(10/11)
    • https://arxiv.org/abs/2309.17421
    • 166ページに渡る⼤作
    ここからDL可能

    View full-size slide

  7. Copyright © 2023 NOB DATA All Rights Reserved.
    機械翻訳して
    本⽇は機械翻訳してますので⼀部変な⽇本語はどうぞご容赦ください
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  8. Copyright © 2023 NOB DATA All Rights Reserved.
    この論⽂の⽬的と注意点
    • 定性的なポテンシャル調査がメイン (p9)
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  9. Copyright © 2023 NOB DATA All Rights Reserved.
    ⽬次抜粋(pp4-7をChatGPTでサマリ, 1/3)
    • ⾮常に多岐に渡る
    • 個⼈的にはポインティング系も⾯⽩いなと
    こちらの⽬次をトピックでまとめてサマ
    リし、ページレンジを表形式で出⼒して
    ください。 また⽇本語に翻訳し、セク
    ションの概要も付与してください。表形
    式で。
    ・⽬次(その1)
    List of Figures 1 Section 2.3: multi-
    image inputs and interleaved image-
    text pairs. . . . . . . . . . . 11 2
    Section3.1:followingtextinstructions. .....
    .................. 12 3
    Section3.1:constrainedprompting. .........
    ................ 13
    ・・・
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  10. Copyright © 2023 NOB DATA All Rights Reserved.
    ⽬次抜粋(pp4-7をChatGPTでサマリ, 2/3)
    • ⾮常に多岐に渡る
    • 個⼈的にはポインティング系も⾯⽩いなと
    こちらの⽬次をトピックでまとめてサマ
    リし、ページレンジを表形式で出⼒して
    ください。 また⽇本語に翻訳し、セク
    ションの概要も付与してください。表形
    式で。
    ・⽬次(その1)
    List of Figures 1 Section 2.3: multi-
    image inputs and interleaved image-
    text pairs. . . . . . . . . . . 11 2
    Section3.1:followingtextinstructions. .....
    .................. 12 3
    Section3.1:constrainedprompting. .........
    ................ 13
    ・・・
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  11. Copyright © 2023 NOB DATA All Rights Reserved.
    ⽬次抜粋(pp4-7をChatGPTでサマリ, 3/3)
    • ⾮常に多岐に渡る
    • 個⼈的にはポインティング系も⾯⽩いなと
    こちらの⽬次をトピックでまとめてサマ
    リし、ページレンジを表形式で出⼒して
    ください。 また⽇本語に翻訳し、セク
    ションの概要も付与してください。表形
    式で。
    ・⽬次(その1)
    List of Figures 1 Section 2.3: multi-
    image inputs and interleaved image-
    text pairs. . . . . . . . . . . 11 2
    Section3.1:followingtextinstructions. .....
    .................. 12 3
    Section3.1:constrainedprompting. .........
    ................ 13
    ・・・
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  12. Copyright © 2023 NOB DATA All Rights Reserved.
    以下、⼤城が⾯⽩いと思ったものを論⽂からいくつか抜粋

    View full-size slide

  13. Copyright © 2023 NOB DATA All Rights Reserved.
    p12, 図形の推測
    • ヒントを与えれば類推で解ける模様 (⾚のマーカーは間違えている部分)
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  14. Copyright © 2023 NOB DATA All Rights Reserved.
    p13, IDカードからの情報抽出
    • 8割くらいは上⼿く抽出できている雰囲気
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  15. Copyright © 2023 NOB DATA All Rights Reserved.
    p64, 表の読み取りは8-9割くらい
    • まだまだ精度は不⼗
    分なので、厳密な計
    算を⾏いたい場合は
    CSVとかを⼊れたほ
    うが良さげ

    View full-size slide

  16. Copyright © 2023 NOB DATA All Rights Reserved.
    p14, カウンティングもある程度はできる
    • ただし、完璧ではない (なお、ステップバイステップはここでも有効)
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  17. Copyright © 2023 NOB DATA All Rights Reserved.
    p17, ポインティングの理解
    • ちょっと未来
    感ある。
    • あとAR系と組
    み合わせると
    ⾯⽩そう
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  18. Copyright © 2023 NOB DATA All Rights Reserved.
    p22, アナログメーター読み取りは苦⼿そう
    • 2ショットの画像付
    きプロンプティン
    グを⾏えば正解す
    るが・・⼤変そう
    (1枚⽬は省略)、以下2枚⽬から
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  19. Copyright © 2023 NOB DATA All Rights Reserved.
    p28, 有名⼈の認識は得意かも
    • 画像検索より効率
    的かもしれない
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  20. Copyright © 2023 NOB DATA All Rights Reserved.
    p29, ランドマーク認識も同じく得意そう
    • Web上に学習デー
    タが多いから?
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  21. Copyright © 2023 NOB DATA All Rights Reserved.
    p31, 料理認識も⾏ける
    • カロリー計算とか
    はできないかし
    ら・・??
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  22. Copyright © 2023 NOB DATA All Rights Reserved.
    pp32-33, 簡単な診断的なもの(1/4)
    • 親知らず、くらいはわかる
    • ただ医療画像系はプロの医療関係者から⾔わせると、まだまだらしい
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  23. Copyright © 2023 NOB DATA All Rights Reserved.
    pp32-33, 簡単な診断的なもの(2/4)
    ⾻折、くらいはわかる
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  24. Copyright © 2023 NOB DATA All Rights Reserved.
    pp32-33, 簡単な診断的なもの(3/4)
    • 肺のCTスキャン
    • ただ、⾔い回しはま
    だふわっとしている
    らしい
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  25. Copyright © 2023 NOB DATA All Rights Reserved.
    pp100, 簡単な診断的なもの(4/4)
    • これは素⼈⽬線では凄
    そうな気もする・・
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  26. Copyright © 2023 NOB DATA All Rights Reserved.
    p36, シーン理解はいい感じ
    • ⾃動運転とかにも使
    える・・??
    • 天下⼀品のロゴも誤
    認識しない、という
    話もある
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  27. Copyright © 2023 NOB DATA All Rights Reserved.
    p37, 無いものをちゃんと「無い」と⾔ってくれる
    • 画像内のオブジェクトのサーチ系タスクにも使えそう
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  28. Copyright © 2023 NOB DATA All Rights Reserved.
    p39, 位置の検出は6-7割くらい
    • 座標を出⼒させ
    る、などの使い⽅
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  29. Copyright © 2023 NOB DATA All Rights Reserved.
    p42, 詳細情報の付与
    • AR関係と組み合わ
    せると便利そう
    参考:https://arxiv.org/abs/2309.17421
    イメージ

    View full-size slide

  30. Copyright © 2023 NOB DATA All Rights Reserved.
    p46, 関係性把握・教育など(1/2)
    • 家庭教師としては
    良いかも
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  31. Copyright © 2023 NOB DATA All Rights Reserved.
    p46, 関係性把握・教育など(2/2)
    • 家庭教師としては
    良いかも
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  32. Copyright © 2023 NOB DATA All Rights Reserved.
    p48, プロファイリング
    • 事件現場の考察と
    かもしてくれない
    か・・?
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  33. Copyright © 2023 NOB DATA All Rights Reserved.
    p50, ⽂字認識
    • この例では上⼿くいっている
    • 個⼈的には⽇本語は苦⼿な印象
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  34. Copyright © 2023 NOB DATA All Rights Reserved.
    p51, 数式理解
    • ⼿書きを認識してくれるのは嬉しい
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  35. Copyright © 2023 NOB DATA All Rights Reserved.
    p63, ⼿書きを綺麗に
    • LaTeX書いてくれる
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  36. Copyright © 2023 NOB DATA All Rights Reserved.
    p52, フローチャート理解
    • パシャっと撮れば解説してくれる未来も近い
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  37. Copyright © 2023 NOB DATA All Rights Reserved.
    p54, グラフから簡単な計算も可能
    • 便利
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  38. Copyright © 2023 NOB DATA All Rights Reserved.
    p65, ビジョンコーディングはまだまだ
    • ステップバイステッ
    プ、とか試すとまた
    変わるかもしれない
    が・・
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  39. Copyright © 2023 NOB DATA All Rights Reserved.
    p71, 解説系は結構便利かもしれない
    • UIを⾒せて、使い⽅
    を質問するなど
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  40. Copyright © 2023 NOB DATA All Rights Reserved.
    p75, 動画理解はすごい
    • バラバラの画像でも
    順番を理解してい
    る。謎。
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  41. Copyright © 2023 NOB DATA All Rights Reserved.
    p78, シーン解析
    • スポーツの分析とか
    中継にも使えるか
    も?
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  42. Copyright © 2023 NOB DATA All Rights Reserved.
    p81, アスキーアート理解
    • これは4VじゃないChatGPTでもある程度できた気がする
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  43. Copyright © 2023 NOB DATA All Rights Reserved.
    p86, 表情からの感情分析(1/2)
    • 結構良い気がする
    • そのうちオンラインMTGの感情分析もできるのでは?
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  44. Copyright © 2023 NOB DATA All Rights Reserved.
    p86, 表情からの感情分析(2/2)
    • 結構良い気がする
    • そのうちオンラインMTGの感情分析もできるのでは?
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  45. Copyright © 2023 NOB DATA All Rights Reserved.
    p87, シーンからの感情分析(2/2)
    • 結構良い気がする
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  46. Copyright © 2023 NOB DATA All Rights Reserved.
    p88, 美的センス(1/2)
    • 好みは分かれ
    そうだが、分
    からなくもな

    • レイアウト提
    案や地価の分
    析とかに使え
    る?
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  47. Copyright © 2023 NOB DATA All Rights Reserved.
    p88, 美的センス(2/2)
    • 好みは分かれ
    そうだが、分
    からなくもな

    • レイアウト提
    案や地価の分
    析とかに使え
    る?
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  48. Copyright © 2023 NOB DATA All Rights Reserved.
    p92, 間違い探しも⼀部できる
    • 3個中2個正解の例
    • 昔、ウォーリーをさがせ、を
    Bingの画像解析機能で試した
    際は全くダメだったので、今
    度試してみたいと思います
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  49. Copyright © 2023 NOB DATA All Rights Reserved.
    p94, ⽋陥の検出
    • ほぼゼロショットでここまでいけるのはすごい
    • ただ、間違いがある、という前提の問いなので、正常の画像とセットにした
    場合にどうなるかは要検証
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  50. Copyright © 2023 NOB DATA All Rights Reserved.
    p97, 安全検査
    • まとめての処理は⼀部間違う、1個1個分類す
    るといける
    参考:https://arxiv.org/abs/2309.17421
    分解して
    input

    View full-size slide

  51. Copyright © 2023 NOB DATA All Rights Reserved.
    p98, バスケットの中⾝の分析
    • 6割くらい?
    • 画像付きfew shotを
    すると正答率は上が

    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  52. Copyright © 2023 NOB DATA All Rights Reserved.
    p106, 保険レポート作成
    • プレースホルダーは
    結構効いている
    • しかし、⼤破・・
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  53. Copyright © 2023 NOB DATA All Rights Reserved.
    p108, 画像ラベル付けの上の解釈
    • これはすごい。
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  54. Copyright © 2023 NOB DATA All Rights Reserved.
    p112, 画像に対するテキストベースの類似度評価
    • 「こういう画像に近いもの」という評価も⼀定できそう
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  55. Copyright © 2023 NOB DATA All Rights Reserved.
    p114, 画像⽣成AIに対するプロンプト案
    • こちらはPix2Pixらしいですが、DALL-E 3などでも使えそう
    参考:https://arxiv.org/abs/2309.17421
    プロンプト
    変更

    View full-size slide

  56. Copyright © 2023 NOB DATA All Rights Reserved.
    p119, リアルのエージェントとの組み合わせ
    • ロボティクス
    との繋ぎの可
    能性。
    (でもちょっと
    怖い気も・・)
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  57. Copyright © 2023 NOB DATA All Rights Reserved.
    p123, Web IFの操作指⽰ (1/3)
    • RPAとかもう個別
    に組まなくても良
    くなるかも・・?
    ( 実⾏コストの問
    題を別とすればで
    すが )
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  58. Copyright © 2023 NOB DATA All Rights Reserved.
    p123, Web IFの操作指⽰ (2/3)
    参考:https://arxiv.org/abs/2309.17421
    • RPAとかもう個別
    に組まなくても良
    くなるかも・・?
    ( 実⾏コストの問
    題を別とすればで
    すが )

    View full-size slide

  59. Copyright © 2023 NOB DATA All Rights Reserved.
    p123, Web IFの操作指⽰ (3/3)
    参考:https://arxiv.org/abs/2309.17421
    • RPAとかもう個別
    に組まなくても良
    くなるかも・・?
    ( 実⾏コストの問
    題を別とすればで
    すが )

    View full-size slide

  60. Copyright © 2023 NOB DATA All Rights Reserved.
    番外編その1:参考⽂献等 (pp157-166)
    • 160個くらい乗ってました、が⽇本勢はおそらく2個くらい・・?
    • 時間があれば関連の論⽂も眺めてみたいなと思いました
    参考:https://arxiv.org/abs/2309.17421

    View full-size slide

  61. Copyright © 2023 NOB DATA All Rights Reserved.
    番外編その2:11/6(アメリカ現地時間)のDevDeyに注⽬
    • 噂レベルでは、ChatGPT-4VisionのAPIが出るかもしれない、という話
    • 本当かどうかは当⽇分かりますので、注⽬して待ちましょう
    https://twitter.com/masahirochaen/status/1712638572371841075
    https://devday.openai.com/

    View full-size slide

  62. Copyright © 2023 NOB DATA All Rights Reserved.
    ご清聴、ありがとうございました・・!
    何か個別のご相談やご質問がございましたら
    [email protected] (NOB DATA問い合わせ窓⼝)
    までお気軽にどうぞ。

    View full-size slide