Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20231021_MSさんの論文で学ぶChatGPT-4Vision(45min版)_v1...
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
NobuakiOshiro
PRO
October 21, 2023
Technology
650
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
20231021_MSさんの論文で学ぶChatGPT-4Vision(45min版)_v1.00.pdf
https://chatgptclub.connpass.com/event/298703/
NobuakiOshiro
PRO
October 21, 2023
More Decks by NobuakiOshiro
See All by NobuakiOshiro
20260604_福岡女子大_講義後小レポート分析スライド_NOBDATA
doradora09
PRO
0
20
20260601_中東情勢1週間差分update
doradora09
PRO
0
33
20260602_中東情勢と物流_3か月振り返り_10枚圧縮版_最新版
doradora09
PRO
0
40
伊藤さん_発表スライド_全業種x各国_20260602
doradora09
PRO
1
34
20260528_生成AIを専属DSに_Howの次にすべきことを考える
doradora09
PRO
0
290
20260527_準悲観シナリオ_v2_価格高騰見込み
doradora09
PRO
0
59
20260527_ホルムズ制約長期化シナリオ(準悲観シナリオ)
doradora09
PRO
0
60
20260527_先週差分_今後調査予定_サマリ
doradora09
PRO
0
52
20260519_NOBDATA_企業決算から読む中東情勢
doradora09
PRO
0
67
Other Decks in Technology
See All in Technology
Mastering Ruby Box
tagomoris
3
150
Oracle Cloud Infrastructure IaaS 新機能アップデート 2026/3 - 2026/5
oracle4engineer
PRO
1
190
AI駆動開発が変える、大規模開発の前提 ーHuman in the Loop から Human on the Loop へ / AIE2026
visional_engineering_and_design
7
4.8k
Sony_KMP_Journey_KotlinConf2026
sony
2
210
AI Adaptable なテストを整える工夫 / Ways to Make Your Tests AI-Adaptable
bitkey
PRO
3
210
Oracle AI Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
6
1.5k
2026.06.13_AI時代に事業会社が「SIer出身エンジニア」を求める理由 / Why Businesses Seek Engineers with a System Integrator Background in the AI Era
jumtech
0
500
Databricks における 生成AIガバナンスの実践
taka_aki
1
310
OCI Oracle AI Database Services新機能アップデート(2026/03-2026/05)
oracle4engineer
PRO
0
220
さきさん文庫の書籍ができるまで
sakiengineer
0
370
ChatworkとBPaaS 異なる特性で学んだAI機能開発の ベストプラクティス
kubell_hr
2
2.7k
「気づいたら仕事が終わっている」バクラクAIエージェント本番運用の裏側 / layerx-bakuraku-aie2026
yuya4
18
10k
Featured
See All Featured
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
200
The Language of Interfaces
destraynor
162
27k
Navigating the Design Leadership Dip - Product Design Week Design Leaders+ Conference 2024
apolaine
1
340
4 Signs Your Business is Dying
shpigford
187
22k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
[RailsConf 2023] Rails as a piece of cake
palkan
59
6.7k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.5k
brightonSEO & MeasureFest 2025 - Christian Goodrich - Winning strategies for Black Friday CRO & PPC
cargoodrich
3
720
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1.3k
Highjacked: Video Game Concept Design
rkendrick25
PRO
1
380
Why Mistakes Are the Best Teachers: Turning Failure into a Pathway for Growth
auna
0
150
Transcript
MSさんの論⽂で学ぶChatGPT-4Vision (45min版) 2023/10/21 NOB DATA株式会社 代表取締役 ⼤城 信晃
Copyright © 2023 NOB DATA All Rights Reserved. アンケート •
Q : ChatGPTを 使ったことがない ( 0 ) GPT-3.5を使ってる ( 1 ) GPT-4を使ってる ( 2 ) GPT-4Vを使ってる ( 3 )
Copyright © 2023 NOB DATA All Rights Reserved. ⾃⼰紹介 ⼤城信晃(twitter
@doradora09) NOB DATA株式会社 代表取締役社⻑ / データサイエンティスト協会九州⽀部 ⽀部⻑ ・住まい 沖縄 -> 東京 -> 福岡 ・職歴 ヤフー-> DATUM STUDIO -> LINE Fukuoka -> NOB DATA(株) 創業 ・運営コミュニティ ・Tokyo.R(2010-2016) ・fukuoka.R、PyData.Fukuoka、 オモシロAIごった煮勉強会、ChatGPT部、 他2つ ChatGPT部では部⻑をやってます NEW: 11/11発売
Copyright © 2023 NOB DATA All Rights Reserved. GPT-4Vとはなんぞや(1/2) •
OpenAI社が10/10頃に公開し た画像認識機能 • 10/21現在ではChatGPTプラ スユーザーに配布済み (2週間ほどかけて順次配布) コレ
Copyright © 2023 NOB DATA All Rights Reserved. GPT-4Vとはなんぞや(2/2) •
トマト画像で私が過去に実験した例はこちら • https://note.com/chatgpt_nobdata/n/n998ed3dc285b • カウンティングの正確性だけでなく、バルコニーを推測しているのもすごい
Copyright © 2023 NOB DATA All Rights Reserved. 本⽇はMSさんのこちらの論⽂をベースにご紹介(10/11) •
https://arxiv.org/abs/2309.17421 • 166ページに渡る⼤作 ここからDL可能
Copyright © 2023 NOB DATA All Rights Reserved. 機械翻訳して 本⽇は機械翻訳してますので⼀部変な⽇本語はどうぞご容赦ください
参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. この論⽂の⽬的と注意点 •
定性的なポテンシャル調査がメイン (p9) 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. ⽬次抜粋(pp4-7をChatGPTでサマリ, 1/3)
• ⾮常に多岐に渡る • 個⼈的にはポインティング系も⾯⽩いなと こちらの⽬次をトピックでまとめてサマ リし、ページレンジを表形式で出⼒して ください。 また⽇本語に翻訳し、セク ションの概要も付与してください。表形 式で。 ・⽬次(その1) List of Figures 1 Section 2.3: multi- image inputs and interleaved image- text pairs. . . . . . . . . . . 11 2 Section3.1:followingtextinstructions. ..... .................. 12 3 Section3.1:constrainedprompting. ......... ................ 13 ・・・ 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. ⽬次抜粋(pp4-7をChatGPTでサマリ, 2/3)
• ⾮常に多岐に渡る • 個⼈的にはポインティング系も⾯⽩いなと こちらの⽬次をトピックでまとめてサマ リし、ページレンジを表形式で出⼒して ください。 また⽇本語に翻訳し、セク ションの概要も付与してください。表形 式で。 ・⽬次(その1) List of Figures 1 Section 2.3: multi- image inputs and interleaved image- text pairs. . . . . . . . . . . 11 2 Section3.1:followingtextinstructions. ..... .................. 12 3 Section3.1:constrainedprompting. ......... ................ 13 ・・・ 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. ⽬次抜粋(pp4-7をChatGPTでサマリ, 3/3)
• ⾮常に多岐に渡る • 個⼈的にはポインティング系も⾯⽩いなと こちらの⽬次をトピックでまとめてサマ リし、ページレンジを表形式で出⼒して ください。 また⽇本語に翻訳し、セク ションの概要も付与してください。表形 式で。 ・⽬次(その1) List of Figures 1 Section 2.3: multi- image inputs and interleaved image- text pairs. . . . . . . . . . . 11 2 Section3.1:followingtextinstructions. ..... .................. 12 3 Section3.1:constrainedprompting. ......... ................ 13 ・・・ 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. 以下、⼤城が⾯⽩いと思ったものを論⽂からいくつか抜粋
Copyright © 2023 NOB DATA All Rights Reserved. p12, 図形の推測
• ヒントを与えれば類推で解ける模様 (⾚のマーカーは間違えている部分) 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p13, IDカードからの情報抽出
• 8割くらいは上⼿く抽出できている雰囲気 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p64, 表の読み取りは8-9割くらい
• まだまだ精度は不⼗ 分なので、厳密な計 算を⾏いたい場合は CSVとかを⼊れたほ うが良さげ
Copyright © 2023 NOB DATA All Rights Reserved. p14, カウンティングもある程度はできる
• ただし、完璧ではない (なお、ステップバイステップはここでも有効) 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p17, ポインティングの理解
• ちょっと未来 感ある。 • あとAR系と組 み合わせると ⾯⽩そう 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p22, アナログメーター読み取りは苦⼿そう
• 2ショットの画像付 きプロンプティン グを⾏えば正解す るが・・⼤変そう (1枚⽬は省略)、以下2枚⽬から 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p28, 有名⼈の認識は得意かも
• 画像検索より効率 的かもしれない 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p29, ランドマーク認識も同じく得意そう
• Web上に学習デー タが多いから? 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p31, 料理認識も⾏ける
• カロリー計算とか はできないかし ら・・?? 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. pp32-33, 簡単な診断的なもの(1/4)
• 親知らず、くらいはわかる • ただ医療画像系はプロの医療関係者から⾔わせると、まだまだらしい 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. pp32-33, 簡単な診断的なもの(2/4)
⾻折、くらいはわかる 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. pp32-33, 簡単な診断的なもの(3/4)
• 肺のCTスキャン • ただ、⾔い回しはま だふわっとしている らしい 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. pp100, 簡単な診断的なもの(4/4)
• これは素⼈⽬線では凄 そうな気もする・・ 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p36, シーン理解はいい感じ
• ⾃動運転とかにも使 える・・?? • 天下⼀品のロゴも誤 認識しない、という 話もある 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p37, 無いものをちゃんと「無い」と⾔ってくれる
• 画像内のオブジェクトのサーチ系タスクにも使えそう 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p39, 位置の検出は6-7割くらい
• 座標を出⼒させ る、などの使い⽅ 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p42, 詳細情報の付与
• AR関係と組み合わ せると便利そう 参考:https://arxiv.org/abs/2309.17421 イメージ
Copyright © 2023 NOB DATA All Rights Reserved. p46, 関係性把握・教育など(1/2)
• 家庭教師としては 良いかも 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p46, 関係性把握・教育など(2/2)
• 家庭教師としては 良いかも 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p48, プロファイリング
• 事件現場の考察と かもしてくれない か・・? 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p50, ⽂字認識
• この例では上⼿くいっている • 個⼈的には⽇本語は苦⼿な印象 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p51, 数式理解
• ⼿書きを認識してくれるのは嬉しい 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p63, ⼿書きを綺麗に
• LaTeX書いてくれる 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p52, フローチャート理解
• パシャっと撮れば解説してくれる未来も近い 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p54, グラフから簡単な計算も可能
• 便利 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p65, ビジョンコーディングはまだまだ
• ステップバイステッ プ、とか試すとまた 変わるかもしれない が・・ 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p71, 解説系は結構便利かもしれない
• UIを⾒せて、使い⽅ を質問するなど 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p75, 動画理解はすごい
• バラバラの画像でも 順番を理解してい る。謎。 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p78, シーン解析
• スポーツの分析とか 中継にも使えるか も? 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p81, アスキーアート理解
• これは4VじゃないChatGPTでもある程度できた気がする 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p86, 表情からの感情分析(1/2)
• 結構良い気がする • そのうちオンラインMTGの感情分析もできるのでは? 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p86, 表情からの感情分析(2/2)
• 結構良い気がする • そのうちオンラインMTGの感情分析もできるのでは? 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p87, シーンからの感情分析(2/2)
• 結構良い気がする 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p88, 美的センス(1/2)
• 好みは分かれ そうだが、分 からなくもな い • レイアウト提 案や地価の分 析とかに使え る? 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p88, 美的センス(2/2)
• 好みは分かれ そうだが、分 からなくもな い • レイアウト提 案や地価の分 析とかに使え る? 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p92, 間違い探しも⼀部できる
• 3個中2個正解の例 • 昔、ウォーリーをさがせ、を Bingの画像解析機能で試した 際は全くダメだったので、今 度試してみたいと思います 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p94, ⽋陥の検出
• ほぼゼロショットでここまでいけるのはすごい • ただ、間違いがある、という前提の問いなので、正常の画像とセットにした 場合にどうなるかは要検証 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p97, 安全検査
• まとめての処理は⼀部間違う、1個1個分類す るといける 参考:https://arxiv.org/abs/2309.17421 分解して input
Copyright © 2023 NOB DATA All Rights Reserved. p98, バスケットの中⾝の分析
• 6割くらい? • 画像付きfew shotを すると正答率は上が る 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p106, 保険レポート作成
• プレースホルダーは 結構効いている • しかし、⼤破・・ 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p108, 画像ラベル付けの上の解釈
• これはすごい。 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p112, 画像に対するテキストベースの類似度評価
• 「こういう画像に近いもの」という評価も⼀定できそう 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p114, 画像⽣成AIに対するプロンプト案
• こちらはPix2Pixらしいですが、DALL-E 3などでも使えそう 参考:https://arxiv.org/abs/2309.17421 プロンプト 変更
Copyright © 2023 NOB DATA All Rights Reserved. p119, リアルのエージェントとの組み合わせ
• ロボティクス との繋ぎの可 能性。 (でもちょっと 怖い気も・・) 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p123, Web
IFの操作指⽰ (1/3) • RPAとかもう個別 に組まなくても良 くなるかも・・? ( 実⾏コストの問 題を別とすればで すが ) 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. p123, Web
IFの操作指⽰ (2/3) 参考:https://arxiv.org/abs/2309.17421 • RPAとかもう個別 に組まなくても良 くなるかも・・? ( 実⾏コストの問 題を別とすればで すが )
Copyright © 2023 NOB DATA All Rights Reserved. p123, Web
IFの操作指⽰ (3/3) 参考:https://arxiv.org/abs/2309.17421 • RPAとかもう個別 に組まなくても良 くなるかも・・? ( 実⾏コストの問 題を別とすればで すが )
Copyright © 2023 NOB DATA All Rights Reserved. 番外編その1:参考⽂献等 (pp157-166)
• 160個くらい乗ってました、が⽇本勢はおそらく2個くらい・・? • 時間があれば関連の論⽂も眺めてみたいなと思いました 参考:https://arxiv.org/abs/2309.17421
Copyright © 2023 NOB DATA All Rights Reserved. 番外編その2:11/6(アメリカ現地時間)のDevDeyに注⽬ •
噂レベルでは、ChatGPT-4VisionのAPIが出るかもしれない、という話 • 本当かどうかは当⽇分かりますので、注⽬して待ちましょう https://twitter.com/masahirochaen/status/1712638572371841075 https://devday.openai.com/
Copyright © 2023 NOB DATA All Rights Reserved. ご清聴、ありがとうございました・・! 何か個別のご相談やご質問がございましたら
[email protected]
(NOB DATA問い合わせ窓⼝) までお気軽にどうぞ。