Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20231021_LT_画像解析AI3種比較(10min版)

 20231021_LT_画像解析AI3種比較(10min版)

NobuakiOshiro

October 21, 2023
Tweet

More Decks by NobuakiOshiro

Other Decks in Technology

Transcript

  1. 画像解析AI 3種⽐較 〜 Google Bard, MS Bing Chat, OpenAI GPT-4V

    〜 (10min版) 2023/10/21 NOB DATA株式会社 代表取締役 ⼤城 信晃
  2. Copyright © 2023 NOB DATA All Rights Reserved. ⾃⼰紹介 ⼤城信晃(twitter

    @doradora09) NOB DATA株式会社 代表取締役社⻑ / データサイエンティスト協会九州⽀部 ⽀部⻑ ・住まい 沖縄 -> 東京 -> 福岡 ・職歴 ヤフー-> DATUM STUDIO -> LINE Fukuoka -> NOB DATA(株) 創業 ・運営コミュニティ ・Tokyo.R(2010-2016) ・fukuoka.R、PyData.Fukuoka、 オモシロAIごった煮勉強会、ChatGPT部、 他2つ ChatGPT部では部⻑をやってます NEW: 11/11発売
  3. Copyright © 2023 NOB DATA All Rights Reserved. 本⽇のお品書き •

    GPT-4Vと他の画像解析AIの性能⽐較 • 過去に調査した内容をベースに本⽇はお届け https://note.com/chatgpt_nobdat a/n/na9bbf6ab693e https://note.com/chatgpt_nobda ta/n/n82b871e0d706 https://note.com/chatgpt_no bdata/n/n998ed3dc285b
  4. Copyright © 2023 NOB DATA All Rights Reserved. 今回の性能検証に使った画像 検証⽤画像

    • ⼤城写真 • ⽣成AIで作った渋滞画像 • アスキーアートのクリス マスツリー • 某ハンバーガーショップ のメニュー画像 • トマト画像 これらを3つのAIに⼊れた 場合の反応を⽐較します ( 検証⽇付時点の結果 )
  5. Copyright © 2023 NOB DATA All Rights Reserved. ① ⼤城画像

    (点数は主観) (1/3) ⼈物画像は解析NG、0点 (というか判定できず) 70点くらい (ビールガーデンではなく ワインのイベント) 80点くらい。状況は理解し ているが、⽇本語認識は弱 い印象(Google Vision API の⽅が読めてた)
  6. Copyright © 2023 NOB DATA All Rights Reserved. ① ⼤城画像

    (点数は主観) (2/3) ・今回の⽐較には載せていないものの、GoogleのVision APIだとOCR精度は⾼い印象 (Bardとはまた別の画像解析機能) https://note.com/chatgpt_nobdata/n/ne54 2f2011f87
  7. Copyright © 2023 NOB DATA All Rights Reserved. ① ⼤城画像

    (点数は主観) (3/3) ・ChatGPT-4Vと⾔えども、ハルシネーションは発⽣し得るので注意 (写真の場所は福岡なのに、軽井沢とか急に⾔い出すことも・・)
  8. Copyright © 2023 NOB DATA All Rights Reserved. ② ハンバーガー画像

    (点数は主観) たまに⾦額は間違うものの、 ⼤体合ってる。70点 商品名も価格も 全然正しくない。15点 品⽬、⾦額完璧。さらに MacCafeでは、という推測 まで。120点
  9. Copyright © 2023 NOB DATA All Rights Reserved. ③ アスキーアート画像

    (点数は主観) (1/2) クリスマスツリーっぽい回 答。カウントは苦⼿なので 60点 うーん、アスキーアートと して認識できていない。カ ウントもダメ。 30点 ヒントを提⽰すれば理解で きる。カウントも間違えて いるがBardよりは正確。 70点
  10. Copyright © 2023 NOB DATA All Rights Reserved. クリスマスツリーっぽい回 答。カウントは苦⼿なので

    80点 うーん、アスキーアートと して認識できていない。カ ウントもダメ。 30点 ヒントを提⽰すれば理解で きる。カウントも間違えて いるがBardよりは正確。 80点 ③ アスキーアート画像 (点数は主観) (2/2)
  11. Copyright © 2023 NOB DATA All Rights Reserved. 渋滞は理解。歩いている⼈ はいないので嘘。カウント

    は出来ていないので60点 ( 概算の指⽰をしても良 かったかも? ) 情景描写としては結構いい。 カウントは種類が嘘だが台 数は近い。80点 100点 ④ ⾃動⾞渋滞画像 (点数は主観) (1/2)
  12. Copyright © 2023 NOB DATA All Rights Reserved. 情景描写としては結構いい。 カウントは種類が嘘だが台

    数は近い。80点 100点 ④ ⾃動⾞渋滞画像 (点数は主観) (2/2) 渋滞は理解。歩いている⼈ はいないので嘘。カウント は出来ていないので60点 ( 概算の指⽰をしても良 かったかも? )
  13. Copyright © 2023 NOB DATA All Rights Reserved. 情景描写としては結構いい。 カウント12個は間違い。

    70点 トマトの描画、カウント完 璧。さらに後ろの壁からバ ルコニーを推察。 120点 ⑤ トマト画像 (点数は主観) トマトは認識しているのの、 個数10個は間違い、あと⻩ ⾊や緑のトマトはない。 40点
  14. Copyright © 2023 NOB DATA All Rights Reserved. 主観の点数評価 ここまでをChatGPT-4で採点

    (記事だと思いの外Bing Chatを 過⼤評価してたかも・・?? カウント系が難易度⾼い ) いずれにせよ、GPT-4Vは頭2つくらい ⾶び抜けてる印象でした