Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20240526_ChatGPT部第44回_ChatGPT-4o(オムニ)について

 20240526_ChatGPT部第44回_ChatGPT-4o(オムニ)について

NobuakiOshiro

May 25, 2024
Tweet

More Decks by NobuakiOshiro

Other Decks in Technology

Transcript

  1. Copyright © 2024 NOB DATA All Rights Reserved. ⾃⼰紹介 ⼤城信晃(twitter

    @doradora09) NOB DATA株式会社 代表取締役社⻑ / データサイエンティスト協会九州⽀部 ⽀部⻑ / iU 情報経営イノベーション専⾨職⼤学 客員教員 ・住まい 沖縄 -> 東京 -> 福岡 ・職歴 ヤフー-> DATUM STUDIO -> LINE Fukuoka -> NOB DATA(株) 創業 ・運営コミュニティ ・Tokyo.R(2010-2016) ・fukuoka.R、PyData.Fukuoka、 オモシロAIごった煮勉強会、ChatGPT部、 他2つ 本業ではデータ分析チームの ⽴ち上げ・育成・⾃⾛⽀援を展開中
  2. Copyright © 2024 NOB DATA All Rights Reserved. 本⽇のタイムライン ・オープニングトーク

    10min ・ChatGPT-4o(オムニ)についての情報共有 & ディスカッション 40-50min ・LT 20min (1-2本) ・クロージング 最⻑でも11:30には完全完了したいと思います
  3. Copyright © 2024 NOB DATA All Rights Reserved. 2週間前の部活にて:NEWS関連 •

    ⽇本時間5/14(⽕) AM 2:00にOpenAIから⼤き めな発表がある⾒込み (アメリカの現地だと 5/13(⽉) AM 10:00) • GPT-5では無い模様 https://twitter.com/sama/status/1788989777452408943 GPT-4o(オムニ)が発表されたので そちらを動画も⾒つつ。
  4. Copyright © 2024 NOB DATA All Rights Reserved. ChatGPT-4o(オムニ)のupdateサマリ •

    ⼀⾔で⾔うと「より⼈間と対話しているかのようなUX」に関するアップデート -> 動画を⾒るのが⼀番⼿っ取り早いですが、以下いくつかキーワードレベルで 回答のスピードが GPT-4よりめっちゃUP (体感4-5倍) 「⾳声」そのままで ⾔語・話者を理解 (これまではテキストに 変換してた) 動画のリアルタイム認識 ( これまでは画像1枚単位 だった ) ⾳声合成の幅がUP (ここはまぁ他の⽣成AIでもでき てたかも・・? ) Mac連携、Win連携 (デスクトップ常駐) GPT-4oの無料公開 (10回/5h、あとそのうちGPTs も使えるようになる) 分析とかも⼀部マイナーupdateされてますが本⽇は割愛 (LTパートでこーたろーさんが話してくれるはず・・)
  5. Copyright © 2024 NOB DATA All Rights Reserved. 発表動画 &

    関連動画からいくつかピックアップ
  6. Copyright © 2024 NOB DATA All Rights Reserved. 速報的にはこちらのまとめ •

    この内容をもう少し詳しくみ ていきます https://note.com/chatgpt_nobdata/n/n1594446ffd30
  7. Copyright © 2024 NOB DATA All Rights Reserved. 動画視聴の前に:現在のChatGPT-4のアプリ •

    GPT-4o(オムニ)では「より ⾃然な⾳声対話」を実現して います • ⽐較対象として、従来の GPT-4の⾳声対話にはタイム ラグがあるのを感じていただ ければと(2-3秒くらい)。 • なお、2024/5/26現在、まだ オムニの対話機能は⼀般公開 されていません ( 動画でのデモや⾃⺠党会合 でのデモくらい ) ココ ⾳声対話モード 通常モード
  8. Copyright © 2024 NOB DATA All Rights Reserved. まずはOpenAI社のGPT-4o(オムニ)発表動画から •

    リンクはこちら • https://www.youtube.com/ watch?v=DQacCB9tDaw • 動画⾒つつ、抜粋してご説明 • Youtubeで⽇本語への⾃動翻 訳をONにすると便利です ⽇本語 を選択
  9. Copyright © 2024 NOB DATA All Rights Reserved. ① 対話機能のデモ

    (動画の9:43-10:56あたり) • 通常の対話 • 呼吸⾳の認識
  10. Copyright © 2024 NOB DATA All Rights Reserved. ② カットイン&声⾊の変化デモ

    (動画の12:04-13:10あたり) • 物語の作成 • カットイン • 声⾊の変化 • 感情の起伏 • ロボットのように
  11. Copyright © 2024 NOB DATA All Rights Reserved. ④ 前に戻って、デスクトップのリアルタイム認識(20:30あたり)

    • デスクトップの模様をライ ブで認識 • コードレビューやデータ分 析の⽀援
  12. Copyright © 2024 NOB DATA All Rights Reserved. その他のデモ動画 •

    ライブでの発表以外にも、 OpenAI社の公式Webサイ トやyoutubeにて各種デモ の模様が紹介されています • Webサイト • https://openai.com/i ndex/hello-gpt-4o/ • Youtube • https://www.youtub e.com/@OpenAI • イチオシしは未来の教育⽅ 法を彷彿とさせるこちら (3分くらいの動画です) https://www.youtube.com/watch?v=_nSmkyDNulk
  13. Copyright © 2024 NOB DATA All Rights Reserved. スピードの検証 •

    チャエンさんのこちらの速度⽐較動画がわかりやすいです https://twitter.com/masahirochaen/status/1790078529 683730906
  14. Copyright © 2024 NOB DATA All Rights Reserved. ⼀応、OCR精度も上がってそうな雰囲気 •

    英語なら⼤量のデータ を認識させる例も。⽇ 本語の認識精度も上 がってる気がします (が、完璧では無いで すね)
  15. Copyright © 2024 NOB DATA All Rights Reserved. ⼀応、OCR精度も上がってそうな雰囲気 •

    英語だとこれを全て認識さ せてたりするので結構凄そ うです (ただし、ハルシネーショ ンが起きてる可能性はある ので要検証) • ⽯川さんのデモ • https://twitter.com/yti skw/status/179010075 1823548588
  16. Copyright © 2024 NOB DATA All Rights Reserved. その他、PC連携 •

    先ほどのデモではiPadで動か す例がありましたが、Mac上 で動作するクライアントアプ リも提供され始めています • またOpenAIの発表の翌週あた りに実施されたMSさんのイ ベントではAzureへの搭載や Copilot+ PCの発表もあり、 今後は「PC上でChatGPT系 エージェントが常駐して質問 に答える」というスタイルに 広がってきそうだなと感じて います(個⼈的には)
  17. Copyright © 2024 NOB DATA All Rights Reserved. 再掲:ChatGPT-4o(オムニ)のupdateサマリ •

    ⼀⾔で⾔うと「より⼈間と対話しているかのようなUX」に関するアップデート -> 動画を⾒るのが⼀番⼿っ取り早いですが、以下いくつかキーワードレベルで 回答のスピードが GPT-4よりめっちゃUP (体感4-5倍) 「⾳声」そのままで ⾔語・話者を理解 (これまではテキストに 変換してた) 動画のリアルタイム認識 ( これまでは画像1枚単位 だった ) ⾳声合成の幅がUP (ここはまぁ他の⽣成AIでもでき てたかも・・? ) Mac連携、Win連携 (デスクトップ常駐) GPT-4oの無料公開 (10回/5h、あとそのうちGPTs も使えるようになる) 分析とかも⼀部マイナーupdateされてますが本⽇は割愛 (LTパートでこーたろーさんが話してくれるはず・・)
  18. Copyright © 2024 NOB DATA All Rights Reserved. 個⼈的な予想3つ 既定路線

    • PCとの連携、スマホとの連携はもうほぼ確実 -> 類似サービスを作っている企業は要注意。(OpenAIの⾏動半径からは距離を取るべし) 個⼈的予想 • ロボティクス関係との連携がおそらく普及 • 画像認識については23年10⽉のChatGPT-4Vに関するMSさん論⽂でも解説済み • よりマルチモーダルな学習データ収集・活⽤の加速 • OpenAIとしてはVision PROなど、「リアルタイムの画像・⾳声データ」など、学習 データがおそらく喉から⼿が出るほど欲しいはず -> 中⻑期的には⼤量のデータを持っているGoogleが脅威 • ⼀般の⼈にも、そろそろChatGPTが認知されるのでは? • GPT-3.5しか多くの⼈は触っていないので、無料で⾼性能なものが触れるのは⼤きい (はず)
  19. Copyright © 2024 NOB DATA All Rights Reserved. OpenAIの⾏動半径内のケース(教育関係株) •

    いくつかの教育関係の株 価が下落(例:duolingo) • ChatGPT-4o(オムニ)の 発表の前に、教育系サー ビスのCheggのCEOが⽣ 成AIの影響によるネガ ティブ発弁をしたのが引 き⾦、とのこと • その後、5/14にGPT- 4o(オムニ)が発表され、 株価はまだ戻らない状態
  20. Copyright © 2024 NOB DATA All Rights Reserved. 参加者の皆さんの業務への影響をディスカション •

    ざっくばらんにご意⾒をお伺いできればと思います 翻訳業界の影響は⼤きいのでは? è 意外と、儲かっている è 普通の翻訳の仕事は減っているが、 IR情報の翻訳で儲かっている (今の所は) 現時点では: 最後は⼈間、という部分はあるかも (ある種の信⽤) コンテンツの多⾔語翻訳の 壁はだいぶ減るかも DeepLより翻訳性能が⾼い気がする ChatGPTがマイナーな地域 の⾔語を獲得するケースも出 ている ( ローカルカルチャーの普及 にも⼀役買ってくれる? ) ドイツ語の単語に対する性別 -> 新しい単語に対してのルール は?(ChatGPTが使えないか?)
  21. Copyright © 2024 NOB DATA All Rights Reserved. アイディア: ChatGPT-4oと⼀緒にホワイト

    ボードに書き込み、とかでき ないか プログラミングスクールの教 え⽅も変わるのかも -> ただ、個⼈的には⼿で覚え るのは⼤事な気もするが・・ (⼤城) ライターさんもChatGPTを使 い、かつ値段を上げている -> プロデューサー としてのスキル? 知財 ・画像⽣成系がトラブル多め -> うちのものに似てるのでは、 でクレームがくるパターン 技術での差別化の難しさ -> いち早く導⼊するのはあり 果たして、⼀般の⼈にまで普 及するのか? (第2次AIブームの時はハード 的な限界があった)
  22. Copyright © 2024 NOB DATA All Rights Reserved. 画像認識に関する性能(ChatGPT-4V) •

    4o(オムニ)になってから ⽇本語の読み取り性能が 上がったとの話もあるも のの、⾃分⾃⾝ではまだ 細かくは検証前 ( 体感としては改善 ) • なお、マクドナルドのメ ニューの画像を与えての スクレイピングなどはう まくいきました • ご参考まで、昨年の23年 11⽉前後にGPT-4Vが出た 際のMSさんの論⽂から学 ぶ勉強会資料はこちら https://speakerdeck.com/doradora09/20231021- mssannolun-wen-texue-huchatgpt-4vision-45minban- v1-dot-00
  23. Copyright © 2024 NOB DATA All Rights Reserved. 画像認識に関する性能(ChatGPT-4V) •

    4Vの例ですが、画⾯を⾒ せてのナビゲーションな ども恐らくもうすぐ • ロボットへの搭載なども 恐らく有効 https://speakerdeck.com/doradora09/20231021- mssannolun-wen-texue-huchatgpt-4vision-45minban- v1-dot-00
  24. Copyright © 2024 NOB DATA All Rights Reserved. ChatGPT /

    チャットGPTの検索クエリ数推移 (国内) • Googleトレンドで調査( 5/25時点 )