Slide 1

Slide 1 text

ChatGPT-4o(オムニ) についての情報共有& ディスカッション 2024/5/26 ChatGPT部 部⻑ @doradora09

Slide 2

Slide 2 text

Copyright © 2024 NOB DATA All Rights Reserved. ⾃⼰紹介 ⼤城信晃(twitter @doradora09) NOB DATA株式会社 代表取締役社⻑ / データサイエンティスト協会九州⽀部 ⽀部⻑ / iU 情報経営イノベーション専⾨職⼤学 客員教員 ・住まい 沖縄 -> 東京 -> 福岡 ・職歴 ヤフー-> DATUM STUDIO -> LINE Fukuoka -> NOB DATA(株) 創業 ・運営コミュニティ ・Tokyo.R(2010-2016) ・fukuoka.R、PyData.Fukuoka、 オモシロAIごった煮勉強会、ChatGPT部、 他2つ 本業ではデータ分析チームの ⽴ち上げ・育成・⾃⾛⽀援を展開中

Slide 3

Slide 3 text

Copyright © 2024 NOB DATA All Rights Reserved. 本⽇のタイムライン ・オープニングトーク 10min ・ChatGPT-4o(オムニ)についての情報共有 & ディスカッション 40-50min ・LT 20min (1-2本) ・クロージング 最⻑でも11:30には完全完了したいと思います

Slide 4

Slide 4 text

Copyright © 2024 NOB DATA All Rights Reserved. 2週間前の部活にて:NEWS関連 • ⽇本時間5/14(⽕) AM 2:00にOpenAIから⼤き めな発表がある⾒込み (アメリカの現地だと 5/13(⽉) AM 10:00) • GPT-5では無い模様 https://twitter.com/sama/status/1788989777452408943 GPT-4o(オムニ)が発表されたので そちらを動画も⾒つつ。

Slide 5

Slide 5 text

Copyright © 2024 NOB DATA All Rights Reserved. ChatGPT-4o(オムニ)のupdateサマリ • ⼀⾔で⾔うと「より⼈間と対話しているかのようなUX」に関するアップデート -> 動画を⾒るのが⼀番⼿っ取り早いですが、以下いくつかキーワードレベルで 回答のスピードが GPT-4よりめっちゃUP (体感4-5倍) 「⾳声」そのままで ⾔語・話者を理解 (これまではテキストに 変換してた) 動画のリアルタイム認識 ( これまでは画像1枚単位 だった ) ⾳声合成の幅がUP (ここはまぁ他の⽣成AIでもでき てたかも・・? ) Mac連携、Win連携 (デスクトップ常駐) GPT-4oの無料公開 (10回/5h、あとそのうちGPTs も使えるようになる) 分析とかも⼀部マイナーupdateされてますが本⽇は割愛 (LTパートでこーたろーさんが話してくれるはず・・)

Slide 6

Slide 6 text

Copyright © 2024 NOB DATA All Rights Reserved. 発表動画 & 関連動画からいくつかピックアップ

Slide 7

Slide 7 text

Copyright © 2024 NOB DATA All Rights Reserved. 速報的にはこちらのまとめ • この内容をもう少し詳しくみ ていきます https://note.com/chatgpt_nobdata/n/n1594446ffd30

Slide 8

Slide 8 text

Copyright © 2024 NOB DATA All Rights Reserved. 動画視聴の前に:現在のChatGPT-4のアプリ • GPT-4o(オムニ)では「より ⾃然な⾳声対話」を実現して います • ⽐較対象として、従来の GPT-4の⾳声対話にはタイム ラグがあるのを感じていただ ければと(2-3秒くらい)。 • なお、2024/5/26現在、まだ オムニの対話機能は⼀般公開 されていません ( 動画でのデモや⾃⺠党会合 でのデモくらい ) ココ ⾳声対話モード 通常モード

Slide 9

Slide 9 text

Copyright © 2024 NOB DATA All Rights Reserved. まずはOpenAI社のGPT-4o(オムニ)発表動画から • リンクはこちら • https://www.youtube.com/ watch?v=DQacCB9tDaw • 動画⾒つつ、抜粋してご説明 • Youtubeで⽇本語への⾃動翻 訳をONにすると便利です ⽇本語 を選択

Slide 10

Slide 10 text

Copyright © 2024 NOB DATA All Rights Reserved. ① 対話機能のデモ (動画の9:43-10:56あたり) • 通常の対話 • 呼吸⾳の認識

Slide 11

Slide 11 text

Copyright © 2024 NOB DATA All Rights Reserved. ② カットイン&声⾊の変化デモ (動画の12:04-13:10あたり) • 物語の作成 • カットイン • 声⾊の変化 • 感情の起伏 • ロボットのように

Slide 12

Slide 12 text

Copyright © 2024 NOB DATA All Rights Reserved. ③ ちょっと⾶んで、動画のリアルタイム認識(23:42-24:41あたり) • ライブ動画認識 • 表情認識 + 対話

Slide 13

Slide 13 text

Copyright © 2024 NOB DATA All Rights Reserved. ④ 前に戻って、デスクトップのリアルタイム認識(20:30あたり) • デスクトップの模様をライ ブで認識 • コードレビューやデータ分 析の⽀援

Slide 14

Slide 14 text

Copyright © 2024 NOB DATA All Rights Reserved. その他のデモ動画 • ライブでの発表以外にも、 OpenAI社の公式Webサイ トやyoutubeにて各種デモ の模様が紹介されています • Webサイト • https://openai.com/i ndex/hello-gpt-4o/ • Youtube • https://www.youtub e.com/@OpenAI • イチオシしは未来の教育⽅ 法を彷彿とさせるこちら (3分くらいの動画です) https://www.youtube.com/watch?v=_nSmkyDNulk

Slide 15

Slide 15 text

Copyright © 2024 NOB DATA All Rights Reserved. スピードの検証 • チャエンさんのこちらの速度⽐較動画がわかりやすいです https://twitter.com/masahirochaen/status/1790078529 683730906

Slide 16

Slide 16 text

Copyright © 2024 NOB DATA All Rights Reserved. ⼀応、OCR精度も上がってそうな雰囲気 • 英語なら⼤量のデータ を認識させる例も。⽇ 本語の認識精度も上 がってる気がします (が、完璧では無いで すね)

Slide 17

Slide 17 text

Copyright © 2024 NOB DATA All Rights Reserved. ⼀応、OCR精度も上がってそうな雰囲気 • 英語だとこれを全て認識さ せてたりするので結構凄そ うです (ただし、ハルシネーショ ンが起きてる可能性はある ので要検証) • ⽯川さんのデモ • https://twitter.com/yti skw/status/179010075 1823548588

Slide 18

Slide 18 text

Copyright © 2024 NOB DATA All Rights Reserved. その他、PC連携 • 先ほどのデモではiPadで動か す例がありましたが、Mac上 で動作するクライアントアプ リも提供され始めています • またOpenAIの発表の翌週あた りに実施されたMSさんのイ ベントではAzureへの搭載や Copilot+ PCの発表もあり、 今後は「PC上でChatGPT系 エージェントが常駐して質問 に答える」というスタイルに 広がってきそうだなと感じて います(個⼈的には)

Slide 19

Slide 19 text

Copyright © 2024 NOB DATA All Rights Reserved. 再掲:ChatGPT-4o(オムニ)のupdateサマリ • ⼀⾔で⾔うと「より⼈間と対話しているかのようなUX」に関するアップデート -> 動画を⾒るのが⼀番⼿っ取り早いですが、以下いくつかキーワードレベルで 回答のスピードが GPT-4よりめっちゃUP (体感4-5倍) 「⾳声」そのままで ⾔語・話者を理解 (これまではテキストに 変換してた) 動画のリアルタイム認識 ( これまでは画像1枚単位 だった ) ⾳声合成の幅がUP (ここはまぁ他の⽣成AIでもでき てたかも・・? ) Mac連携、Win連携 (デスクトップ常駐) GPT-4oの無料公開 (10回/5h、あとそのうちGPTs も使えるようになる) 分析とかも⼀部マイナーupdateされてますが本⽇は割愛 (LTパートでこーたろーさんが話してくれるはず・・)

Slide 20

Slide 20 text

Copyright © 2024 NOB DATA All Rights Reserved. 個⼈的な今後の予想

Slide 21

Slide 21 text

Copyright © 2024 NOB DATA All Rights Reserved. 個⼈的な予想3つ 既定路線 • PCとの連携、スマホとの連携はもうほぼ確実 -> 類似サービスを作っている企業は要注意。(OpenAIの⾏動半径からは距離を取るべし) 個⼈的予想 • ロボティクス関係との連携がおそらく普及 • 画像認識については23年10⽉のChatGPT-4Vに関するMSさん論⽂でも解説済み • よりマルチモーダルな学習データ収集・活⽤の加速 • OpenAIとしてはVision PROなど、「リアルタイムの画像・⾳声データ」など、学習 データがおそらく喉から⼿が出るほど欲しいはず -> 中⻑期的には⼤量のデータを持っているGoogleが脅威 • ⼀般の⼈にも、そろそろChatGPTが認知されるのでは? • GPT-3.5しか多くの⼈は触っていないので、無料で⾼性能なものが触れるのは⼤きい (はず)

Slide 22

Slide 22 text

Copyright © 2024 NOB DATA All Rights Reserved. OpenAIの⾏動半径内のケース(教育関係株) • いくつかの教育関係の株 価が下落(例:duolingo) • ChatGPT-4o(オムニ)の 発表の前に、教育系サー ビスのCheggのCEOが⽣ 成AIの影響によるネガ ティブ発弁をしたのが引 き⾦、とのこと • その後、5/14にGPT- 4o(オムニ)が発表され、 株価はまだ戻らない状態

Slide 23

Slide 23 text

Copyright © 2024 NOB DATA All Rights Reserved. ディスカッション

Slide 24

Slide 24 text

Copyright © 2024 NOB DATA All Rights Reserved. 参加者の皆さんの業務への影響をディスカション • ざっくばらんにご意⾒をお伺いできればと思います 翻訳業界の影響は⼤きいのでは? è 意外と、儲かっている è 普通の翻訳の仕事は減っているが、 IR情報の翻訳で儲かっている (今の所は) 現時点では: 最後は⼈間、という部分はあるかも (ある種の信⽤) コンテンツの多⾔語翻訳の 壁はだいぶ減るかも DeepLより翻訳性能が⾼い気がする ChatGPTがマイナーな地域 の⾔語を獲得するケースも出 ている ( ローカルカルチャーの普及 にも⼀役買ってくれる? ) ドイツ語の単語に対する性別 -> 新しい単語に対してのルール は?(ChatGPTが使えないか?)

Slide 25

Slide 25 text

Copyright © 2024 NOB DATA All Rights Reserved. アイディア: ChatGPT-4oと⼀緒にホワイト ボードに書き込み、とかでき ないか プログラミングスクールの教 え⽅も変わるのかも -> ただ、個⼈的には⼿で覚え るのは⼤事な気もするが・・ (⼤城) ライターさんもChatGPTを使 い、かつ値段を上げている -> プロデューサー としてのスキル? 知財 ・画像⽣成系がトラブル多め -> うちのものに似てるのでは、 でクレームがくるパターン 技術での差別化の難しさ -> いち早く導⼊するのはあり 果たして、⼀般の⼈にまで普 及するのか? (第2次AIブームの時はハード 的な限界があった)

Slide 26

Slide 26 text

Copyright © 2024 NOB DATA All Rights Reserved. 参考資料

Slide 27

Slide 27 text

Copyright © 2024 NOB DATA All Rights Reserved. 画像認識に関する性能(ChatGPT-4V) • 4o(オムニ)になってから ⽇本語の読み取り性能が 上がったとの話もあるも のの、⾃分⾃⾝ではまだ 細かくは検証前 ( 体感としては改善 ) • なお、マクドナルドのメ ニューの画像を与えての スクレイピングなどはう まくいきました • ご参考まで、昨年の23年 11⽉前後にGPT-4Vが出た 際のMSさんの論⽂から学 ぶ勉強会資料はこちら https://speakerdeck.com/doradora09/20231021- mssannolun-wen-texue-huchatgpt-4vision-45minban- v1-dot-00

Slide 28

Slide 28 text

Copyright © 2024 NOB DATA All Rights Reserved. 画像認識に関する性能(ChatGPT-4V) • 4Vの例ですが、画⾯を⾒ せてのナビゲーションな ども恐らくもうすぐ • ロボットへの搭載なども 恐らく有効 https://speakerdeck.com/doradora09/20231021- mssannolun-wen-texue-huchatgpt-4vision-45minban- v1-dot-00

Slide 29

Slide 29 text

Copyright © 2024 NOB DATA All Rights Reserved. ChatGPT / チャットGPTの検索クエリ数推移 (国内) • Googleトレンドで調査( 5/25時点 )