AI ミーティング 20231011
by
1ft-seabass
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
20231011_AI ミーティング 20231011 Unity からマイク録音して Whisper API で文字 起こしし+ ChatGPT API とやり取りした話 ワンフットシーバス 田中正吾
Slide 2
Slide 2 text
私の話はスライドを後ほど共有します。 話す内容に注力いただいて大丈夫です!
Slide 3
Slide 3 text
10 分くらいで話します!
Slide 4
Slide 4 text
田中正吾(たなかせいご) 屋号:ワンフットシーバス 2004年よりフリーランス。以後、FLASH制作を 中心にインタラクティブコンテンツを主に行い現 在に至る。 最近ではWEBフロントエンドをベースにしなが らも、情報とインターフェースが合わさるアプ ローチという視点でIoTやMixed Realityといった 技術も取り入れながら活動しています。
Slide 5
Slide 5 text
会議ブース STATION WORK からお送りします! 御茶ノ水にて講師を終えて駅前に直行しております
Slide 6
Slide 6 text
マイク入力を Whisper で文字起こしして ChatGPT に回答してもらう仕組み Whisper API ChatGPT API Unity マイク入力 WAVデータ 文字起こし 質問 回答
Slide 7
Slide 7 text
ひとまずデモしてみます Unity からマイク録音して音データを Whisper API で文字起こしして ChatGPT API とやり取り
Slide 8
Slide 8 text
試行錯誤とかがんばったところ
Slide 9
Slide 9 text
ブログ記事にまとめました https://www.1ft-seabass.jp/memo/2023/10/05/unity-with-whisper-api-and-chatgpt-api/
Slide 10
Slide 10 text
Whisper API には滑舌(かつぜつ)重要 たとえばウォンバットは色々ブレる。しっかり喋る。
Slide 11
Slide 11 text
もともと VR デバイス連携を目指しているが PC での連携でも結構可能性は広がりそう
Slide 12
Slide 12 text
このような流れ 今は一度文字起こししてからそのテキストで ChatGPT 質問してるので 2 回折り返してる。 Whisper API ChatGPT API Unity マイク入力 WAVデータ 文字起こし 質問 回答
Slide 13
Slide 13 text
いずれ音声送るだけに統合されそう。楽しみ。 ChatGPTに音声応答 、画像認識機能搭載へ https://gihyo.jp/article/2023/09/chatgpt-speak-and-see
Slide 14
Slide 14 text
明示的に録音するのが現状の仕組みにやさしく ベターではあるが良くしたい気持ちもある たとえば、声を検知して自動録音をしたいが「声のはじまりとは」「無音とは」「音の切れ目とは」 「ストリーム的に流し込みつづけるとは」など一気に色々なポイントが出てきてゾクゾクする。先は長い。
Slide 15
Slide 15 text
➔ マイク入力・文字起こし・ChatGPT と分解して確かめて からつないだらうまく連携できた ➔ もともと VR デバイス連携を目指しているが PC での連携 でも結構可能性は広がりそう ➔ 「滑舌良く」人間が合わせるという、こちらの行動を合わ せる側面は引き続きあって面白い ➔ とにもかくにも ChatGPT への対話のできるドアが色々自 分で引き込めるのは楽しい! まとめ