Slide 1

Slide 1 text

20231011_AI ミーティング 20231011 Unity からマイク録音して Whisper API で文字 起こしし+ ChatGPT API とやり取りした話 ワンフットシーバス 田中正吾

Slide 2

Slide 2 text

私の話はスライドを後ほど共有します。 話す内容に注力いただいて大丈夫です!

Slide 3

Slide 3 text

10 分くらいで話します!

Slide 4

Slide 4 text

田中正吾(たなかせいご) 屋号:ワンフットシーバス 2004年よりフリーランス。以後、FLASH制作を 中心にインタラクティブコンテンツを主に行い現 在に至る。 最近ではWEBフロントエンドをベースにしなが らも、情報とインターフェースが合わさるアプ ローチという視点でIoTやMixed Realityといった 技術も取り入れながら活動しています。

Slide 5

Slide 5 text

会議ブース STATION WORK からお送りします! 御茶ノ水にて講師を終えて駅前に直行しております

Slide 6

Slide 6 text

マイク入力を Whisper で文字起こしして ChatGPT に回答してもらう仕組み Whisper API ChatGPT API Unity マイク入力 WAVデータ 文字起こし 質問 回答

Slide 7

Slide 7 text

ひとまずデモしてみます Unity からマイク録音して音データを Whisper API で文字起こしして ChatGPT API とやり取り

Slide 8

Slide 8 text

試行錯誤とかがんばったところ

Slide 9

Slide 9 text

ブログ記事にまとめました https://www.1ft-seabass.jp/memo/2023/10/05/unity-with-whisper-api-and-chatgpt-api/

Slide 10

Slide 10 text

Whisper API には滑舌(かつぜつ)重要 たとえばウォンバットは色々ブレる。しっかり喋る。

Slide 11

Slide 11 text

もともと VR デバイス連携を目指しているが PC での連携でも結構可能性は広がりそう

Slide 12

Slide 12 text

このような流れ 今は一度文字起こししてからそのテキストで ChatGPT 質問してるので 2 回折り返してる。 Whisper API ChatGPT API Unity マイク入力 WAVデータ 文字起こし 質問 回答

Slide 13

Slide 13 text

いずれ音声送るだけに統合されそう。楽しみ。 ChatGPTに音声応答 、画像認識機能搭載へ https://gihyo.jp/article/2023/09/chatgpt-speak-and-see

Slide 14

Slide 14 text

明示的に録音するのが現状の仕組みにやさしく ベターではあるが良くしたい気持ちもある たとえば、声を検知して自動録音をしたいが「声のはじまりとは」「無音とは」「音の切れ目とは」 「ストリーム的に流し込みつづけるとは」など一気に色々なポイントが出てきてゾクゾクする。先は長い。

Slide 15

Slide 15 text

➔ マイク入力・文字起こし・ChatGPT と分解して確かめて からつないだらうまく連携できた ➔ もともと VR デバイス連携を目指しているが PC での連携 でも結構可能性は広がりそう ➔ 「滑舌良く」人間が合わせるという、こちらの行動を合わ せる側面は引き続きあって面白い ➔ とにもかくにも ChatGPT への対話のできるドアが色々自 分で引き込めるのは楽しい! まとめ