Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI ミーティング 20231011

AI ミーティング 20231011

AI ミーティング 20231011「Unity からマイク録音して Whisper API で文字起こしし+ ChatGPT API とやり取りした話」の登壇資料です。

◆スライド内の素材は以下を使用させていただいております。ありがとうございます!

・シルエットデザイン http://kage-design.com/
・human pictogram 2.0 http://pictogram2.com
・ICOOON MONO http://icooon-mono.com/
・Adobe Stock https://stock.adobe.com/jp

1ft-seabass

October 11, 2023
Tweet

More Decks by 1ft-seabass

Other Decks in Technology

Transcript

  1. 20231011_AI ミーティング 20231011
    Unity からマイク録音して Whisper API で文字
    起こしし+ ChatGPT API とやり取りした話
    ワンフットシーバス 田中正吾

    View full-size slide

  2. 私の話はスライドを後ほど共有します。
    話す内容に注力いただいて大丈夫です!

    View full-size slide

  3. 10 分くらいで話します!

    View full-size slide

  4. 田中正吾(たなかせいご)
    屋号:ワンフットシーバス
    2004年よりフリーランス。以後、FLASH制作を
    中心にインタラクティブコンテンツを主に行い現
    在に至る。
    最近ではWEBフロントエンドをベースにしなが
    らも、情報とインターフェースが合わさるアプ
    ローチという視点でIoTやMixed Realityといった
    技術も取り入れながら活動しています。

    View full-size slide

  5. 会議ブース STATION WORK からお送りします!
    御茶ノ水にて講師を終えて駅前に直行しております

    View full-size slide

  6. マイク入力を Whisper で文字起こしして
    ChatGPT に回答してもらう仕組み
    Whisper API ChatGPT API
    Unity
    マイク入力
    WAVデータ 文字起こし 質問 回答

    View full-size slide

  7. ひとまずデモしてみます
    Unity からマイク録音して音データを Whisper API で文字起こしして ChatGPT API とやり取り

    View full-size slide

  8. 試行錯誤とかがんばったところ

    View full-size slide

  9. ブログ記事にまとめました
    https://www.1ft-seabass.jp/memo/2023/10/05/unity-with-whisper-api-and-chatgpt-api/

    View full-size slide

  10. Whisper API には滑舌(かつぜつ)重要
    たとえばウォンバットは色々ブレる。しっかり喋る。

    View full-size slide

  11. もともと VR デバイス連携を目指しているが
    PC での連携でも結構可能性は広がりそう

    View full-size slide

  12. このような流れ
    今は一度文字起こししてからそのテキストで ChatGPT 質問してるので 2 回折り返してる。
    Whisper API ChatGPT API
    Unity
    マイク入力
    WAVデータ 文字起こし 質問 回答

    View full-size slide

  13. いずれ音声送るだけに統合されそう。楽しみ。
    ChatGPTに音声応答 、画像認識機能搭載へ
    https://gihyo.jp/article/2023/09/chatgpt-speak-and-see

    View full-size slide

  14. 明示的に録音するのが現状の仕組みにやさしく
    ベターではあるが良くしたい気持ちもある
    たとえば、声を検知して自動録音をしたいが「声のはじまりとは」「無音とは」「音の切れ目とは」
    「ストリーム的に流し込みつづけるとは」など一気に色々なポイントが出てきてゾクゾクする。先は長い。

    View full-size slide

  15. ➔ マイク入力・文字起こし・ChatGPT と分解して確かめて
    からつないだらうまく連携できた
    ➔ もともと VR デバイス連携を目指しているが PC での連携
    でも結構可能性は広がりそう
    ➔ 「滑舌良く」人間が合わせるという、こちらの行動を合わ
    せる側面は引き続きあって面白い
    ➔ とにもかくにも ChatGPT への対話のできるドアが色々自
    分で引き込めるのは楽しい!
    まとめ

    View full-size slide