$30 off During Our Annual Pro Sale. View Details »

XRミーティング 20230920

XRミーティング 20230920

XRミーティング 20230920「XREAL Air で録音して Whisper API で文字起こしした試行錯誤」の登壇資料です。

◆スライド内の素材は以下を使用させていただいております。ありがとうございます!

・シルエットデザイン http://kage-design.com/
・human pictogram 2.0 http://pictogram2.com
・ICOOON MONO http://icooon-mono.com/
・Adobe Stock https://stock.adobe.com/jp

1ft-seabass
PRO

September 20, 2023
Tweet

More Decks by 1ft-seabass

Other Decks in Technology

Transcript

  1. 20230920_XRミーティング 20230920
    XREAL Air で録音して Whisper API で
    文字起こしした試行錯誤
    ワンフットシーバス 田中正吾

    View Slide

  2. 私の話はスライドを後ほど共有します。
    話す内容に注力いただいて大丈夫です!

    View Slide

  3. 10 分くらいで話します!

    View Slide

  4. 田中正吾(たなかせいご)
    屋号:ワンフットシーバス
    2004年よりフリーランス。以後、FLASH制作を
    中心にインタラクティブコンテンツを主に行い現
    在に至る。
    最近ではWEBフロントエンドをベースにしなが
    らも、情報とインターフェースが合わさるアプ
    ローチという視点でIoTやMixed Realityといった
    技術も取り入れながら活動しています。

    View Slide

  5. XREAL Air で音声認識します

    View Slide

  6. XREAL Air から録音して
    OpenAI Whisper API に送って文字起こしします
    Microphone
    で録音
    OpenAI
    Whisper API
    録音 AudioClip から
    WAV データ変換
    音声データ
    文字起こし

    View Slide

  7. 実際の様子
    https://twitter.com/1ft_seabass/status/1701422677477798066

    View Slide

  8. リアルタイムに見せにくいのでXREAL Air で
    文字起こしできたら Node-RED で表示します!
    XREAL Air Node-RED

    View Slide

  9. Node-RED のフローはこんな感じ

    View Slide

  10. デモしてみます!

    View Slide

  11. 試行錯誤した話や、よもやま話

    View Slide

  12. HoloLens 2 は音声認識機能が内蔵されてて
    かなり至れり尽くせり感があり掘り下げたかった
    XREAL Air など他のデバイスで実装しながら技術分解して理解してみたかったんです
    音声認識機能
    (インターネット経由)
    音声データ
    マイク入力
    テキスト
    日本語
    テキスト

    View Slide

  13. 録音からの WAV フォーマット化がんばった
    Microphone
    で録音
    OpenAI
    Whisper API
    録音 AudioClip から
    WAV データ変換
    音声データ
    文字起こし

    View Slide

  14. ほとんど良記事に助けられた形。感謝。
    Unity からマイク録音して音データを WAV フォーマットに保存するメモ
    https://www.1ft-seabass.jp/memo/2023/09/13/unity-recording-voice-and-convert-wav-format-and-
    save-wav-data/

    View Slide

  15. Whisper API に Unity から
    WAV データを送るところ
    Microphone
    で録音
    OpenAI
    Whisper API
    録音 AudioClip から
    WAV データ変換
    音声データ
    文字起こし

    View Slide

  16. Whisper API は multipart/form-data 受けだが
    Unity の標準の送り方が同じで助りました
    Unity からマイク録音して音データを WAV フォーマットで Whisper API に送って文字起こしするメモ
    https://www.1ft-seabass.jp/memo/2023/09/17/unity-with-whisper-api/

    View Slide

  17. XREAL Air 固有のところ
    Microphone
    で録音
    OpenAI
    Whisper API
    録音 AudioClip から
    WAV データ変換
    音声データ
    文字起こし

    View Slide

  18. XREAL Air 固有のところは少なめで助かった。
    デバイス名くらい。
    XREAL Air からマイク録音して音データを WAV フォーマットで OpenAI Whisper API に送って文字起こし
    https://www.1ft-seabass.jp/memo/2023/09/20/xreal-with-whisper-api/

    View Slide

  19. Whisper API はデフォルトは英語で返しがち
    language ja で日本語縛りがかなり効く
    prompt 値で縛るのは若干弱めだけど通じるのは面白い。言語縛りは language 値がよさそう。

    View Slide

  20. ➔ WAV フォーマットで送る必要があったが、今回 WAV
    フォーマットの仕様と仲良くなれたぽいのでよかった
    ➔ Whisper API に multipart/form-data 形式で送る知見が
    うまくハマってよかった
    ➔ XREAL Air 固有の部分は案外少なくて助かった
    ➔ HoloLens 2 での至れり尽くせり感をうまく分解してとら
    えられたのでよかった
    ➔ これで文字起こししたものを ChatGPT に声で話した質問
    を送れるようになると色々と可能性が広がりそう
    まとめ

    View Slide