Upgrade to Pro — share decks privately, control downloads, hide ads and more …

XRミーティング 20230517

XRミーティング 20230517

XRミーティング 20230517「HoloLens 2 音声認識 + ChatGPT で現実空間に立方体を召喚できた話」の登壇資料です。

◆スライド内の素材は以下を使用させていただいております。ありがとうございます!

・シルエットデザイン http://kage-design.com/
・human pictogram 2.0 http://pictogram2.com
・ICOOON MONO http://icooon-mono.com/
・Adobe Stock https://stock.adobe.com/jp

1ft-seabass
PRO

May 17, 2023
Tweet

More Decks by 1ft-seabass

Other Decks in Technology

Transcript

  1. 20230517_XRミーティング 20230517
    HoloLens 2 音声認識 + ChatGPT で現実空間
    に立方体を召喚できた話
    ワンフットシーバス 田中正吾

    View Slide

  2. 私の話はスライドを後ほど共有します。
    話す内容に注力いただいて大丈夫です!

    View Slide

  3. 10 分くらいで話します!

    View Slide

  4. 田中正吾(たなかせいご)
    屋号:ワンフットシーバス
    2004年よりフリーランス。以後、FLASH制作を
    中心にインタラクティブコンテンツを主に行い現
    在に至る。
    最近ではWEBフロントエンドをベースにしなが
    らも、情報とインターフェースが合わさるアプ
    ローチという視点でIoTやMixed Realityといっ
    た技術も取り入れながら活動しています。

    View Slide

  5. 東京住まいですが今回は北海道勢参加なんです
    あながち関連がないわけではないです。以前から少し北海道つながりがありつつ、
    最近も今回の要素技術の Node-RED の UG イベントを7/5 札幌でやる予定!
    よかったら北海道の方、当日配信見てくださーい!
    https://node-red.connpass.com/event/282500/

    View Slide

  6. HoloLens 2 の音声認識で ChatGPT に
    立方体を召喚できました
    https://twitter.com/1ft_seabass/status/1653305818169876481

    View Slide

  7. ひとまずデモしてみます

    View Slide

  8. 今回も Node-RED が橋渡し
    ChatGPT が音声認識したメッセージを解釈して HoloLens 2 に JSON を返して
    その JSON データによって物体を生成している仕組み

    View Slide

  9. HoloLens 2 から来たメッセージを
    こんな風に組み込んでます
    わりとシンプルに磨き上げれて満足

    View Slide

  10. いろいろ試行錯誤したこと

    View Slide

  11. キューブが誤変換しやすく立方体にした
    HoloLens 側で私の発音がよくないのかうまくききとってくれない

    View Slide

  12. 立方体もレポートとして伝わると変なJSONになる
    なので type は HoloLens 側で受け取った後 cube, ball 以外は除外してる
    {"type":"report","create":4,"size":1}

    View Slide

  13. 「コーンが2.3の大きさで36個ください」
    については悩ましくて未実装
    ボールと立方体と比べて、どう呼んでいいかが悩ましい。コーンが伝わりにくいのもある。がんばる。

    View Slide

  14. 「ボールが9の大きさで12個ください」と
    大きさ要素もあるが中々しゃべりきれない
    最初は色要素もいれていたがスムーズに一気に言うのがけっこうむずかしいので、いいやり方考える。

    View Slide

  15. クリックで録音開始は使いやすいが
    いちいち狙って押すのが大変なので模索したい
    ひとまず使える実装としてはベター、もうちょっとジェスチャとか模索したい(グーとか手合わせ検証中)

    View Slide

  16. 時間があれば、追いリアルタイムデモします!

    View Slide

  17. ➔ なにはともあれ音声で物体召喚できるのとてもたのしい!
    ➔ ChatGPT がかなり柔軟に音声を解釈してルールさえしっ
    かりすれば JSON をうまく返してくれる
    ➔ ChatGPT による音声命令の設計は作りやすいものの、そ
    れでも場合や条件で上手く出す試行錯誤は必要
    ➔ HoloLens 側の音声認識が揺れても ChatGPT がフォロー
    してくれるが混乱する場合もあり、おもしろい
    ➔ ひきつづき、いろいろ試していきたい!
    まとめ

    View Slide