Slide 1

Slide 1 text

20230621_XRミーティング 20230621 HoloLens2 の音声認識と ChatGPT で会話する ハンドジェスチャ実装して見えてきたこと ワンフットシーバス 田中正吾

Slide 2

Slide 2 text

私の話はスライドを後ほど共有します。 話す内容に注力いただいて大丈夫です!

Slide 3

Slide 3 text

10 分くらいで話します!

Slide 4

Slide 4 text

田中正吾(たなかせいご) 屋号:ワンフットシーバス 2004年よりフリーランス。以後、FLASH制作を 中心にインタラクティブコンテンツを主に行い現 在に至る。 最近ではWEBフロントエンドをベースにしなが らも、情報とインターフェースが合わさるアプ ローチという視点でIoTやMixed Realityといった 技術も取り入れながら活動しています。

Slide 5

Slide 5 text

以前からブラッシュアップしてる オブジェクト生成の仕組み HoloLens2 ChatGPT API オブジェクト 生成

Slide 6

Slide 6 text

すでにボタンクリックで録音して 音声認識させて ChatGPT に指示してた 日本語 音声認識 (インターネット経由) 自前 Node-RED ChatGPT API HoloLens2 オブジェクト 生成

Slide 7

Slide 7 text

クリックで録音開始は使いやすいが いちいち狙って押すのが大変なので模索してた

Slide 8

Slide 8 text

HoloLens 2 からの ChatGPT への指示を 「手合わせ」起動にしたらおもしろかった!

Slide 9

Slide 9 text

こんなかんじです まずは動画から https://twitter.com/1ft_seabass/status/1661532902910472192

Slide 10

Slide 10 text

デモをやってみます!

Slide 11

Slide 11 text

いろいろ試行錯誤したこと

Slide 12

Slide 12 text

ハンドトラッキングは MRTK のこちらを参考 ハンド トラッキング - MRTK 2 https://learn.microsoft.com/ja-jp/windows/mixed-reality/mrtk-unity/mrtk2/features/input/hand-tra cking?view=mrtkunity-2022-05

Slide 13

Slide 13 text

両手首 Wrist の近さでクリック録音と 同じ効果が発動するようにした

Slide 14

Slide 14 text

だいたい 15 cm 以下で発動するように Wrist の GameObject 同士の位置から距離をとって Unity で 0.15 以下

Slide 15

Slide 15 text

結果として距離だけでよかった 手を合わせるまでの速度や「パーン」とやる強さは効果薄め。距離だけでいい。

Slide 16

Slide 16 text

こんな風に上手く取れてる Debug.LogFormat をそのまま空間上にテキストで出すやついつも重宝してる

Slide 17

Slide 17 text

いま拍手で ON もう一度拍手で OFF ちょいやりづらいので「手を合わせてる時だけ」音声認識もよさそう。こんどやってみる。 拍手で ON もう一度拍手で OFF

Slide 18

Slide 18 text

他のハンドジェスチャ検討してました ジェスチャというユーザーインターフェース GUI

Slide 19

Slide 19 text

1 本指の指さし系は元々のポインタと 誤認しやすいので実装しにくい だけ小指をたてるとかムズい、中指だけ立てるのは特徴ハッキリだけど文化的にヤバい

Slide 20

Slide 20 text

きっちり手を広げる判定はむずかしい 各間接が「まっすぐかどうか」という判定は結構あいまいになった

Slide 21

Slide 21 text

いいね!みたいな動きは間接が特徴的で 実装できなくはないので次点案だった ともあれ、手首判定の方が総合的にやりやすかったので採用

Slide 22

Slide 22 text

余談としては、ピースサインなど 指の特徴が複数なのは結構実装カロリー高い

Slide 23

Slide 23 text

魔法とか忍術とかファンタジー+XR+ChatGPT に 少しだけ想いを馳せてみたくなる

Slide 24

Slide 24 text

このアクション、某錬金術師的連想をするけど 実は手首だけ合えば良いので別アクションも可能

Slide 25

Slide 25 text

某忍者系の印アクションもできる

Slide 26

Slide 26 text

さらにいえば、手ごね(印)アクションで より細かく指示前提を分岐できそうな可能性 それなりに大変だけどできたらおもしろそう。術ってホントにそういうことなのかも。

Slide 27

Slide 27 text

手合わせ+発声詠唱は 何が出てくるか予測しやすいともいえる

Slide 28

Slide 28 text

手ごね(印)アクションだけでやれば より術の予測がつきにくくなる

Slide 29

Slide 29 text

ファンタジーつよつよ要素で無詠唱あるけど、 実は外部認識しづらいだけで何かあったりして 微弱なフィジカル信号なら IoT 要素とか絡まなくもないなっておもう

Slide 30

Slide 30 text

妄想も広がりつつ、今回のハンドジェスチャで 「技術を会話する」感が強くなったので楽しい

Slide 31

Slide 31 text

➔ 手合わせ発動で ChatGPT に指示が出してオブジェクトが 呼び出せると召喚感が強くて楽しい ➔ ハンドジェスチャは使いやすさを意識した実装は奥が深い と感じたが、うまくいくジェスチャ見つけると楽しい ➔ 「技術と会話して何かする」世界観はファンタジーも想起 させ色々と発想が融合・発展していく感じがよい ➔ ジェスチャも音声指示も人間側で「うまく合わせる」とこ ろがあり技術との仲良くするやり方に可能性を感じる ➔ 引き続き、このあたり試行錯誤していきたい! まとめ