XRミーティング 20220817

XRミーティング 20220817 HoloLens 2 で音声認識を使ったリアルタイム翻訳をやってみた試行錯誤ワンフットシーバス田中正吾

私の話はスライドを後ほど共有します。話す内容に注力いただいて大丈夫です！

田中正吾（たなかせいご）屋号：ワンフットシーバス 2004年よりフリーランス。以後、FLASH制作を中心にインタラクティブコンテンツを主に行い現在に至る。最近ではWEBフロントエンドをベースにしながらも、情報とインターフェースが合わさるアプローチという視点でIoTやMixed Realityといった技術も取り入れながら活動しています。

HoloLens 2 https://www.microsoft.com/ja-jp/hololens/hardware

HoloLens 2 で音声認識を使った DeepL経由リアルタイム翻訳つくりました

HoloLens 2 には音声認識機能がありトークを日本語テキストに変換できます音声認識機能（インターネット経由）音声データマイク入力テキスト空間に
テキスト表示

こんな機能です https://docs.microsoft.com/en-us/dotnet/api/microsoft.mixedreality.toolkit.input.dictationhandler?v iew=mixed-reality-toolkit-unity-2020-dotnet-2.8.01

音声認識した日本語を DeepL の翻訳 API を通して英語に翻訳して表示しています日本語音声認識（インターネット経由）英語
中継サーバー DeepL API

ということで、ひとまずリアルタイム翻訳のデモしてみます

いろいろ試行錯誤したことを話します参考資料・UI の考察・つくりやすくする中継サーバーの話など

音声認識の導入はこちらの記事がとても参考になりました！感謝です！ https://bluebirdofoz.hatenablog.com/entry/2021/08/24/080140

最近 1 on 1 デモもしてうまく動いたのでよりよい UI（使い勝手）の考察

翻訳開始は Click と Focus を用意していた

MRTK の Touch End と OnClick で遠近両方で指がクリックしたときに動作

Click は録音開始が明確にできるわざわざ押すのでユーザーにやや手間はかかる不特定多数の方に操作してもらう場合は、操作の説明と慣れが大事

Focus の場合

MRTK の OnFocusOn でポインターが触れたときに動作ホントは「目線がフォーカスしたら発動」を期待したが、手からの操作ポインターが触れたときの操作だった

ということで、操作面をデモしてみます

会話時などを考えると、より邪魔をしにくいよりよい UI を考えたくなる以前、目線 Gaze を追う仕組みを使ったことがあるので、目線を合わせる間、翻訳しつづける UI いいかも

つくりやすくする中継サーバーの仕掛け

いろいろ翻訳 API につなぎたいけど、Unity 側の JSON 処理や HTTP やりとり苦労しがち

JsonUtility クラスで JSON 形式に変換できるがひな形となるクラスを用意する必要がある

データが分かっている前提でこのようなクラスをつくればよい、が。構造が違ったりデータが無かったりすると手厳しいエラー。とうぜん違う API では違う指定をする。 Web API にありがちな状態により応答データが変わることに対応しにくかったり柔軟性にやや難。（いや、もちろんやるとなれば、がんばってつなぐんですけども！）

Unity と中継サーバーの連携は固定し汎用化サーバーが翻訳 API とのつなぎをがんばったサーバーはローコードツール Node-RED を使用し柔軟性が高められた。Unity の変更量をなるべく減らした。日本語
音声認識（インターネット経由）英語自前 Node-RED DeepL API

Node-RED の中身 HoloLens 2 から来た音声認識テキストを DeepL API に http request
ノードでつないで返ってきた結果をシンプルに HoloLens 2 に返答する仕組み

DeepL の他に IBM Watson の翻訳 API もつないで翻訳の性質を試すことができて楽しいゆくゆくは使用量による課金や翻訳辞書のともなう翻訳もありそうだし設定することは多そう（時間があれば、翻訳
API ごとの簡単な使用感も話してみる）

より拡張してみた例今日はデモしないですが、別件でためしてみた話

IoTデバイスへ翻訳済みテキストを表示するようにもできる M5Stack に MQTT でつないだ例

こんなかんじです

ダッシュボードにも翻訳済みテキストを表示するようにもできる登壇場所から距離があるときや、遠隔でリアルタイム翻訳を体験できる

時間があれば話したいハマりポイントめちゃくちゃ個人的なハマり方ですが！

音声認識のさまざまなイベントを捉えて自前のイベントに流すあたりの話

イベント指定時にちゃんと Dynamic string を指定受け手としてつくった関数が Static Parameters と Dynamic string
にでてくるまでは親切。うっかり Static 指定すると予期しない動作（イベント発火するのに引数のデータがないぽい？）になったのでちゃんと Dynamic string を指定する。あくまで今回の場合はですが。

まとめ ➔ 音声認識して翻訳する仕組みはわりとすんなりできてよかった。 ➔ 翻訳 API いろいろ試すために中継サーバーにつなぎを任せたら柔軟性を保ちつつ試せた。 ➔
使っていただくと UI 面で色々良くしたいことが見えてきたのでやってみたい。 ➔ やってみると結構言語コミュニケーションを補助してくれそうな可能性を感じるので今後もブラッシュアップしていきたいです！

XRミーティング 20220817

XRミーティング 20220817

1ft-seabass PRO

More Decks by 1ft-seabass

Other Decks in Technology

Featured

Transcript