Slide 1

Slide 1 text

音声ケビンチーム 〜声で全ての家電を操作する〜

Slide 2

Slide 2 text

スマートホーム API 繋ぎこみ インタフェース繋ぎこ み(ChatGPT API部 分) Special Thanks 音声認識

Slide 3

Slide 3 text

音声で家電を操作する ● リモコンに触れずに操作したい ○ ベッド横にタブレットがあるので寝転がりながら 操作ができない ● たまに AI と会話したい時もある

Slide 4

Slide 4 text

今回の位置づけ ● UXのPoC ● ありものの技術のつなぎ込みに留める ● ↑の構成での限界値、改善点と改善可能性をよりク リアにする

Slide 5

Slide 5 text

構成 App Web Speech API (SpeechRecognition) カーテン開けて(音声) 呼ぶべきAPI(の呼び出し関数) を判断 音声をテキスト化 function: operateCurtain params: {is_open: true} スマートホームAPI カーテン開けました(音声) テキストを音声化

Slide 6

Slide 6 text

ChatVRMをフロント部分に利用

Slide 7

Slide 7 text

デモ

Slide 8

Slide 8 text

UIデモ

Slide 9

Slide 9 text

実機デモ

Slide 10

Slide 10 text

実機デモ動画

Slide 11

Slide 11 text

ChatGPT(function calling)を利用した アプリケーションについての所感 入力側の多言語対応が容易 会話の文脈からの判断力が高い

Slide 12

Slide 12 text

課題1: 確率的出力をする挙動をどう制御するか 対応策 ● 最終実行前にユーザの同意を取るフロー? ● プログラムロジック側での制御?

Slide 13

Slide 13 text

課題2: レスポンスのパフォーマンス ● 発話終了から機器の動作まで7〜9秒程度 ○ ChatGPT APIの呼び出しに3〜5秒 対応策 ● 相槌、インタラクションのアニメーションによる心理的な待ち時間の軽減 ● GPT3 turboの利用(ただしfuntion callingの精度↓) ● ChatGPT Steam APIの利用 ● Azure環境でのChatGPT AI API利用 ● ローカルLLMでのfunction calling ● そもそもLLMに依存しない?