2023夏NAHハッカソン_音声ケビンチーム

by koichi222

Slide 1

Slide 1 text

音声ケビンチーム〜声で全ての家電を操作する〜

Slide 2

Slide 2 text

スマートホーム API 繋ぎこみインタフェース繋ぎこみ(ChatGPT API部分) Special Thanks 音声認識

Slide 3

Slide 3 text

音声で家電を操作する ● リモコンに触れずに操作したい ○ ベッド横にタブレットがあるので寝転がりながら操作ができない ● たまに AI と会話したい時もある

Slide 4

Slide 4 text

今回の位置づけ ● UXのPoC ● ありものの技術のつなぎ込みに留める ● ↑の構成での限界値、改善点と改善可能性をよりクリアにする

Slide 5

Slide 5 text

構成 App Web Speech API (SpeechRecognition) カーテン開けて(音声) 呼ぶべきAPI(の呼び出し関数) を判断音声をテキスト化 function: operateCurtain params: {is_open: true} スマートホームAPI カーテン開けました(音声) テキストを音声化

Slide 6

Slide 6 text

ChatVRMをフロント部分に利用

Slide 7

Slide 7 text

デモ

Slide 8

Slide 8 text

UIデモ

Slide 9

Slide 9 text

実機デモ

Slide 10

Slide 10 text

実機デモ動画

Slide 11

Slide 11 text

ChatGPT(function calling)を利用したアプリケーションについての所感入力側の多言語対応が容易会話の文脈からの判断力が高い

Slide 12

Slide 12 text

課題1: 確率的出力をする挙動をどう制御するか対応策 ● 最終実行前にユーザの同意を取るフロー？ ● プログラムロジック側での制御？

Slide 13

Slide 13 text

課題2: レスポンスのパフォーマンス ● 発話終了から機器の動作まで7〜9秒程度 ○ ChatGPT APIの呼び出しに3〜5秒対応策 ● 相槌、インタラクションのアニメーションによる心理的な待ち時間の軽減 ● GPT3 turboの利用(ただしfuntion callingの精度↓) ● ChatGPT Steam APIの利用 ● Azure環境でのChatGPT AI API利用 ● ローカルLLMでのfunction calling ● そもそもLLMに依存しない？