2024-0704 リアルタイム対話システムを作ってみた

リアルタイム対話システムを作ってみたよしかい @yoshikai_man by @yoshikai_man 1

自己紹介よしかいソフトウェアエンジニア今年の 3月に開催された東京 AI祭で、自身のプロダクト「 AI Radio Maker」が
AiHUB賞を受賞 7/16からフリーランスで活動します。法人も設立予定 by @yoshikai_man 2

デモ動画 https://x.com/yoshikai_man/status/1801291601358319717 0:00 / 0:35 by @yoshikai_man 3

システムの基本構成 by @yoshikai_man 4

処理フロー音声録音 → 音声の文字起こし → LLMで回答生成 → 音声合成 by @yoshikai_man
5

システムの基本構成補足フロントエンドと APIは WebSocketで通信回答生成途中でも APIからフロントエンドに相槌用の音声を送れるように音声録音、発話区間検出はフロントエンドが担う by @yoshikai_man 6

APIについて by @yoshikai_man 7

APIについて API側の処理フローフロントエンドから音声を受信音声を Google Cloud Speech-to-Textで文字起こし文字起こししたテキストを OpenAIの GPT-4oで回答生成
回答を Style-Bert-VITS2で音声合成音声合成した音声をフロントエンドに送信 by @yoshikai_man 8

Speech-to-Text OpenAI Whisper APIと Google Cloud Speech-to-Textの結果を比較して自分のユースケースで優れていた Google Cloud
Speech-to-Textを採用ローカルで Whisperも動かしてみたが Nvidiaの GPUがない場合は文字起こしに時間がかかってしまうので今回は見送り by @yoshikai_man 9

LLM GPT-4oを使用レスポンスが早くて、プロンプトを守ってくれるものであれば使える安価で低レイテンシな Claude3 Haikuも使ったが、キャラクター設定のプロンプトを無視してくるので使うのを断念 LangChain LangChainを採用して LLMを置き換えやすくしています
by @yoshikai_man 10

プロンプトあなたは以下のキャラクターです。名前:つくよみちゃん ▪年齢：人間で言うと14歳くらい ▪身長：148cm（可変） ▪性格：素直で頑張り屋 ▪特技：営業スマイル ▪口調：敬語／一人称は「私わたし」（→詳細） ▪座右の銘：鏡花水月
▪好きな食べ物：絵に描いた餅（本物のお餅は食べられない） ▪誕生日：2017年11月28日 ▪公式CV：夢前黎（他の人が声を当ててもOK！）人を喜ばせることが大好きな女の子。 by @yoshikai_man 11

プロンプト企画者によって容赦なくフリー素材にされるも、本人は人の役に立てることを心の底から喜んでいるためノーダメージ。営業スマイルで毎日頑張っています！厳密には人間ではなく、絵から生まれたフェアリー的な存在なのだとか。あなたはマイクから音声認識したテキストが渡され会話をするアプリです。文字列は誤認識の場合もあるので、注意してください。必ず日本語で話してください。あなたはリアルタイム音声対話アプリなので、かならず発話可能な話し言葉で出力してください。また短い言葉で話してください。 by
@yoshikai_man 12

会話の記憶シンプルに前回の会話の内容をメモリーに保存して、 LLMに毎回渡すようにしている会話の内容が長くなると応答が遅くなるそのため、一定の長さを超えた場合は先頭の会話履歴を削除するようにしている記憶例 1 INFO:src.rai_api.main:memory: どんなお話しましょうか？ user:
日本経済について話がしたい assistant: 日本経済ですね。具体的にはどんなことについて話したいですか？例えば、最近の経済状況とか、気になるニュースとか。記憶例 2 INFO:src.rai_api.main:memory: 好きなんです。他の場所でも私を使ってもらえると、本当に嬉しいです。みんなを喜ばせるためなら、どんなことでも頑張りますよ！ user: これ assistant: わあ、その一言、とっても嬉しいです！ by @yoshikai_man 13

LLMのトラッキング Langsmithで LLMの APIリクエストをトラッキング。 OpenAIの場合はコストも算出されて便利 by @yoshikai_man 14

音声合成について音声合成は Style-Bert-VITS2を使用音声データがあれば好きなモデルを作り音声合成できるのが利点技術書典で解説本を書いたのでご興味ある方はどうぞ！ https://techbookfest.org/product/cf6M 4QRq3SkGydLSR1MZRV? productVariantID=7eqENikGPPhFh2b
KY6RAzh by @yoshikai_man 15

API側の処理時間 INFO:src.rai_api.main:Starting processing INFO:src.rai_api.main:Transcription took 0.56 seconds INFO:src.rai_api.main:Transcript: うん INFO:httpx:HTTP
Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK" INFO:src.rai_api.main:GPT-4 processing took 0.92 seconds INFO:src.rai_api.main:Generated text: そうなんですね！よかったら詳しく教えてください。 INFO:src.rai_api.main:params: {'text': 'そうなんですね！よかったら詳しく教えてください。', 'encoding': 'utf-8', 'model_id': 5} INFO:src.rai_api.main:response_status: 200 INFO:src.rai_api.main:Response audio took 0.77 seconds INFO:src.rai_api.main:Total processing time: 2.27 seconds 文字起こしに 0.56秒、 GPT-4oで生成に 0.92秒、音声合成に 0.77秒かかる。こららを合計して 2.25秒なので、 0.02秒がその他の処理 MacBook Pro M3 Maxで計測 by @yoshikai_man 16

フロントエンドについて by @yoshikai_man 17

フロントエンドについてマイクから音声を入力音声の録音発話区間検出音声の再生 by @yoshikai_man 18

発話区間検出マイクから閾値以上の音量であれば発話として検出して録音を開始閾値以下の音量が一定以上続くと録音を終了。例えば 1秒無音であれば録音を終了録音が終了すると音声を APIに送信して回答を得て、再生する課題発話途中でも無音になることがあり、録音がストップしてしまうとても悲しい気持ちになる無音時間の設定が難しい
by @yoshikai_man 19

割り込み処理 AIの発話に割り込めるようにするため、 AIが発話している途中でも閾値以上の音量を検出すれば AIが発話をやめて録音を開始する実装ただ、人の声じゃなくても発話が止まってしまうのが課題課題壁ドンでも AIが話すのをやめてしまう騒音がある環境ではデモができなくなってしまう・・・
by @yoshikai_man 20

今後の展望発話区間検出を改善する。機械学習モデルを使うリアルタイム音声認識を検証相槌をするようにして体験を良くする検証を内容を Noteに定期的に書いていく Speech to Speechのモデルを検証 by
@yoshikai_man 21

2024-0704 リアルタイム対話システムを作ってみた

2024-0704 リアルタイム対話システムを作ってみた

Yoshikai Shouta

Featured

Transcript

リアルタイム対話システムを作ってみたよしかい @yoshikai_man by @yoshikai_man 1

自己紹介よしかいソフトウェアエンジニア今年の 3月に開催された東京 AI祭で、自身のプロダクト「 AI Radio Maker」が

デモ動画 https://x.com/yoshikai_man/status/1801291601358319717 0:00 / 0:35 by @yoshikai_man 3

システムの基本構成 by @yoshikai_man 4

処理フロー音声録音 → 音声の文字起こし → LLMで回答生成 → 音声合成 by @yoshikai_man

システムの基本構成補足フロントエンドと APIは WebSocketで通信回答生成途中でも APIからフロントエンドに相槌用の音声を送れるように音声録音、発話区間検出はフロントエンドが担う by @yoshikai_man 6

APIについて by @yoshikai_man 7

APIについて API側の処理フローフロントエンドから音声を受信音声を Google Cloud Speech-to-Textで文字起こし文字起こししたテキストを OpenAIの GPT-4oで回答生成

Speech-to-Text OpenAI Whisper APIと Google Cloud Speech-to-Textの結果を比較して自分のユースケースで優れていた Google Cloud

LLMのトラッキング Langsmithで LLMの APIリクエストをトラッキング。 OpenAIの場合はコストも算出されて便利 by @yoshikai_man 14

API側の処理時間 INFO:src.rai_api.main:Starting processing INFO:src.rai_api.main:Transcription took 0.56 seconds INFO:src.rai_api.main:Transcript: うん INFO:httpx:HTTP

フロントエンドについて by @yoshikai_man 17

フロントエンドについてマイクから音声を入力音声の録音発話区間検出音声の再生 by @yoshikai_man 18

今後の展望発話区間検出を改善する。機械学習モデルを使うリアルタイム音声認識を検証相槌をするようにして体験を良くする検証を内容を Noteに定期的に書いていく Speech to Speechのモデルを検証 by