Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2024-0704 リアルタイム対話システムを作ってみた

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for Yoshikai Shouta Yoshikai Shouta
July 04, 2024
310

2024-0704 リアルタイム対話システムを作ってみた

日々の生活に潤いを与えるキャラクターをLINE上に作ろう!【生成AI勉強会】でLTした資料です。
https://linedevelopercommunity.connpass.com/event/322686/

Avatar for Yoshikai Shouta

Yoshikai Shouta

July 04, 2024
Tweet

Transcript

  1. 自己紹介 よしかい ソフトウェアエンジニア 今年の 3月に開催された東京 AI祭 で、自身のプロダクト「 AI Radio Maker」が

    AiHUB賞を受賞 7/16からフリーランスで活動しま す。法人も設立予定 by @yoshikai_man 2
  2. Speech-to-Text OpenAI Whisper APIと Google Cloud Speech-to-Textの結果を比較して 自分のユースケースで優れていた Google Cloud

    Speech-to-Textを採用 ローカルで Whisperも動かしてみたが Nvidiaの GPUがない場合は文字起こしに時間がかかっ てしまうので今回は見送り by @yoshikai_man 9
  3. プロンプト あなたは以下のキャラクターです。 名前:つくよみちゃん ▪年齢:人間で言うと14歳くらい ▪身長:148cm(可変) ▪性格:素直で頑張り屋 ▪特技:営業スマイル ▪口調:敬語/一人称は「私わたし」 (→詳細) ▪座右の銘:鏡花水月

    ▪好きな食べ物:絵に描いた餅(本物のお餅は食べられない) ▪誕生日:2017年11月28日 ▪公式CV:夢前黎(他の人が声を当ててもOK!) 人を喜ばせることが大好きな女の子。 by @yoshikai_man 11
  4. 会話の記憶 シンプルに前回の会話の内容をメモリーに保存して、 LLMに毎回渡すようにしている 会話の内容が長くなると応答が遅くなる そのため、一定の長さを超えた場合は先頭の会話履歴を削除するようにしている 記憶例 1 INFO:src.rai_api.main:memory: どんなお話しましょうか? user:

    日本経済について話がしたい assistant: 日本経済ですね。具体的にはどんなことについて話したいですか?例えば、最近の経済状況とか、気になるニュースとか。 記憶例 2 INFO:src.rai_api.main:memory: 好きなんです。他の場所でも私を使ってもらえると、本当に嬉しいです。みんなを喜ばせるためなら、 どんなことでも頑張りますよ! user: これ assistant: わあ、その一言、とっても嬉しいです! by @yoshikai_man 13
  5. API側の処理時間 INFO:src.rai_api.main:Starting processing INFO:src.rai_api.main:Transcription took 0.56 seconds INFO:src.rai_api.main:Transcript: うん INFO:httpx:HTTP

    Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK" INFO:src.rai_api.main:GPT-4 processing took 0.92 seconds INFO:src.rai_api.main:Generated text: そうなんですね!よかったら詳しく教えてください。 INFO:src.rai_api.main:params: {'text': 'そうなんですね!よかったら詳しく教えてください。', 'encoding': 'utf-8', 'model_id': 5} INFO:src.rai_api.main:response_status: 200 INFO:src.rai_api.main:Response audio took 0.77 seconds INFO:src.rai_api.main:Total processing time: 2.27 seconds 文字起こしに 0.56秒、 GPT-4oで生成に 0.92秒、音声合成に 0.77秒かかる。 こららを合計して 2.25秒なので、 0.02秒がその他の処理 MacBook Pro M3 Maxで計測 by @yoshikai_man 16